根據集團信息化規劃,遵循“互聯網+”的理念,建設集團大數據平臺,實現集團數據資源的集中及整合,構建集團統一的數據模型,提高企業數據的處理效率與共享程度。實現對集團企業內部數據和外部數據的分析挖掘,對內對外提供數據服務。為全網提供決策支持、產品創新、交叉營銷、服務支撐、風險管控以及流程優化等支撐服務。
集團大數據平臺將在Hadoop和云計算等技術的基礎上,對金融大數據平臺、量收系統、生產系統、CRM系統、電商平臺、數據分析綜合服務平臺的歷史數據、數據模型、報表應用等進行移植,全面整合集團業務數據。數據來源涵蓋集團所有的生產和管理系統,并可接入同業及相關市場甚至互聯網信息,建立從業務層到管理層到決策層的智能分析體系,模擬量化風險和收益,實現對集團各種業務數據進行分類、管理、統計和分析等功能,給各級管理人員提供各類準確的統計分析預測數據,使其能夠及時掌握全面的經營狀況,為宏觀決策提供支持;為基層業務人員提供詳盡的數據,供其對各自的工作目標、當前和歷史狀況進行準確的把握,對業務活動進行有效支撐;滿足集團經營管理及決策支持,建設國內一流,世界領先的大數據平臺。
本方案提供統一的運維監控服務。本方案涉及到的所有軟件的部署都通過Docker打包成鏡像文件,以便非常快捷的部署實施。內部系統通過鏡像數據接口交互層進行交互。通過外部接口層納入集團運維平臺進行統一監控
一站式大數據平臺提供集群自動化部署服務。用戶只需要安裝管理平臺軟件,就可以在友好的圖形化界面上安裝、部署、配置所需要的服務。整個安裝過程不需要用戶使用任何終端命令或者代碼。
平臺提供了強大的在線擴容功能,不需要宕機停庫,不需要停止業務,就可以添加新的節點,實現擴容。節點添加完成之后可以立即對新添加的節點進行角色的分配,一旦配置成功,則新加的節點就會馬上投入運算。擴容之后的數據節點也不需要停機進行數據重分布,系統自動選擇空閑的時間進行數據的重新分布。同時,擴容的操作可以方便的在界面進行操作。
平臺通過專門的監控服務對集群的狀態進行監控,包括服務器CPU、內存、網絡和磁盤的利用率和健康狀態,以及分布式應用系統的狀態,并在故障發生或者某項指標超過預設閥值時時提供告警功能。管理員可通過瀏覽器訪問集群的監控和管理界面進行日常的監控和維護,系統提供圖標信息展示。管理員可以便捷了解到集群的計算資源是否處于空閑狀態、哪些服務器的負載過高,甚至判斷集群的組網及機架安排是否合理等。管理員也可通過對各個節點的各個角色的日志信息進行檢索,獲得更加精確的信息。
平臺提供計算任務管理和作業管理,包括作業的上傳、配置、啟動、停止、刪除和狀態查看等功能。
在平臺中,資源可以從多個方面進行管理。從資源管理模塊的層面,用戶通過配置不同的Scheduler來定義不一樣的資源使用策略,目前支持FIFO Scheduler、Fair Scheduler以及Capacity Scheduler,實現作業動態調整,支持對任務系統資源占用進行實時調配,改變作業調度優先級等操作。
通過集群監控系統向集團運維監控平臺發送監控消息,提供對接接口,實現大數據平臺與集團運維監控平臺的互通,實現統一監控。
平臺通過專門的監控服務對集群的狀態進行監控,包括服務器CPU、內存、網絡和磁盤的利用率和健康狀態,以及分布式應用系統的狀態,并在故障發生或者某項指標超過預設閥值時提供告警功能。管理員可通過瀏覽器訪問集群的監控和管理界面進行日常的監控和維護,系統提供圖表信息展示。管理員可以便捷的了解到集群的計算資源是否處于空閑狀態、哪些服務器的負載過高,甚至判斷集群的組網及機架安排是否合理等。管理員也可通過對各個節點的各個角色的日志信息進行檢索,獲得更加精確的信息。
平臺提供功能完整,性能優異的ETL框架支持平臺建設,針對數據的預處理,中間的轉換清洗,包括寫入目標時針對異常數據的捕獲。整個過程由平臺提供的調度平臺,元數據管理平臺提供支撐,讓各部分之間緊密合作,又各司其職。
針對此項目復雜的業務系統和管理,平臺提供完善的調度功能,以更好的對各個模塊進行良好調度管理。
調度平臺是平臺的數據流核心,調度平臺讓相關的業務系統、處理系統按照一定的業務邏輯,在客戶的安排下,像流水線一樣,或串行,或并行,按照一定的依賴關系,在每日,每周定時觸發,依次執行。平臺提供完善的接口和管理模塊,讓眾多的作業管理簡易高效。
本方案提供的大數據平臺支持多種環境,以便于后續進行多種數據分析與挖掘,并提供多個接口對數據進行導出,以便于客戶在體外進行數據分析;也提供數據沙盤給特定的數據分析師進行數據分析,數據沙盤也提供多個數據以及產品接口,以便于進行數據探索。
本方案的平臺采用Hadoop平臺,它本身是一個并發存儲、并發計算的高效平臺,選用了 Discover的挖掘模塊,它是在對開源的R全面支持的基礎上,結合SparkR進行了代碼的重大改造。并對常用的R算法進行了并行化改造,這些改造正是基于大數據中關鍵的體量巨大這個維度進行的優化。之前的數據挖掘由于在單機上進行,而由于數據挖掘需要對數據進行大量的衍生和關聯運算,會讓待分析的數據集積聚擴大,因而很多數據挖掘針對海量數據只能采用抽樣的策略進行模型訓練,讓挖掘效果受到很大影響。在并發R算法的支撐下,只要節點數足夠,原則上可以處理任意體量的數據。
平臺支持R、ANSI SQL、Python、Java、C/C++等語言,采用B/S架構,提供圖形化界面操作支持,操作界面支持簡體中文。支持多數據來源輸入輸出提供表格、圖形、地圖等可視化元素展示功能,將提供以下相關功能和特性:
標準企業報表,固定報表等。
參數驅動報表,各種基于參數的報表。
周期性報表,例如周報,月報,季報等,系統支持管理員定義周期性運行,亦支持業務用戶自定義重復運行方式,用戶或管理員可以定義輸出格式,包括PDF,Excel,Word,PPT等各種格式;系統同時提供基于事件的觸發方式。
支持鉆取功能,提供基于事件的腳本控制能力,以滿足各種復雜報表需求。
復雜中國式報表,包括中國式表頭、復雜布局、特殊功能等各種能力。
提供豐富的圖形展現功能,支持包括餅圖、條形、線形、儀表盤、趨勢圖及各種圖形;支持Flash圖形。
支持報表導出到Excel、Word、PPT、HTML和PDF等格式,導出時可以選擇導出整個報表還是部分內容;系統支持導出數據快照,以便日后審計等。
支持將報表導出成原生Excel,報表中的圖形(非Flash)能導出為原生Excel圖形,能夠在導出后的Excel中進一步編輯,支持導出Excel公式,透視表等。
提供數據導出功能,用戶能將所查看的報表中數據進行有選擇的導出。
提供報表版本管理能力,為不同的執行結果保留不同的版本。
提供基于角色和用戶的權限控制,管理員可以為不同的角色和用戶設置相應的功能選項及權限。
多語言多時區支持,系統為不用語言環境用戶提供多語言支持,用戶在登錄時可以選擇時區及語言,系統將自動切換至相應的UI(僅限UI)。