一、傳統(tǒng)日志處理技術困境
圖1 傳統(tǒng)日志處理技術困境
如上圖所示,面對海量機器數(shù)據(jù),傳統(tǒng)的日志處理技術存在較多問題的,可以歸納為以下幾點:
1) 數(shù)據(jù)孤島。在傳統(tǒng)日志處理系統(tǒng)中,各設備/系統(tǒng)的日志數(shù)據(jù)是孤立、分散存儲在不同系統(tǒng)中的,不同系統(tǒng)的日志數(shù)據(jù)無法進行關聯(lián)和發(fā)現(xiàn)共性。在定位分析問題時,系統(tǒng)管理員往往需要多次登陸不同系統(tǒng),使用簡易的腳本命令或程序查看日志數(shù)據(jù),操作繁瑣,并且容易出錯。如何解決機器數(shù)據(jù)統(tǒng)一存儲和管理問題?
2) 海量存儲。傳統(tǒng)日志處理系統(tǒng)采用關系型數(shù)據(jù)庫,無法適應TB/PB級機器數(shù)據(jù)存儲和快速訪問性能要求,也不適合處理以非結構化類型為主的機器數(shù)據(jù)。如何解決海量非結構化機器數(shù)據(jù)低成本存儲和持續(xù)可擴展性問題?
3) 全文檢索。傳統(tǒng)日志處理系統(tǒng)無法實現(xiàn)從非結構化的機器數(shù)據(jù)全文中快速查找相關匹配信息。如何實現(xiàn)問題快速查找、定位和回溯?
4) 價值發(fā)掘。傳統(tǒng)日志處理系統(tǒng)在數(shù)據(jù)存儲、快速計算、全文檢索等方面存在諸多限制,同時也限制了對機器數(shù)據(jù)的新價值挖掘。如何快速實現(xiàn)對來源不同的機器數(shù)據(jù)進行關聯(lián)分析和機器學習,發(fā)掘新的數(shù)據(jù)價值,如:總體態(tài)勢、趨勢分析、異常預測等,并通過可視化圖表和儀表盤進行直觀呈現(xiàn)?
當前,大數(shù)據(jù)技術可以很好地解決傳統(tǒng)日志系統(tǒng)存在的諸多問題。
二、大數(shù)據(jù)技術用于ITOA
圖2 大數(shù)據(jù)應用于ITOA
如圖2所示,IT系統(tǒng)中的存儲、服務器、數(shù)據(jù)庫、中間件、操作系統(tǒng)、網(wǎng)絡、安全、虛擬機、應用等所有部件的機器數(shù)據(jù),如:日志、配置、事件、告警等,都可以統(tǒng)一采集和存儲到一個大數(shù)據(jù)平臺,進行統(tǒng)一管理、檢索和分析。大數(shù)據(jù)技術采用分布式存儲,基于X86服務器集群及橫向擴展能力,可以提供海量的、低成本的存儲能力,為統(tǒng)一數(shù)據(jù)管理,打破數(shù)據(jù)孤島提供基本的技術能力;同時,通過Hadoop并行處理框架對海量數(shù)據(jù)進行快速數(shù)據(jù)計算,通過ElasticSearch對非結構化數(shù)據(jù)提供一個分布式全文檢索引擎,可支持快速全文檢索、數(shù)據(jù)關聯(lián)分析、機器學習挖掘等價值變現(xiàn)能力。
三、新華三IT大數(shù)據(jù)
圖3 IT大數(shù)據(jù)技術架構
IT大數(shù)據(jù)是一款針對數(shù)據(jù)中心推出的大數(shù)據(jù)應用系統(tǒng),基于分布式處理架構,通過對日志數(shù)據(jù)、傳感數(shù)據(jù)、安全事件、KPI指標、網(wǎng)絡數(shù)據(jù)等機器數(shù)據(jù)進行統(tǒng)一采集、解析、存儲和管理,提供全文檢索、機器學習、關聯(lián)分析、可視化圖表、監(jiān)控告警等功能,幫助用戶獲得海量機器數(shù)據(jù)有價值的信息。IT大數(shù)據(jù)由大數(shù)據(jù)平臺、數(shù)據(jù)采集、應用適配、IT大數(shù)據(jù)應用和運維管理等五個部分組成。
1.大數(shù)據(jù)平臺
大數(shù)據(jù)平臺基于分布式計算框架Hadoop/Spark和分布式檢索引擎ElasticSearch混合架構。
ElasticSearch是當前流行的企業(yè)級全文檢索引擎,其特點包括:支持JOSN進行數(shù)據(jù)索引、支持RESTful檢索引擎接口、基于Lucene全文檢索引擎等。ElasticSearch提供分布式檢索引擎架構,基于X86服務器及本地硬盤,可以橫向擴展集群節(jié)點到上千臺,存儲和處理PE/EB索引數(shù)據(jù)。ElasticSearch支持索引數(shù)據(jù)分塊和多副本機制,副本分布存儲在集群的不同節(jié)點,可提供分布式處理能力,并支持索引數(shù)據(jù)的冗余備份機制。
IT大數(shù)據(jù)對Hadoop/Spark和ElasticSearch進行深度混合應用,ElasticSearch作為數(shù)據(jù)源,Hadoop/Spark作為執(zhí)行引擎,通過實現(xiàn)Hadoop和ElasticSearch之間的輸入/輸出,可以在Hadoop/Spark里面對ElasticSearch集群的數(shù)據(jù)進行讀取和寫入,充分發(fā)揮Hadoop/Spark并行處理的優(yōu)勢,為Hadoop/Spark數(shù)據(jù)帶來實時全文搜索能力。
2.數(shù)據(jù)采集
針對數(shù)據(jù)中心機器數(shù)據(jù)來源的多樣性,IT大數(shù)據(jù)實現(xiàn)了多種數(shù)據(jù)采集方式,對網(wǎng)絡、安全、服務器、存儲等日志數(shù)據(jù),通過配置和監(jiān)聽UDP端口采集;對主機性能、應用性能、數(shù)據(jù)庫日志等數(shù)據(jù),通過在客戶端安裝探針進行采集。
機器數(shù)據(jù)是基于時間序列生成的非結構化數(shù)據(jù),無標準格式,不同廠家的設備/系統(tǒng)格式都不一樣,IT大數(shù)據(jù)支持自定義解析規(guī)則,可以兼容任意廠家的機器數(shù)據(jù)格式。
利用Kafaka+Storm/Stream組件對數(shù)據(jù)進行接收、解析和加載等進行分布式處理,可以大幅提升數(shù)據(jù)采集性能,支持多達數(shù)十萬個數(shù)據(jù)源并行采集。
3.應用適配
通過IT大數(shù)據(jù)提供的應用適配功能,用戶可以快速生成所需的場景化應用。
全文檢索功能能夠幫助用戶快速查詢所需要全文信息,用于問題查找、定位和回溯等,用戶可以自定義檢索條件,包括模糊查詢、優(yōu)先級、操作符(AND、OR、NOT、+、-),可定義查詢索引表組合和范圍,可自定義報表字段以及時間序列等。
可視化圖表對檢索或分析結果進行可視化展示,圖表類型豐富,包括:折線圖、面積圖、餅圖、地圖、區(qū)域圖、表格、曲線圖、柱狀圖、雷達圖、標簽云、桑基圖、時間軸、熱力圖、雷達圖、雷達掃描圖等,多個圖表可以組成主題儀表盤。
使用監(jiān)控告警功能,可以對異常分析結果進行告警,并通過email、聲音提醒、web通知等方式通知用戶。
4.IT大數(shù)據(jù)應用
IT大數(shù)據(jù)應用可以分以下幾種類型,包括:
主題統(tǒng)計/分析類型。基于某個主題,對相關機器數(shù)據(jù)進行統(tǒng)計、分析,生成可視化報告。例如:IT態(tài)勢感知,對IT系統(tǒng)中整體信息進行分析、統(tǒng)計,實時監(jiān)控IT系統(tǒng)的整體健康狀況;網(wǎng)絡安全態(tài)勢主題,對IT系統(tǒng)中所有安全相關的信息進行分析和統(tǒng)計,監(jiān)控整個網(wǎng)絡的安全動態(tài);無線軌跡態(tài)勢主題,對智能終端軌跡數(shù)據(jù)進行分析和統(tǒng)計,監(jiān)控整個熱點區(qū)域軌跡態(tài)勢,并對重點軌跡行為進行分析。
異常查找/定位類型。通過全文檢索功能,根據(jù)異常的特征,從整個IT系統(tǒng)機器數(shù)據(jù)中查找/定位所有相關信息,描繪異常發(fā)生的路徑,回溯異常發(fā)生的源頭。例如:故障快速定位/異常行為追蹤,按故障/異常的特征進行全文檢索,能夠檢索出故障/異常發(fā)生的所有相關設備、時間、路徑和源頭,并通過可視化圖表進行展示。
趨勢研判/預測類型。對系統(tǒng)內相關樣本數(shù)據(jù)采用機器學習算法訓練出相關模型,能夠對特征行為進行預測和趨勢分析。例如:網(wǎng)絡流量預測,通過采集大量的樣本數(shù)據(jù),通過時間序列和流量等關鍵特征訓練建模,能夠預測未來實際網(wǎng)絡流量的流向、大小等趨勢。
5. 運維管理
運維管理部分實行對IT大數(shù)據(jù)集群的安裝部署、運維監(jiān)控、單點登錄、用戶管理、權限管理和安全審計等系統(tǒng)功能,為用戶使用IT大數(shù)據(jù)系統(tǒng)提供基本管理。
四、結束語
移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、SaaS等新技術的快速發(fā)展,驅動IT運營由過去的支撐系統(tǒng)向價值創(chuàng)造的生產(chǎn)系統(tǒng)轉變。IT大數(shù)據(jù)能夠最大程度地解決了現(xiàn)代數(shù)據(jù)中心的管理矛盾問題,滿足了云計算、大數(shù)據(jù)時代對數(shù)據(jù)中心環(huán)境整體監(jiān)控、運維管理、分析預測等要求,幫助用戶極大地提高數(shù)據(jù)中心的可用性、可維護性和工作效率,同時大幅降低運維管理成本,為數(shù)據(jù)中心的運營分析帶來巨大的應用價值。
(審核編輯: 智匯小新)
分享