国产成人精品a视频一区www_国产区视频在线观看_99色视频_欲色av_亚洲一区电影_亚洲综合视频一区

視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

來源:網(wǎng)絡(luò)

點(diǎn)擊:1051

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 視頻監(jiān)控,安防

    背景介紹

    該分享是阿里媽媽Goldeneye業(yè)務(wù)監(jiān)控平臺(tái)的智能監(jiān)控解決方案。

    這個(gè)分享主要包括智能監(jiān)控的技術(shù)實(shí)現(xiàn),以及大規(guī)模日志監(jiān)測數(shù)據(jù)的自動(dòng)化接入兩部分。我先介紹一下智能監(jiān)控部分,下一期分享中我的兩位同事將給大家著重介紹日志分析處理的計(jì)算存儲(chǔ)。智能監(jiān)控現(xiàn)在其他一些公司也有在做,希望通過這次分享能夠給大家?guī)硪恍┬碌膯l(fā),也歡迎大家能夠提出問題和建議,互相切磋交流經(jīng)驗(yàn)?!R小鵬

    相關(guān)廠商內(nèi)容

    分享內(nèi)容的提綱如下:Goldeneye智能監(jiān)控的業(yè)務(wù)背景、技術(shù)思想、技術(shù)實(shí)現(xiàn)細(xì)節(jié)、難點(diǎn)和今后的優(yōu)化方向。

    嘉賓介紹

    馬小鵬,阿里媽媽全景業(yè)務(wù)監(jiān)控平臺(tái)技術(shù)負(fù)責(zé)人。2013 起在阿里從事大規(guī)模系統(tǒng)日志分析及應(yīng)用的研發(fā),曾經(jīng)主導(dǎo)了直通車廣告主報(bào)表平臺(tái)和實(shí)時(shí)報(bào)表存儲(chǔ)選型。在加入阿里之前,曾負(fù)責(zé)網(wǎng)易電商 App 數(shù)據(jù)統(tǒng)計(jì)平臺(tái)的研發(fā)。

    一、Goldeneye智能監(jiān)控的背景

    Goldeneye作為阿里媽媽業(yè)務(wù)監(jiān)控平臺(tái),主要在業(yè)務(wù)日志、數(shù)據(jù)的實(shí)時(shí)統(tǒng)計(jì)分析基礎(chǔ)上做監(jiān)控報(bào)警以及輔助定位。阿里集團(tuán)內(nèi)部也有很多優(yōu)秀的監(jiān)控平臺(tái),它們在開放性上做的很好,接入成本也不高,但是監(jiān)控閾值也是開放給用戶自己設(shè)定。這種情況下,對于業(yè)務(wù)監(jiān)控人工維護(hù)閾值就比較復(fù)雜,需要有豐富的經(jīng)驗(yàn)來拍定閾值,需要人工持續(xù)的維護(hù)不同監(jiān)控項(xiàng)的監(jiān)控閾值。所以,在業(yè)務(wù)快速發(fā)展的前提下,傳統(tǒng)的靜態(tài)閾值監(jiān)控很容易出現(xiàn)了誤報(bào)、漏報(bào)的問題,而且人工維護(hù)成本高,監(jiān)控視野局限。Goldeneye就是在這種基礎(chǔ)上,我們試著從大數(shù)據(jù)應(yīng)用的角度,去解決業(yè)務(wù)監(jiān)控中的問題,由此誕生的。

    1. 業(yè)務(wù)背景:

    (1)體量大:Goldeneye現(xiàn)在接入的業(yè)務(wù)線覆蓋了阿里媽媽主體的90%業(yè)務(wù),每天處理的日志量在100T以上,業(yè)務(wù)監(jiān)控需要對各業(yè)務(wù)線的流量分層級實(shí)時(shí)監(jiān)控,核心數(shù)據(jù)以1分鐘為周期,一般監(jiān)測數(shù)據(jù)以5分鐘或1小時(shí)為周期,監(jiān)控目標(biāo)非常多,按人工維護(hù)這些監(jiān)控的閾值、啟停、生效實(shí)效等幾乎是達(dá)不到的。

    (2)變化多:業(yè)務(wù)監(jiān)控的監(jiān)測數(shù)據(jù)大都是業(yè)務(wù)指標(biāo),不同于系統(tǒng)運(yùn)維指標(biāo),比如RT/QPS/TPS等一般是比較穩(wěn)定的,業(yè)務(wù)指標(biāo)具有周期性變化的特點(diǎn),比如工作日和節(jié)假日的區(qū)別、業(yè)務(wù)營銷策略調(diào)整的影響等,在這種情況下人工設(shè)定的靜態(tài)報(bào)警閾值準(zhǔn)確性就很難保障了。

    (3)迭代快:隨著阿里媽媽資源整合和業(yè)務(wù)的快速發(fā)展,監(jiān)控目標(biāo)也經(jīng)常發(fā)生變化,比如流量監(jiān)控資源位的調(diào)整、效果監(jiān)控的產(chǎn)品類型劃分等,曾經(jīng)出現(xiàn)過新流量上線后的監(jiān)控盲點(diǎn)。

    2. 技術(shù)背景:

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖1 Goldeneye技術(shù)背景

    通常的業(yè)務(wù)監(jiān)控系統(tǒng)或平臺(tái),都是由采集、數(shù)據(jù)處理、檢測、報(bào)警等模塊組成的,Goldeneye也是如此,不過它的技術(shù)架構(gòu)上用了阿里內(nèi)部的一些技術(shù)中間件,比如采集我們使用TimeTunnel(它有agent在各臺(tái)日志服務(wù)器上拉日志到Topic,并且負(fù)責(zé)將離線日志放到ODPS上),這部分我不再介紹了。

    數(shù)據(jù)處理我們使用的jstorm和ODPS MR job分別對日志進(jìn)行實(shí)時(shí)、離線批處理,主要包括日志解析、校驗(yàn)、時(shí)間周期歸一化、聚合、寫存儲(chǔ)(HBase)等操作,這部分下一期分享中我的同事會(huì)詳細(xì)介紹。今天的分享主要集中在閾值預(yù)測、監(jiān)控檢測、報(bào)警生成&通知、輔助定位這四部分。

    二、技術(shù)思想

    智能監(jiān)控就是讓系統(tǒng)在業(yè)務(wù)監(jiān)控的某些環(huán)節(jié)上代替人工執(zhí)行和判斷的過程。人工維護(hù)監(jiān)控目標(biāo)和閾值是以經(jīng)驗(yàn)為參考的,系統(tǒng)如何自動(dòng)判斷哪些目標(biāo)需要監(jiān)控、自動(dòng)設(shè)定監(jiān)控目標(biāo)的閾值水位、不用人力維護(hù),是基于對歷史樣本數(shù)據(jù)統(tǒng)計(jì)分析得出判斷依據(jù)。

    通過收集監(jiān)測數(shù)據(jù)的樣本,并使用智能檢測算法模型,讓程序自動(dòng)對監(jiān)控項(xiàng)指標(biāo)的基準(zhǔn)值、閾值做預(yù)測,在檢測判斷異常報(bào)警時(shí)使用規(guī)則組合和均值漂移算法,能精確地判斷需要報(bào)警的異常點(diǎn)和變點(diǎn)。

    1.閾值水位自適應(yīng)變化

    以往我們添加監(jiān)控有兩種做法:

    給指標(biāo)M1設(shè)置一個(gè)水位線,低于(或高于)水位,觸發(fā)報(bào)警;

    給指標(biāo)M1設(shè)置同比、環(huán)比波動(dòng)幅度,比如同比波動(dòng)20%、環(huán)比波動(dòng)10%觸發(fā)報(bào)警;

    以上兩種方式,是平常大家常用的監(jiān)控方式,但是效果確不理想,這種靜態(tài)閾值長期來看沒有適應(yīng)變化的能力,需要人工維護(hù),而且報(bào)警準(zhǔn)確性也依賴于同環(huán)比數(shù)據(jù)的穩(wěn)定性。

    我們能否讓系統(tǒng)具備自動(dòng)適應(yīng)變化的能力,自動(dòng)調(diào)整閾值水位?就如同手動(dòng)擋的汽車換成自動(dòng)擋一樣,可以根據(jù)速度自己調(diào)節(jié)檔位。

    2.監(jiān)控項(xiàng)自動(dòng)發(fā)現(xiàn)

    當(dāng)我們的監(jiān)控系統(tǒng)具備預(yù)測動(dòng)態(tài)閾值的能力后,監(jiān)控項(xiàng)的維護(hù)是否也可以交給系統(tǒng)去做?

    可能大家也曾遇到過類似的情況,舊的監(jiān)控項(xiàng)已經(jīng)沒有數(shù)據(jù)了,新的監(jiān)控目標(biāo)卻因?yàn)楦鞣N原因被漏掉,人工維護(hù)監(jiān)控項(xiàng)需要及時(shí)同步上下線變更,但是當(dāng)我們需要監(jiān)控的目標(biāo)有一千個(gè)、一萬個(gè)甚至更多的時(shí)候,人力是無法一直跟進(jìn)這些監(jiān)控項(xiàng)的維護(hù)工作的,或者說這種工作比較單調(diào)容易被忽視。

    我們能否將判斷如何篩選監(jiān)控項(xiàng)的規(guī)則交給系統(tǒng),讓它去定期檢查哪些監(jiān)控項(xiàng)已經(jīng)實(shí)效,哪些監(jiān)控項(xiàng)需要新增,哪些監(jiān)控項(xiàng)的閾值需要調(diào)節(jié)。這種發(fā)現(xiàn)規(guī)則是穩(wěn)定的,僅僅是依據(jù)發(fā)現(xiàn)規(guī)則得出的監(jiān)控項(xiàng)內(nèi)容在不斷變化而已。

    3.過濾誤報(bào)時(shí)欲擒故縱

    當(dāng)我們的監(jiān)控系統(tǒng)具備預(yù)測動(dòng)態(tài)閾值、自動(dòng)發(fā)現(xiàn)并維護(hù)監(jiān)控項(xiàng)的能力后,如何達(dá)到不漏報(bào)和不誤報(bào)之間的平衡?

    對于監(jiān)控而言,漏報(bào)是不可容忍的,但是誤報(bào)過多也容易使人麻木。

    通常的做法是為了不被誤報(bào)干擾至麻木,會(huì)把閾值調(diào)節(jié)得寬松些,但是這種做法容易產(chǎn)生漏報(bào),尤其是下跌不太明顯的情況。

    Goldeneye采取的思路是對誤報(bào)case欲擒故縱,在首先確保不漏報(bào)的基礎(chǔ)上降低誤報(bào)率。先監(jiān)控產(chǎn)生疑似異常點(diǎn),這一環(huán)節(jié)我們基于動(dòng)態(tài)閾值去檢測時(shí)相對嚴(yán)格一些(或者說這一環(huán)節(jié)不用考慮報(bào)警收斂的問題),然后對這些疑似異常點(diǎn)再做驗(yàn)證、過濾,最終生成報(bào)警通知,驗(yàn)證和過濾的依據(jù)是預(yù)先定義的規(guī)則,比如指標(biāo)組合判斷、報(bào)警收斂表達(dá)式等。

    三、技術(shù)實(shí)現(xiàn)細(xì)節(jié)

    下面介紹技術(shù)實(shí)現(xiàn)的一些細(xì)節(jié),分為監(jiān)控系統(tǒng)的架構(gòu)、動(dòng)態(tài)閾值、變點(diǎn)檢測、智能全景、輔助定位五個(gè)點(diǎn)。

    1、整體介紹

    Goldeneye監(jiān)控系統(tǒng)的四個(gè)輸入:實(shí)時(shí)監(jiān)測數(shù)據(jù)、歷史數(shù)據(jù)、預(yù)測策略、報(bào)警過濾規(guī)則。

    其中,歷史數(shù)據(jù)是實(shí)時(shí)監(jiān)測數(shù)據(jù)的積累。

    而預(yù)測策略主要包括:

    (1)閾值參數(shù):設(shè)置基于預(yù)測基準(zhǔn)值的系數(shù)決定閾值上下限區(qū)間、分時(shí)段閾值預(yù)測系數(shù)、分報(bào)警靈敏度閾值預(yù)測系數(shù);

    (2)預(yù)測參數(shù):樣本數(shù)量、異常樣本過濾的高斯函數(shù)水位或者過濾比例、基于均值漂移模型的樣本分段選取置信度等。

    關(guān)于報(bào)警過濾規(guī)則,主要是為了在充分捕捉疑似異常點(diǎn)的前提下,過濾不必要的報(bào)警。比如指標(biāo)M1異常,但是組合規(guī)則是M1和M2同時(shí)異常才報(bào)警,這種就會(huì)過濾掉。再比如,按照報(bào)警收斂規(guī)則,一個(gè)監(jiān)控項(xiàng)的第1次,第2次,第10次,第50次連續(xù)報(bào)警值得關(guān)注,可以設(shè)置收斂表達(dá)式為1,2,10,50,那么在報(bào)警通知生成時(shí)對于第3,4,…,9,11,12,…,49次報(bào)警可以忽略,因?yàn)榉磸?fù)通知的意義不大,這個(gè)規(guī)則可以按需要達(dá)到自動(dòng)收斂。也可以在同一監(jiān)控項(xiàng)的多個(gè)實(shí)例同時(shí)發(fā)生異常報(bào)警的情況下,按規(guī)則合并成一條報(bào)警,這些規(guī)則可以按具體情況去實(shí)現(xiàn),最終的目的是以最簡潔的方式暴露最值得關(guān)注的報(bào)警。

    (這里補(bǔ)充一句,我們最近在考慮新的收斂方式,對第1條和最后1條報(bào)警,并且自動(dòng)計(jì)算出累積gap,這樣異常的起止和影響范圍更明顯)

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖2 Goldeneye報(bào)警系統(tǒng)架構(gòu)

    2、動(dòng)態(tài)閾值

    監(jiān)控使用控制圖,對監(jiān)測指標(biāo)的時(shí)間序列可視化,讓人們可以清楚的看到指標(biāo)的波動(dòng)。基于控制圖的監(jiān)控,以往很多都是靜態(tài)閾值方式,比如前面提到的靜態(tài)水位線、同環(huán)比。動(dòng)態(tài)閾值是為控制圖的時(shí)間序列每個(gè)點(diǎn),預(yù)估該點(diǎn)對應(yīng)時(shí)刻這個(gè)指標(biāo)的基準(zhǔn)值、閾值上限、閾值下限,從而讓程序可以自動(dòng)判斷是否有異常。因?yàn)檫@種預(yù)估基于過去幾個(gè)月甚至更多的歷史樣本作為參考,所以比同環(huán)比兩個(gè)數(shù)據(jù)作為參照的準(zhǔn)確度要高。動(dòng)態(tài)閾值預(yù)測的理論基礎(chǔ)是高斯分布和均值漂移模型。

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖3 動(dòng)態(tài)閾值原理

    動(dòng)態(tài)閾值預(yù)測的步驟主要是這樣:

    (1)樣本選?。哼@個(gè)根據(jù)自己的需要,一般建議選取過去50天左右的樣本。

    (2)異常樣本篩除:這個(gè)過程主要使用高斯分布函數(shù)過濾掉函數(shù)值小于0.01,或者標(biāo)準(zhǔn)方差絕對值大于1的樣本。

    (3)樣本截取:因?yàn)楹髞砦覀儍?yōu)化的版本,在(2)的基礎(chǔ)上使用均值漂移模型對歷史樣本在時(shí)間序列上進(jìn)行分段檢驗(yàn),如果有周期性變化、或者持續(xù)單調(diào)變化,則會(huì)反復(fù)迭代均值漂移模型尋找均值漂移點(diǎn),然后截取離當(dāng)前日期最近第一段(或者可以理解為最近一段時(shí)間最平穩(wěn)的樣本序列)。樣本選取還有一個(gè)需要注意的問題,節(jié)假日和工作日的樣本要分開選取,預(yù)測工作日的閾值要選擇工作日的樣本,節(jié)假日亦然,也就是對預(yù)測樣本從日期、周末、平穩(wěn)性三個(gè)維度拆分選取。

    (4)預(yù)測基準(zhǔn)值:經(jīng)過(2)和(3)的篩選、截取,剩下的樣本基本上是最理想的樣本了,在此基礎(chǔ)上,保持樣本在日期上的順序,按指數(shù)平滑法預(yù)測目標(biāo)日期的基準(zhǔn)值,得到基準(zhǔn)值以后根據(jù)靈敏度或閾值系數(shù),計(jì)算閾值上下限。

    (補(bǔ)充說明:第四步預(yù)測基準(zhǔn)值,有些人可能之前用過指數(shù)平滑法預(yù)測,跟第四步我們在樣本權(quán)重加權(quán)時(shí)的做法很相近,但是他們預(yù)測的效果不理想,因?yàn)閷颖菊w沒有充分的過濾選取最穩(wěn)定的樣本集合)

    3、變點(diǎn)檢測

    動(dòng)態(tài)閾值用數(shù)據(jù)統(tǒng)計(jì)分析的辦法解決了靜態(tài)閾值的誤報(bào)漏報(bào)問題,節(jié)省了人工維護(hù)的成本,一定程度上降低了監(jiān)控風(fēng)險(xiǎn)。不過在微量波動(dòng)、持續(xù)陰跌的故障面前,動(dòng)態(tài)閾值也有局限性,閾值區(qū)間收的太緊誤報(bào)會(huì)增多,區(qū)間寬松就會(huì)漏報(bào)一些不太顯著的故障。在review漏報(bào)case時(shí),我們從控制圖上發(fā)現(xiàn)這些微量波動(dòng)肉眼可以觀察到趨勢,但是程序通過閾值區(qū)間擊穿的判斷方式很難控制,所以引入了均值漂移模型來尋找變點(diǎn)。所謂變點(diǎn),就是持續(xù)微量下跌到一定時(shí)間,累積變化量到一定程度后,使得變點(diǎn)前后監(jiān)測指標(biāo)在一段時(shí)間內(nèi)的均值發(fā)生漂移。

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖4 均值漂移原理

    從上圖可以看到,均值漂移模型的算法原理,實(shí)際上是把程序不容易識(shí)別的陰跌趨勢,轉(zhuǎn)換成CUSUM時(shí)間序列,它的趨勢很明顯,在變點(diǎn)左側(cè)單調(diào)增、右側(cè)單調(diào)減,CUSUM時(shí)間序列描述了被監(jiān)測時(shí)間序列每個(gè)點(diǎn)偏離均值的累積變化量,它的規(guī)律是從S0=0開始,到Sn=0結(jié)束,變點(diǎn)兩側(cè)單調(diào)變化。

    CUSUM=Cumulative Sum。累積和用以在某個(gè)相對穩(wěn)定的數(shù)據(jù)序列中,檢測出開始發(fā)生異常的數(shù)據(jù)點(diǎn)。累積和最典型的應(yīng)用是在“改變檢測”(Change Detection)中對參量變化的檢測問題轉(zhuǎn)化了以后,用程序求CUSUM序列上每個(gè)點(diǎn)的一階導(dǎo)數(shù),從持續(xù)增變?yōu)槌掷m(xù)減即可判定為變點(diǎn),至于持續(xù)增、減多少個(gè)點(diǎn),由自己來設(shè)定。

    關(guān)于變點(diǎn)檢測使用的mean-shift模型,大家可以去網(wǎng)上找找paper,我這臺(tái)電腦上找不到了,上面主要說明了發(fā)現(xiàn)變點(diǎn)的原理,通俗地講,就是把問題轉(zhuǎn)化成程序容易解決的狀態(tài)陰跌線程序不容易量化衡量、判斷,那么就用CUSUM控制圖里的“富士山”形狀去尋找,這是我個(gè)人的通俗解釋。

    上面說到我們使用CUSUM序列上每個(gè)點(diǎn)的一階導(dǎo)數(shù)來判斷拐點(diǎn)(變點(diǎn))是否到來,其實(shí)圖上這個(gè)例子是比較理想的情況,在我應(yīng)用mean-shift模型時(shí),遇到了一些復(fù)雜情況,比如這個(gè)圖上就一個(gè)“山頭尖”,但是也時(shí)候會(huì)有多個(gè),這種情況下就要再次轉(zhuǎn)化問題,比如可以把CUSUM再差分,或者以我們的做法,記錄一階導(dǎo)數(shù)的狀態(tài)值,從連續(xù)N個(gè)正值變?yōu)槌掷m(xù)N個(gè)負(fù)值時(shí)可以判定。

    另外,變點(diǎn)檢測的算法實(shí)現(xiàn)我這里不方便詳細(xì)說明,其中變點(diǎn)在反復(fù)迭代時(shí)自己可以根據(jù)實(shí)際情況設(shè)定迭代次數(shù)和置信度,有助于提高變點(diǎn)發(fā)現(xiàn)的準(zhǔn)確性。

    4、智能全景

    變點(diǎn)檢測彌補(bǔ)了動(dòng)態(tài)閾值對細(xì)微波動(dòng)的檢測不足,這兩種方式結(jié)合起來,基本可以達(dá)到不漏報(bào)和不誤報(bào)的平衡,同時(shí)也不需要人工長期維護(hù),這是智能全景監(jiān)控的基礎(chǔ)。當(dāng)監(jiān)控的人力成本節(jié)省了以后,理論上我們可以依賴智能監(jiān)控?zé)o限制的開拓監(jiān)控視野,并將這些監(jiān)控報(bào)警連結(jié)起來分析。

    監(jiān)控項(xiàng)的自動(dòng)發(fā)現(xiàn)規(guī)則,比如對維度D的指標(biāo)M做實(shí)時(shí)監(jiān)控,維度D下可能由1000種維度值,而且是不斷變化的1000種,如何讓程序自動(dòng)維護(hù)監(jiān)控項(xiàng)?你可以制定一個(gè)規(guī)則,比如指標(biāo)M>X則認(rèn)為需要監(jiān)控(畢竟不是所有的都需要監(jiān)控報(bào)警,至少在目前故障定位處理沒有完全自動(dòng)化的狀況下,報(bào)警處理也是需要一定人力的)。在滿足M>X的條件下,為了提高報(bào)警準(zhǔn)確性,我們還需要根據(jù)重要性區(qū)分報(bào)警靈敏度,也就是對于宏觀、核心的維度值我們希望能夠非常靈敏的監(jiān)控波動(dòng),而對于非重要的維度值我們預(yù)測閾值可以寬松一些,這些可以通過上面說的閾值參數(shù)來設(shè)定。

    (說明:這個(gè)規(guī)則我這里只是舉一個(gè)例子,各位同仁可以根據(jù)自己的實(shí)際場景去實(shí)現(xiàn)一些規(guī)則,比如系統(tǒng)運(yùn)維層面的監(jiān)控,有些是按照距離故障發(fā)生的速度或風(fēng)險(xiǎn)系數(shù)來判斷,那么就可以圍繞這種指標(biāo)來制定,假如是對磁盤利用率的監(jiān)控,就是容量增長速度與剩余資源比例作為參考等等)

    以上條件都滿足了之后,智能全景監(jiān)控基本可以運(yùn)行,不過我們也曾遇到一些其他的問題,比如業(yè)務(wù)方需要接入監(jiān)控,但是不一定是必須要我們解析日志,他們有自己的數(shù)據(jù),可能是數(shù)據(jù)庫、接口返回、消息中間件里的消息等等。所以,我們在數(shù)據(jù)接入上采用分層接入,可以從日志標(biāo)準(zhǔn)輸出格式、存儲(chǔ)的時(shí)間序列schema約定、閾值預(yù)測的接口三個(gè)層次接入使用,這個(gè)內(nèi)容將在下一次分享時(shí)由我的同事單獨(dú)介紹。這里之所以提到,是因?yàn)槿氨O(jiān)控接入的數(shù)據(jù)比較多,所以接入途徑要有層次、靈活性。

    5、輔助定位

    報(bào)警的最終目的是減少損失,所以定位問題原因尤為重要。Goldeneye嘗試著用程序去執(zhí)行人工定位原因時(shí)的套路,當(dāng)然這些套路目前是通過配置生成的,還沒有達(dá)到機(jī)器學(xué)習(xí)得出來的地步,不過當(dāng)業(yè)務(wù)監(jiān)控指標(biāo)接入的越來越多,指標(biāo)體系逐漸完善以后,通過統(tǒng)計(jì)學(xué)的相關(guān)性分析,這些套路的生成也有可能讓程序去完成。這里我介紹一下,程序可以執(zhí)行的人工總結(jié)處的幾個(gè)套路。

    (1)全鏈路分析

    從技術(shù)架構(gòu)、業(yè)務(wù)流程的角度,我們的監(jiān)測指標(biāo)是否正常,從外部因素分析,一般會(huì)受到它的上游影響。按照這個(gè)思路,逐一分析上游是否正常,就形成了一條鏈路。這種例子很多,比如系統(tǒng)架構(gòu)的模塊A,B,C,D,E的QPS。

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖5 全鏈路tracing

    (插一句,全鏈路分析有兩種數(shù)據(jù)記錄方式,要么鏈路每個(gè)節(jié)點(diǎn)內(nèi)部透傳,拼接成完整鏈路處理信息記錄到最終的節(jié)點(diǎn)日志;要么異步地每個(gè)節(jié)點(diǎn)各自將信息push到中間件)

    (2)報(bào)警時(shí)間點(diǎn)上發(fā)生了什么?

    這是收到監(jiān)控報(bào)警后大多數(shù)人的反應(yīng),我們把運(yùn)維事件、運(yùn)營調(diào)整事件盡可能地收集起來,將這些事件地散點(diǎn)圖和監(jiān)測報(bào)警的控制圖結(jié)合起來,就能看出問題。如果程序自動(dòng)完成,就是將事件發(fā)生的時(shí)間點(diǎn)也按相同的方式歸一化到固定周期的時(shí)間點(diǎn),檢查與報(bào)警時(shí)間點(diǎn)是否吻合。

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖6 生產(chǎn)事件與時(shí)間序列

    (3)A/B test或TopN

    有些人定位問題,使用排除法縮小出問題的范圍。比如在維度D上指標(biāo)M有異常波動(dòng),可以將D拆分成D1,D2,D3來對比,常見的具體情況比如機(jī)房對照、分組對照、版本對照、終端類型對照等等,如果在監(jiān)測數(shù)據(jù)層級清晰的基礎(chǔ)上,我們可以一層一層的鉆取數(shù)據(jù)做A/B test,直到定位到具體原因。還有一種方式,不是通過枚舉切分做A/B test,而是直接以指標(biāo)M為目標(biāo),列出維度D的子維度D1,D2,D3,……中指標(biāo)M的TopN,找出最突出的幾項(xiàng)重點(diǎn)排查。

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖7 A/B test or TopN

    topn也是類似的。大家可以也能看出來,智能監(jiān)控和輔助定位是需要一個(gè)清晰的數(shù)據(jù)層級和元數(shù)據(jù)管理系統(tǒng)來支撐的,這一點(diǎn)很基礎(chǔ)。

    (4)關(guān)聯(lián)指標(biāo)

    不同的指標(biāo)在監(jiān)控中都是持續(xù)的時(shí)間序列,有些指標(biāo)之間是函數(shù)關(guān)系,比如ctr=click/pv,click和pv的變化必然帶來ctr的變化,這種聯(lián)系是函數(shù)直接描述的。還有一些指標(biāo)的關(guān)聯(lián),無法用函數(shù)公式描述,它們之間的相關(guān)性用統(tǒng)計(jì)學(xué)指標(biāo)來衡量,比如皮爾遜系數(shù)。Goldeneye的指標(biāo)關(guān)聯(lián)依據(jù),目前還沒有自動(dòng)分析,暫時(shí)是人工根據(jù)經(jīng)驗(yàn)設(shè)置的,只是視圖讓程序去完成追蹤定位的過程,比如指標(biāo)M1出現(xiàn)異常報(bào)警后能夠觸發(fā)相關(guān)指標(biāo)RMG1/RMG2/RMG3的檢測(因?yàn)檫@些指標(biāo)可能平時(shí)不需要7*24小時(shí)監(jiān)控報(bào)警,僅在需要的時(shí)候check),以此類推逐級檢測定位。

    這些方式或許大家平時(shí)也嘗試著去做過一些程序化的處理,我個(gè)人認(rèn)為關(guān)聯(lián)指標(biāo)的方式,基礎(chǔ)在于構(gòu)建指標(biāo)體系,這個(gè)構(gòu)建過程可以是人工經(jīng)驗(yàn)和程序統(tǒng)計(jì)分析的結(jié)合,指標(biāo)體系至少能夠描述指標(biāo)的分類、數(shù)據(jù)出處、具體含義、影響相關(guān)指標(biāo)的權(quán)重等等,有了這些基礎(chǔ)才能應(yīng)用統(tǒng)計(jì)學(xué)的分析方法完成。

    四、難點(diǎn)

    1、時(shí)間序列平穩(wěn)化

    平穩(wěn)化的時(shí)間序列,對預(yù)測準(zhǔn)確性有非常重要的意義,可是我們的業(yè)務(wù)監(jiān)測時(shí)間序列恰好大多數(shù)都不是平穩(wěn)化的,以5分鐘的監(jiān)測周期為力,除了大盤及核心監(jiān)測序列,其他的時(shí)間序列都是在一定范圍內(nèi)正常波動(dòng)但總體趨勢卻是穩(wěn)定的。我們目前采用的方法是:

    視頻監(jiān)控落地四要素:預(yù)測、檢測、報(bào)警及定位

    圖8 關(guān)聯(lián)指標(biāo)

    (1)滑動(dòng)平均,比如波動(dòng)鋸齒明顯,容易造成誤報(bào)干擾的化,則加大監(jiān)控監(jiān)測周期,將5分鐘提高到30分鐘,相當(dāng)于擬合6個(gè)時(shí)間窗口的數(shù)據(jù)來平滑時(shí)間序列。

    (2)持續(xù)報(bào)警判斷,如果覺得30分鐘發(fā)現(xiàn)問題會(huì)比較晚,可以按5分鐘檢測,鋸齒波動(dòng)容易發(fā)生報(bào)警,但可以連續(xù)3次報(bào)警再發(fā)通知,這樣就避免了鋸齒波動(dòng)的誤報(bào)。

    (3)對于需要均值漂移來檢測細(xì)微波動(dòng)的情況,24小時(shí)的時(shí)間序列本身有流量高峰和低谷,這種情況一般采用差分法做平滑處理,使用幾階差分自己掌握。Goldeneye沒有直接使用差分法,因?yàn)槲覀円呀?jīng)預(yù)測了基準(zhǔn)值,所以我們使用實(shí)際監(jiān)測值與基準(zhǔn)值的gap序列作為變點(diǎn)監(jiān)測的輸入樣本。

    2、埋點(diǎn)代價(jià)

    業(yè)務(wù)監(jiān)控的監(jiān)測數(shù)據(jù)來源主要是日志、業(yè)務(wù)系統(tǒng)模塊吐出到中間件、采集接口被push,從系統(tǒng)各模塊吐出數(shù)據(jù)到中間件似乎比直接寫入磁盤的IO開銷小很多,不過對于請求壓力比較大的系統(tǒng),開旁路寫出數(shù)據(jù)即使是內(nèi)存級也是有一定開銷的。

    解決這個(gè)問題的辦法是數(shù)據(jù)采樣,對于在時(shí)間上分布均勻的監(jiān)測數(shù)據(jù),直接按百分比采樣。

    3、數(shù)據(jù)標(biāo)準(zhǔn)化

    雖然數(shù)據(jù)接入是分層開放的,但是我們還是制定了標(biāo)準(zhǔn)的數(shù)據(jù)格式,比如時(shí)間序列數(shù)據(jù)存儲(chǔ)schema,可擴(kuò)展的日志消息proto格式,在這些結(jié)構(gòu)化數(shù)據(jù)的定義中,可以區(qū)分出業(yè)務(wù)線、產(chǎn)品、流量類型、機(jī)房、版本等一些標(biāo)準(zhǔn)的監(jiān)控維度信息,這樣做的目的是以后可以將這些監(jiān)測數(shù)據(jù)和故障定位的指標(biāo)相關(guān)性分析銜接起來。

    但是,這些標(biāo)準(zhǔn)化的推進(jìn)需要很多參與者的認(rèn)可和支持,甚至需要他們在系統(tǒng)架構(gòu)上的重構(gòu),看似是比較困難的。

    目前可以想到的辦法,就是在旁路吐出監(jiān)測數(shù)據(jù)時(shí),以標(biāo)準(zhǔn)化的消息格式封裝,然后保證在Goldeneye的存儲(chǔ)層有標(biāo)準(zhǔn)的schema和接口訪問。

    五、今后的優(yōu)化方向

    時(shí)間序列預(yù)測模型,目前的模型只考慮了日期、節(jié)假日/周末、時(shí)間段的因素,沒有年同比趨勢、大促活動(dòng)影響、運(yùn)營調(diào)整影響的因素,需要抽象出來。

    指標(biāo)相關(guān)性由統(tǒng)計(jì)分析程序來確定。


    (審核編輯: 林靜)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。

    主站蜘蛛池模板: 麻豆精品国产91久久久久久 | 特级黄一级播放 | 色吊丝2288sds中文字幕 | 91国高清视频 | 欧美一区高清 | 日本不卡免费新一二三区 | 免费黄在线看 | 免费黄色在线网址 | 美日韩精品视频 | 成人免费在线电影 | 在线99热 | 超碰在线播 | 国产依人在线 | 2021狠狠干| 亚洲一区二区三区在线视频 | 精品视频久久久 | 麻豆freexxxx性91精品 | 欧美99 | 做爱网站| 2019中文字幕在线观看 | 91网在线观看 | 99国产精品久久久久久久 | 国产精品视频一区二区三区四蜜臂 | 日韩一区二区福利 | 日韩免费区 | 欧美成人午夜精品久久久 | 99国产精品久久久久久久成人热 | 成人在线中文字幕 | 亚洲伊人中文字幕 | 日本啪啪网站 | 999精品免费 | 蜜桃一本色道久久综合亚洲精品冫 | 青草免费 | 国产黄色av | 玖玖色资源 | a级在线 | 日韩成人影院 | 国产精品国产三级国产aⅴ原创 | 国产在线第一页 | 久久er99热精品一区二区 | 色综合天天天天做夜夜夜夜做 |