[No.X058-2]
7月29日下午, 由深圳市金融科技協(xié)會(huì)主辦的“灣區(qū)金科(Fintech)沙龍(第九期)——智能運(yùn)維專場”在灣區(qū)國際金融科技城7樓成功舉辦。深圳市金融科技協(xié)會(huì)會(huì)員代表、灣區(qū)國際金融科技城、國際金融科技生態(tài)園入駐企業(yè)代表等逾100人參加沙龍。華青融天南區(qū)技術(shù)總監(jiān)吳偉平受邀參加,并以“基于網(wǎng)絡(luò)流量的旁路式應(yīng)用性能監(jiān)控的應(yīng)用和實(shí)踐”為題作了演講。
華青融天南區(qū)技術(shù)總監(jiān)吳偉平
眾所周知,運(yùn)維團(tuán)隊(duì)的核心工作是要保障業(yè)務(wù)系統(tǒng)穩(wěn)定性。而衡量穩(wěn)定性有兩個(gè)關(guān)鍵指標(biāo): MTBF和MTTR。MTBF指的平均故障間隔時(shí)間,即是一個(gè)業(yè)務(wù)系統(tǒng)在出現(xiàn)第一次故障和第二次故障之間的間隔時(shí)長;MTTR指的是平均故障修復(fù)時(shí)間,即發(fā)生故障后修復(fù)的平均時(shí)長。那么,對(duì)于運(yùn)維團(tuán)隊(duì)來說,構(gòu)建運(yùn)維體系的核心目標(biāo)就是要盡可能提升MTBF,降低MTTR,如果這兩個(gè)目標(biāo)都達(dá)到了,就可以認(rèn)為系統(tǒng)是趨近于穩(wěn)定的。
當(dāng)故障發(fā)生的時(shí)候,第一個(gè)要做的事情就是識(shí)別這個(gè)故障,這個(gè)階段稱為故障發(fā)現(xiàn)階段。從故障實(shí)際發(fā)生到我們整整開始響應(yīng),這段時(shí)間叫做MTTI,稱之為平均故障發(fā)現(xiàn)時(shí)間。
識(shí)別故障之后要做的事情是定位故障的原因,這個(gè)階段稱為故障定位階段。我們需要弄清楚問題的根源是網(wǎng)絡(luò)、服務(wù)器還是應(yīng)用層面,故障的根因定位花費(fèi)的時(shí)間叫做MTTK,這個(gè)稱之為平均故障認(rèn)知時(shí)間,核心工作就是要去定位故障根源。
根因弄清楚后,下一步要做的事情是要采取措施恢復(fù)業(yè)務(wù),這個(gè)階段稱之為故障恢復(fù)階段。故障恢復(fù)對(duì)應(yīng)的衡量指標(biāo)就是MTTF,平均故障解決時(shí)間。
再往后,故障解決之后我們需要驗(yàn)證問題是否真正解決,這個(gè)稱之為故障恢復(fù)驗(yàn)證階段。故障恢復(fù)驗(yàn)證階段對(duì)應(yīng)的指標(biāo)是MTTV,即平均故障修復(fù)驗(yàn)證時(shí)間。
以上就是MTTR的四個(gè)階段和四組指標(biāo)。
如上面的餅圖,這個(gè)圖里有兩個(gè)關(guān)鍵的特征一直困擾著運(yùn)維團(tuán)隊(duì),第一個(gè)特征,就是大部分問題都是由用戶發(fā)現(xiàn),而不是運(yùn)維團(tuán)隊(duì)發(fā)現(xiàn)的,運(yùn)維團(tuán)隊(duì)經(jīng)常陷入被動(dòng)救火狀態(tài)。。第二個(gè)特征就是有90%的問題是用來定位問題根源在哪兒的。以至于在運(yùn)維圈子里面有一句調(diào)侃的話,當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)問題的時(shí)候,任何環(huán)節(jié)都可能有問題,但運(yùn)維監(jiān)控一定有問題。
提高故障發(fā)現(xiàn)能力和故障定位效率是運(yùn)維團(tuán)隊(duì)亟需解決的兩項(xiàng)挑戰(zhàn)。
華青融天的鷹眼產(chǎn)品(EZSonar)有五個(gè)能力可以有效地幫助運(yùn)維團(tuán)隊(duì)提高故障發(fā)現(xiàn)能力和故障定位效率,最終達(dá)到縮減MTTR的目的。
1. 微監(jiān)控
融天鷹眼對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行更細(xì)顆粒度的實(shí)時(shí)監(jiān)控,保障業(yè)務(wù)系統(tǒng)的健康運(yùn)行。它可對(duì)業(yè)務(wù)系統(tǒng)的每一個(gè)交易代碼、網(wǎng)銀的每一個(gè)URL、柜面系統(tǒng)的每一個(gè)營業(yè)網(wǎng)點(diǎn)進(jìn)行獨(dú)立監(jiān)控,實(shí)時(shí)掌握其健康狀態(tài),任何一個(gè)局部出現(xiàn)問題時(shí),都能實(shí)時(shí)發(fā)現(xiàn)、秒級(jí)定位。
2. 輕告警
針對(duì)告警太多、太重的運(yùn)維現(xiàn)實(shí),融天鷹眼通過減少誤告警、提高告警信息量、降低告警噪音,實(shí)現(xiàn)高效率的平衡,使運(yùn)維人員既兼顧業(yè)務(wù)的健康運(yùn)行,又節(jié)省時(shí)間精力。
3. 慧分析
依托機(jī)器學(xué)習(xí)的AI技術(shù),融天鷹眼使全量解碼的海量業(yè)務(wù)數(shù)據(jù)可自主學(xué)習(xí),進(jìn)行故障的分析定位。融天鷹眼可對(duì)業(yè)務(wù)系統(tǒng)的任意一筆交易代碼進(jìn)行追蹤,尤其對(duì)重點(diǎn)對(duì)公業(yè)務(wù)、重點(diǎn)VIP大客戶業(yè)務(wù)等進(jìn)行精準(zhǔn)監(jiān)控,及時(shí)發(fā)現(xiàn)問題,保障用戶體驗(yàn)。
4. 全鏈路
融天鷹眼監(jiān)控從業(yè)務(wù)的發(fā)起端到核心系統(tǒng)的整條鏈路,跨越多個(gè)物理節(jié)點(diǎn)、集群和數(shù)據(jù)中心,從業(yè)務(wù)維度聚焦每個(gè)業(yè)務(wù)類型,實(shí)現(xiàn)節(jié)點(diǎn)級(jí)的根源定位,當(dāng)問題發(fā)生時(shí)可順藤摸瓜、一目了然。
5. 快定位——有效縮短MTTR
能否真正幫助縮短MTTR(平均修復(fù)時(shí)間),是衡量運(yùn)維產(chǎn)品是否有用的金標(biāo)準(zhǔn)。
融天鷹眼通過“微監(jiān)控”、“輕告警”、“慧分析”、“全鏈路”等能力的綜合應(yīng)用,實(shí)現(xiàn)故障根因快定位,有效幫助運(yùn)維團(tuán)隊(duì)實(shí)現(xiàn)縮短MTTR的目標(biāo)。
華青融天以“發(fā)現(xiàn)看不見的價(jià)值”為使命,結(jié)合人工智能和大數(shù)據(jù)技術(shù),致力于成為智能運(yùn)維和安全運(yùn)營領(lǐng)域的領(lǐng)導(dǎo)者。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...