[No.S033]
某公司IT運維張經(jīng)理非常頭疼,每天都像救火隊員一樣在這樣的事情中奔波,這是來自于他的自述……
“一次正好趕上公司年中大促,也是一年里沖業(yè)績的關(guān)鍵一周。結(jié)果關(guān)鍵業(yè)務(wù)的交易系統(tǒng)出現(xiàn)了運行緩慢,部分業(yè)務(wù)在系統(tǒng)交易時候出現(xiàn)卡頓、無法登陸的現(xiàn)象。這種情況發(fā)生以后,業(yè)務(wù)線上的每個人都像炸開了鍋。在此之前,我們?yōu)榱吮U蠘I(yè)務(wù)系統(tǒng)正常運行已經(jīng)做了充分的準備,但是沒想到還是出現(xiàn)了這樣的狀況,我們的壓力可想而知。我們運維人員馬不停蹄地開始排查,查資源使用情況、網(wǎng)絡(luò)環(huán)境情況、中間件是否正常、服務(wù)是否正常、日志是否報錯、交易數(shù)據(jù)還有沒有……時間不知不覺的在敲鍵盤、敲鍵盤、敲鍵盤中過去,但是原因還未定位。
總經(jīng)理也過來了解情況,業(yè)務(wù)部門一直在催促,我們飯也顧不上吃。最終,折騰了一天以后,定位到問題原因是其中一個功能沒有控制返回數(shù)量,導致內(nèi)存泄露。
伴隨公司數(shù)字化轉(zhuǎn)型和業(yè)務(wù)規(guī)模化發(fā)展,設(shè)備量實現(xiàn)指數(shù)型增長。幾年的時間,服務(wù)器就從幾百臺增加到5000千臺。雖然技術(shù)已經(jīng)不可同日而語,我們幾十人的IT支持團隊,每天仍然應接不暇地需要處理各種稀奇古怪的情況。
因此我們需要一個良好的監(jiān)控系統(tǒng),可以讓我們快速地發(fā)現(xiàn)并定位問題,減少宕機時間,提高故障處理速度,減輕運維工作的壓力。同時,防患于未然,這個監(jiān)控系統(tǒng)需要能夠及時預警,畢竟減少事故的發(fā)生也是實現(xiàn)IT業(yè)務(wù)工作的核心價值。”
美信監(jiān)控易——泛IT一體化智能運維管理平臺,能夠從以下幾個方面幫助張經(jīng)理解這些監(jiān)控運維問題。
1)監(jiān)控可視化
以前監(jiān)控都是模糊的、離散的,還有來自不同管理工具的告警、預警等,現(xiàn)在轉(zhuǎn)變?yōu)榍逦梢�、一目了然。完善的監(jiān)控平臺需要有統(tǒng)一的可視化操作界面,方便運維人員快速查看相應的運行數(shù)據(jù)。監(jiān)控易提供儀表盤、狀態(tài)統(tǒng)計、蘋果樹等多種監(jiān)控視圖,用戶可以便捷查看整個IT系統(tǒng)的當前運行狀態(tài),對預、告警的管理對象和監(jiān)測點進行實時過濾,實現(xiàn)快速故障定位和根源診斷。比如:能夠看到IT資源一段時間內(nèi)的運行趨勢、故障期間的設(shè)備狀況、IT資源總體性能分析報表等,且可以提前制定策略,直接展現(xiàn)分析結(jié)果,這樣就大大提高了故障的處理效率。
2)監(jiān)控全面
監(jiān)控最基本的工作就是實現(xiàn)對負載均衡設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲設(shè)備、安全設(shè)備、數(shù)據(jù)庫、中間件及應用軟件等IT資源的全面監(jiān)控管理。監(jiān)控易運維監(jiān)控平臺可以對上百家廠商的軟件、硬件及應用業(yè)務(wù)系統(tǒng)進行實時監(jiān)控,全面性的應用監(jiān)控可以讓故障提前預警,并保存了影響應用運行環(huán)境的數(shù)據(jù),以縮短故障處理時間。
3)及時預警、告警、快速定位
監(jiān)控易——泛IT一體化智能運維管理平臺采用自己先進的調(diào)度技術(shù)可以把監(jiān)測點的顆粒度精確到秒級,以保證監(jiān)測數(shù)據(jù)的實時性和精確性,做到當客戶關(guān)鍵設(shè)備出現(xiàn)異常時能在第一時間里發(fā)現(xiàn)問題,發(fā)出報警,為客戶解決問題贏得寶貴的時間。監(jiān)控易——泛IT一體化智能運維管理平臺達到最快輪詢頻率為5秒一次,大大縮短網(wǎng)絡(luò)的故障響應時間,降低網(wǎng)絡(luò)故障的損失。
4)告警方式全面
完善的監(jiān)控策略需要有清晰的監(jiān)控告警提示,值班人員要以根據(jù)監(jiān)控告警即可作出簡單的問題定位與應急處理方案。監(jiān)控易在IT基礎(chǔ)架構(gòu)出現(xiàn)故障前及時預、告警,告警方式包括顏色、手機短消息、郵件、聲音、腳本、彈出短消息框等多種方式,可以任意自定義告警閥值、告警方式、觸發(fā)條件等,支持對大型IT系統(tǒng)的告警批量設(shè)置。
管理員可以通過短信內(nèi)容看到哪個系統(tǒng)、哪個應用、哪個模塊出了什么問題,可能是什么原因,對業(yè)務(wù)有什么影響,是否需要馬上處理。
5)完善的性能評估和故障診斷報表
完善的監(jiān)控策略不僅需要有實時的數(shù)據(jù)告警,也要有匯總數(shù)據(jù)分析能力,能發(fā)現(xiàn)潛在風險,同時也為分析疑難雜癥提供幫忙。
監(jiān)控易強大的報表管理工具,支持將不同的關(guān)聯(lián)監(jiān)測指標放到同一圖形中進行比較和分析的報表功能,比如用戶可以將接口流量、CPU和內(nèi)存的使用率以及數(shù)據(jù)庫的關(guān)鍵指標放在一個圖形中進行關(guān)聯(lián)分析,來評估服務(wù)器和數(shù)據(jù)庫的負載及其他性能狀況。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...