国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

IT 運維監(jiān)控場景中的故障預(yù)警及處理

2023-02-09 14:16 作者:網(wǎng)強智能運維平臺  | 我要投稿

【故障場景】

以運維監(jiān)控系統(tǒng)為例,先給大家分享一個案例:

值班電話響了,有業(yè)務(wù)人員反映業(yè)務(wù)系統(tǒng)運行緩慢,部分業(yè)務(wù)系統(tǒng)處理超時。

運維人員開始忙活了,查系統(tǒng)資源使用情況、查應(yīng)用服務(wù)是否正常、查日志是否異常報錯、層層遞進只為盡快定位問題根本原因。

時間在不知不覺中流逝,業(yè)務(wù)員不斷催促,值班經(jīng)理也圍上來了解情況,甚至驚動了部門老大,可以想象的問題三連:“系統(tǒng)恢復(fù)了嗎?”、“影響了哪些業(yè)務(wù)?”、“問題原因是什么?”

而此刻,值班人員面色凝重,手飛快的在敲鍵盤,輸命令、查日志、寫sql、看業(yè)務(wù)波動。

隨著值班人員緊皺的眉頭舒展開,最終定位到問題原因是其中一個功能沒有控制返回數(shù)量,導(dǎo)致內(nèi)存OOM。

定位了問題解決起來就很容易了,問題雖然很快被處理了,但運維的工作才剛剛開始...

針對這個故障,各方訴求是不同的:

1、業(yè)務(wù)人員希望盡快恢復(fù)系統(tǒng)使用并確保以后不再出現(xiàn)此類問題;

2、運維經(jīng)理希望進一步優(yōu)化完善運維中心故障處理流程:

優(yōu)先故障處理過程的時間,

提前發(fā)現(xiàn)故障,加強監(jiān)控,

完善故障應(yīng)急方案,

長遠目標:故障自愈。

【運維監(jiān)控機制】

這個問題解決了,還有解決不完的其他問題。尤其是運維經(jīng)理還提出了新問題。

如何解決經(jīng)理提出的問題,并提出未來解決故障的想法?其實這涉及到IT自動運維監(jiān)控系統(tǒng)的設(shè)計理念。

從故障常見的處理方法到故障前的準備工作(完善監(jiān)控、制定應(yīng)急方案等方式)來闡述一下運維監(jiān)控機制。

01?故障處理方法

1、確定故障現(xiàn)象并初判問題影響

在處理故障前,技術(shù)人員首先要明確故障現(xiàn)象,故障現(xiàn)象直接決定故障應(yīng)急方案的制定,這就要求技術(shù)人員需要對應(yīng)用系統(tǒng)的整體功能有一定的了解。

2、應(yīng)急恢復(fù)

保證系統(tǒng)可用性運維最基本的指標,這就涉及系統(tǒng)應(yīng)急恢復(fù)。

有了上述故障現(xiàn)象與影響的判斷后,就可以制定故障應(yīng)急操作,故障應(yīng)急處理方式有很多:

●?服務(wù)整體性能下降或異常,可以考慮重啟服務(wù);

●?應(yīng)用做過變更,可以考慮是否需要回切變更;

●?資源不足,可以考慮應(yīng)急擴容;

●?應(yīng)用性能問題,可以考慮調(diào)整應(yīng)用參數(shù)、日志參數(shù);

●?數(shù)據(jù)庫繁忙,可以考慮通過數(shù)據(jù)庫快照分析,優(yōu)化SQL;

●?應(yīng)用功能設(shè)計有誤,可以考慮緊急關(guān)閉功能菜單。

02運維監(jiān)控機制

1、監(jiān)控可視化

故障處理人員能夠快速的看到相應(yīng)的運行數(shù)據(jù)。

比如:能夠看到一段時間的趨勢、故障期間的數(shù)據(jù)表現(xiàn)、性能分析的情況等,這些數(shù)據(jù)可以提前制定好策略直接推出分析結(jié)果給故障處理人員,這樣就大大提高了故障的處理效率。

2、監(jiān)控面

監(jiān)控最基本的工作就是實現(xiàn)對負載均衡設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲設(shè)備、安全設(shè)備、數(shù)據(jù)庫、中間件及應(yīng)用軟件等IT資源的全面監(jiān)控管理。

3、監(jiān)控告警

完善的監(jiān)控策略需要有清晰的監(jiān)控告警提示,值班人員要以根據(jù)監(jiān)控告警即可作出簡單的問題定位與應(yīng)急處理方案。

結(jié)束語

網(wǎng)強基于平臺化管理方式,建立智能化敏捷運維管理體系,提供運維數(shù)據(jù)管理的解決方案。建立從機房視角、網(wǎng)絡(luò)環(huán)境視角、管理視角等可視化展現(xiàn)IT設(shè)備之間的聯(lián)系,對IT資產(chǎn)進行全生命周期的管理。內(nèi)置機器學習算法以及大數(shù)據(jù)技術(shù),自動發(fā)現(xiàn)系統(tǒng)的各類異常,為網(wǎng)絡(luò)運維管理系統(tǒng)提供完善的統(tǒng)計和分析報表,提供給決策分析重要的數(shù)據(jù),掌握當前異常及歷史情況,分析設(shè)備故障趨勢,做到事前預(yù)警,事中快速處理,事后分析復(fù)盤。


IT 運維監(jiān)控場景中的故障預(yù)警及處理的評論 (共 條)

分享到微博請遵守國家法律
临潭县| 宣城市| 玛曲县| 石家庄市| 武夷山市| 建始县| 大姚县| 蒙山县| 南投市| 得荣县| 安仁县| 大同市| 新巴尔虎左旗| SHOW| 望城县| 怀安县| 双江| 康定县| 稷山县| 军事| 惠水县| 保定市| 富蕴县| 邛崃市| 治多县| 阿城市| 苗栗市| 达州市| 洛隆县| 灵寿县| 集安市| 鱼台县| 锦屏县| 昌吉市| 大关县| 驻马店市| 饶阳县| 黑龙江省| 辉县市| 大理市| 五华县|