More  

收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

小編的世界 優質文選 主機

維大殺器來了,未來雲上服務器或將實現無人值守


字體大小:
2020年10月14日 -
:   
 

圖:阿裏巴巴高級技術專家滕聖波

本文內容架構:

1、雲上服務器為什麼需要無人值守?

2、阿裏雲無人值守的自服務實戰

3、無人值守背後的數據和AI

1、雲上服務器為什麼需要無人值守?

運維是一種服務,既包含基礎設施軟件服務、也包含人力服務,服務的對象是企業中使用基礎設施的業務團隊,而雲計算IaaS是一種運維服務,服務的對象已發展為使用雲服務的開發人員和運維團隊。隨著雲計算的廣泛落地,大部分企業已經上雲,當前就有100萬多家用戶的業務運行在阿裏雲平台上,阿裏雲平台服務的用戶也越來越多。

隨著平台用戶規模的擴大,我們發現平台用戶在ECS實例運維時普遍面臨三個痛點:

(1)背景溝通成本高
,為什麼我的實例出問題了?

(2)人工處理需要較長的時間
,為什麼這個問題這麼久還沒有解決?

(3)客戶操作不透明
,問題看起來修複了,可是剛剛你做了什麼?

為此,我們需要重人力投入在客服人員上讓用戶的問題得以高效解決。為了避免用戶規模擴大帶來的客戶側運維成本的線性上升,我們開始利用人工智能技術賦能用戶運維管理。在無人零售、無人駕駛成為趨勢的時候,我們認為未來雲上服務器也將實現無人值守

事實上,阿裏雲彈性計算產品推出十年了,沉澱了眾多ECS實例運維管理經驗和異常“行為”規律。所以依托機器學習的數據驅動,我們通過異常“行為”數據的分析,構建了一套雲上服務器的無人值守架構,並推出了一系列自助服務,實現了ECS實例的自診斷、自修複、自優化、自運維,幫助用戶降低ECS實例管理的複雜性,從而來保障實例服務的穩定和高效運行。

2、無人值守的自服務實戰

雲計算IaaS的運維工作可以拆分為服務側運維和客戶側運維
,服務側運維是雲平台的運維工作,通常對用戶不可見的,主要涉及基礎設施、基礎產品和上層管控三個層面,包括機房、物理設備的運維工作、資源虛擬化、資源調度、熱遷移等工作。隨著用戶規模的擴大,這些運維工作會越來越複雜。而用戶側運維工作,是對用戶自己可見的,主要是用戶對ECS實例的修改操作和自動化工作,包括擴容、重啟、監控、客服服務、工單反應、資源編排和運維編排等。

我們構建的雲上服務器的無人值守架構
,為阿裏雲平台用戶提供了一系列的自助服務。廣義上看,阿裏雲的自助服務囊括了ECS實例本身、實例生命周期管理、系統管理和自動化、市場和生態四個維度,如下圖。

圖:廣義上的自助服務

狹義上來說,阿裏雲自助服務為用戶實現了ECS實例的診斷、修複和推薦的功能。當天,阿裏雲自助服務已提供實例診斷工具、實例優化推薦、自動修複工具、最佳模板推薦和ECS事件自動化等一系列自助服務工具,覆蓋了80% ECS常見問題,將問題解決的平均周期從幾小時縮短至分鐘級
,整個過程無需客服人工參與,無隱私泄漏風險,做到了雲上服務器的無人值守。未來隨著AI+數據的不斷驅動,ECS實例的診斷和修複將會越來越精准。

ECS實例的智能診斷

根據平台的數據統計,用戶在使用ECS實例時主要面臨四大類問題:

(1)實例無法遠程訪問

(2)實例無法啟動/停止

(3)實例性能異常

(4)磁盤擴容未生效

所以,在智能診斷的能力上,我們覆蓋了ECS系統服務、磁盤健康服務、網絡健康服務和Guest OS系統配置等維度,用戶一鍵即可完成實例的智能健康診斷。

ECS實例的自動化修複

在智能診斷完成後,我們還會為用戶提供ECS實例自動化修複方案,在前者定位問題所在之後,自動化修複能夠在1-3分鐘內解決問題,主要完成ECS系統服務修複、網絡問題修複和磁盤修複。

僅僅實現自動化修複是不夠的,我們認為自動化修複還應該是透明合規的
。我們通過運維編排服務OOS提供自動化引擎,通過雲助手命令提供GuestOS內的執行能力,運維編排服務OOS+雲助手命令共同幫助用戶完成自動化修複;同時,我們開源了運維編排服務OOS+雲助手命令的代碼,做到一切修複邏輯對用戶可見;一切修複操作還可以通過ECS實例的鏡像、快照和數據備份實現回滾;通過阿裏雲RAM角色控制實現一切權限可控,通過阿裏雲操作審計ActionTrail實現一切記錄可審計,做到了真正的透明合規。

3、無人值守背後的AI與數據能力

讓我們實現智能診斷和自動化修複的,是冰山下強大的技術支撐——AI+數據。依托底層的數據中台,我們完成了包括物理機數據、虛擬化數據、網絡數據、控制面數據和GuestOS內數據等數據的采集、清洗、分析和模型的構建;加上AI算法的不斷調優,我們搭建了用戶畫像、決策樹、預測和推薦模型等,從而保證異常診斷和自動修複越加的精准和高效。

當前,在整體的ECS自助服務架構中,主要依靠管控監控中心實時監測日志服務、中間件監控、API請求監控以及控制台監控和自助診斷的數據,通過機器學習引擎實現問題預警和處理,進而驅動運維編排服務OOS實現自動化修複問題。

通過這套AI驅動的自服務架構,當前阿裏雲ECS實時內存異常感知准確率在70%以上,實施預測鏈路延時則控制在100s以內;另外融合專家經驗、案例庫和知識庫,我們構建了一個強大的診斷決策樹,為加快問題的定位和修複提供了強有力的依據。

近兩年,阿裏雲彈性計算團隊持續不斷地投入構建異常行為數據集,未來計劃將其演進成為阿裏巴巴集團在異常預測上的“ImageNet 數據集”並進行開源,希望能為異常預測在業內的發展貢獻更大的價值。