為了能有更多時間在雙11期間買買買,阿里巴巴的工程師研發(fā)出了一款A(yù)I來解放自己。
11月6日,阿里巴巴數(shù)據(jù)中心AI調(diào)度官“達靈”正式上任。在實習期間,達靈打破了人類工程師的多項紀錄:將數(shù)據(jù)中心資源分配率拉升到了90%以上,在部分業(yè)務(wù)中節(jié)省了一半服務(wù)器,并且可以2秒鐘鎖定異常機器,命中率94%。
“伴隨雙11規(guī)模的逐年暴漲,管理、調(diào)度上萬臺服務(wù)器這樣的工作已經(jīng)不適合人來做了。” 阿里巴巴資深搜索研發(fā)專家鄭南說,達靈這套算法能夠快速給出最優(yōu)的計算資源部署方案,并且根據(jù)訪問量不斷搬運應(yīng)用和數(shù)據(jù),確保沒有一臺機器偷懶。
今年工程師的職責變成如何用數(shù)據(jù)去喂養(yǎng)“達靈”。鄭南說,我們要做的就是提供表格數(shù)據(jù)大小、應(yīng)用歷史訪問量以及目前的部署方案等信息,省下的就是喝著茶看她的表演。“她甚至可以在線上克隆一個真實的服務(wù),自己進行壓力測試,以判斷方案是否最優(yōu)。”
除了對計算資源的不斷調(diào)度、應(yīng)用的不斷搬運外,達靈還有一個職責是及時發(fā)現(xiàn)異常機器,快速隔離。要知道,雙11期間一臺機器的異常,可能帶來百萬級用戶的下單失敗。
但對工程師來說,從機器出現(xiàn)異常、被發(fā)現(xiàn)到處理完成,整個過程有時會長達數(shù)分鐘。而這已經(jīng)是人類能做到的極限。達靈能夠把時間、負載、服務(wù)狀態(tài)等不確定因素通過數(shù)據(jù)算法關(guān)聯(lián),最終快速鎖定異常機器。
日常工作中,達靈每天會采集29億條機器運營狀態(tài),日均隔離異常機器1000次左右,在大促期間調(diào)度準確率達到94%,時間只需要2秒鐘。
阿里巴巴iDST團隊是達靈的創(chuàng)造者。項目負責人朱勝火博士說,達靈的工作首先是在集群監(jiān)控數(shù)據(jù)之上,建立起很多個深度學習、在線學習的模型,由此對集群內(nèi)每一臺機器、每一個應(yīng)用,當前和未來的狀態(tài)都了然于胸。在此基礎(chǔ)上,達靈通過應(yīng)用強化學習、組合優(yōu)化等技術(shù),可以在復(fù)雜環(huán)境中自行學習判斷,作出一系列比如錯峰排布、碎片規(guī)整等聰明的決策,從而全局最優(yōu)化集群的資源分配率以及穩(wěn)定性。
除了“達靈”以外,機器運營小二、機器導購員、智能客服、AI設(shè)計師、機器揀貨員、機房巡邏員等一系列新物種已在天貓雙11前夕集中上崗。