當(dāng)AI開始思考

當(dāng)AI技術(shù)能夠?qū)W習(xí)戰(zhàn)略性、創(chuàng)造性的行為,對我們會產(chǎn)生什么影響??
人工智能專家認(rèn)為,每天的環(huán)境在快速變化。AI的強(qiáng)化學(xué)習(xí)功能,能夠幫助人力在動態(tài)環(huán)境中做出最優(yōu)決策。?
本文提供了幾個入手的方向,幫助管理者判斷自己是否忽視了強(qiáng)化學(xué)習(xí)可能解決的問題。? ??

世界級圍棋冠軍李世石(Lee Sedol)在著名的2016年系列賽第二場比賽中,被Deepmind的阿爾法狗(AlphaGo)所走的第37步棋打亂了陣腳。他惶惑之至,結(jié)果花了將近15分鐘才做出反應(yīng)。這一步棋對于其他久經(jīng)沙場的圍棋選手來說也很奇怪,有評論員認(rèn)為這是一步錯棋。事實上,這是人工智能算法學(xué)習(xí)某種東西的經(jīng)典例子,這種學(xué)習(xí)似乎不僅僅只是在數(shù)據(jù)中進(jìn)行模式識別——學(xué)習(xí)一些戰(zhàn)略性甚至創(chuàng)造性的東西。
實際上,除了給算法提供過去圍棋冠軍下棋的例子之外,Deepmind的開發(fā)者還通過讓阿爾法狗與自己進(jìn)行數(shù)百萬場比賽來對其訓(xùn)練。在這些比賽中,系統(tǒng)有機(jī)會探索新的舉動和策略,然后評估它們是否提升了表現(xiàn)。通過這一切試錯,它發(fā)現(xiàn)了一種令世界上最優(yōu)秀的棋手都驚訝不已的下棋方式。
如果說這種具有創(chuàng)造能力的人工智能看起來不同于大多數(shù)企業(yè)在應(yīng)用機(jī)器學(xué)習(xí)時最終使用的聊天機(jī)器人和預(yù)測模型的話,那是因為事實確實如此。像阿爾法狗這樣的下棋系統(tǒng)使用的不是利用歷史數(shù)據(jù)生成預(yù)測的那種機(jī)器學(xué)習(xí),而是強(qiáng)化學(xué)習(xí)——一種擅長優(yōu)化任務(wù)的成熟的機(jī)器學(xué)習(xí)技術(shù)。
為做到這一點,一個代理程序會隨著時間的推移采取一系列行動,并且每個行動依據(jù)的都是前一個行動的結(jié)果。簡單地說,它的運行是通過嘗試不同的方法,并弄明白——強(qiáng)化——那些似乎比其他方法更有效的方法。有了足夠的嘗試,你就可以強(qiáng)化自己突破目前最好方法的方式,并發(fā)現(xiàn)一個新的最佳方式來完成你的任務(wù)。
然而,盡管強(qiáng)化學(xué)習(xí)被證明十分有用,但它主要用于學(xué)術(shù)界以及視頻游戲和機(jī)器人等小眾領(lǐng)域。奈飛(Netflix)、Spotify和谷歌等企業(yè)已經(jīng)開始使用它,但多數(shù)企業(yè)依然滯后。然而,機(jī)會無處不在。事實上,每當(dāng)你必須按順序做出決策的時候——人工智能從業(yè)者稱之為順序決策任務(wù)——都有機(jī)會部署強(qiáng)化學(xué)習(xí)。

來看看現(xiàn)實世界中的許多問題,它們需要決定如何隨著時間的推移而采取行動,哪些地方存在需要最大化(或最小化)的東西,哪些問題你從來沒有明確給出正確的解決方案。比如:
你應(yīng)該如何將數(shù)據(jù)流量傳遞到不同的服務(wù)器,或如何決定關(guān)閉數(shù)據(jù)中心中的哪些服務(wù)器?
當(dāng)你在模擬構(gòu)建一個分子來開發(fā)一種突破性的藥物時,你如何確定接下來要添加哪種試劑?
如果你想賣出大量股票,你如何在一天內(nèi)謹(jǐn)慎地小批賣出,以盡量減少股價下跌的幅度?
如果你是企業(yè)領(lǐng)導(dǎo)者,可能有許多你想自動化或優(yōu)化的流程,但這些流程太過動態(tài)化,或者有太多的例外情況和極端例子,無法編程到軟件中。通過試錯,強(qiáng)化學(xué)習(xí)算法甚至可以學(xué)會解決最動態(tài)化的優(yōu)化問題——為在快速變化的環(huán)境中實現(xiàn)自動化和個性化開辟了新的途徑。
強(qiáng)化學(xué)習(xí)能有何作為許多企業(yè)將機(jī)器學(xué)習(xí)系統(tǒng)視為“預(yù)測機(jī)器”,并根據(jù)交易模式或網(wǎng)站分析行為等數(shù)據(jù)將算法用于預(yù)測現(xiàn)金流或客戶流失等情況。這些系統(tǒng)通常使用所謂的監(jiān)督機(jī)器學(xué)習(xí)。利用監(jiān)督學(xué)習(xí),你通??梢宰龀鲱A(yù)測:股票可能會在接下來的六個小時里上漲四個點。然后,在你做出預(yù)測之后,你得到了實際的答案:股票實際上上漲了三個點。該系統(tǒng)通過更新輸入數(shù)據(jù)——比如同一股票的過去價格,或許還有其他股票的過去價格和各種指標(biāo)——與產(chǎn)出預(yù)測之間的映射來學(xué)習(xí),以更好地匹配實際答案,這被人稱為基本事實。
然而,對于強(qiáng)化學(xué)習(xí),沒有正確的答案可以借鑒。強(qiáng)化學(xué)習(xí)系統(tǒng)產(chǎn)生的是行動,而不是預(yù)測——它們會建議最有可能最大化(或最小化)某一指標(biāo)的行動。你只能觀察自己在某項任務(wù)上做得如何,以及它是否完成得比以前更快或者效率更高。因為這些系統(tǒng)是通過試錯來學(xué)習(xí)的,所以當(dāng)它們能夠快速嘗試某一行動(或一系列行動)并獲得反饋時,它們才能產(chǎn)生最好的成效——一個每天執(zhí)行數(shù)百個行動的股市算法是一個很好的用例;在五年的時間里優(yōu)化客戶的終身價值,其間僅有不定期的互動時刻,這就不是好的用例。值得注意的是,由于它們的學(xué)習(xí)方式之故,它們不需要堆積如山的歷史數(shù)據(jù)——它們會一路實驗并創(chuàng)建自己的數(shù)據(jù)。
因此,它們可以用來自動化一個流程,比如用機(jī)械臂將物品放入運輸集裝箱;或者優(yōu)化一個流程,比如決定何時、通過何種渠道聯(lián)系一個未付款的客戶,以最大程度要回收入、最低程度花費精力。不論是這兩種情況中的哪一種,設(shè)計系統(tǒng)使用的輸入、行動和獎勵都是關(guān)鍵——它會精確地優(yōu)化你對其進(jìn)行編碼以實現(xiàn)優(yōu)化的內(nèi)容,任何含混不清的東西它都處理不好。
谷歌利用強(qiáng)化學(xué)習(xí)來幫助數(shù)據(jù)中心降溫一事是一個很好的例子,說明這種技術(shù)可以如何得到應(yīng)用。數(shù)據(jù)中心中的服務(wù)器會產(chǎn)生大量熱量,特別是當(dāng)它們彼此距離接近時,而過熱會導(dǎo)致IT性能問題或設(shè)備損壞。在這個用例中,輸入數(shù)據(jù)是氣壓和溫度等關(guān)于環(huán)境的各種指標(biāo)。采取的行動是空氣處理單元中的風(fēng)扇轉(zhuǎn)速(它可以控制空氣流量)和閥門開度(用水量)。該系統(tǒng)包括一些遵守安全操作指南的規(guī)則。它還針對空氣如何流經(jīng)中心編制了順序,以將溫度保持在指定水平,同時最大限度地減少能源使用。數(shù)據(jù)中心環(huán)境的物理動態(tài)十分復(fù)雜且在不斷變化;天氣的變化就會影響溫度和濕度,每個物理位置通常都有獨特的結(jié)構(gòu)和設(shè)置。強(qiáng)化學(xué)習(xí)算法能夠注意到難以用公式和規(guī)則描述的細(xì)微差別。
在Borealis AI,我們與加拿大皇家銀行(Royal Bank of Canada)的資本市場業(yè)務(wù)部門合作,開發(fā)了一個名為Aiden的強(qiáng)化學(xué)習(xí)型交易執(zhí)行系統(tǒng)。Aiden的目標(biāo)是在指定的時間窗口內(nèi)執(zhí)行客戶的股票委托(購買或出售一定數(shù)量的股票),尋找相對于指定基準(zhǔn)而言損失最小的價格。由于一次買入或賣出太多股票會對市場產(chǎn)生不利影響,因此這成為一項連續(xù)的決策任務(wù):任務(wù)是在一天中按順序行動,以盡量減少價格影響。
股市是動態(tài)的,當(dāng)今天的市場狀況與昨天不同時,傳統(tǒng)算法(交易員使用多年的基于規(guī)則的算法)的表現(xiàn)可能會參差不齊。我們覺得這是一個很好的強(qiáng)化學(xué)習(xí)機(jī)會——它在清晰性和動態(tài)復(fù)雜性之間取得了恰當(dāng)?shù)钠胶狻?/strong>我們可以清楚地列舉Aiden可以采取的不同行動,以及我們希望優(yōu)化的回報(盡量減少Aiden實現(xiàn)的價格與市場成交量加權(quán)平均價格基準(zhǔn)之間的差異)。股票市場波動迅速,會生成大量數(shù)據(jù),這使得算法能夠快速迭代學(xué)習(xí)。
我們讓算法通過無數(shù)的模擬來實現(xiàn)這一點,然后將系統(tǒng)實時推入市場。最終,Aiden被證明能夠在新冠疫情初期市場波動較大的時期表現(xiàn)良好——這些情況對于預(yù)測性人工智能來說尤其困難。Aiden能夠適應(yīng)不斷變化的環(huán)境,同時繼續(xù)保持與基準(zhǔn)目標(biāo)的近距離。
如何發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)的機(jī)會
你如何判斷自己是否忽視了強(qiáng)化學(xué)習(xí)可能解決的問題?以下就是入手之處:
列出清單。
創(chuàng)建包含一系列步驟的業(yè)務(wù)流程清單,并清楚地說明你希望最大化或最小化的內(nèi)容。關(guān)注行動密集、頻繁且有反饋機(jī)會的流程,避免罕有行動且難以觀察到哪種行動最能有效收集反饋的流程。找對目標(biāo)可能需要反復(fù)演算。
考慮其他選擇。
如果你能用其他機(jī)器學(xué)習(xí)或優(yōu)化技術(shù)來解決問題,那就不要從強(qiáng)化學(xué)習(xí)開始。當(dāng)缺乏足夠的歷史數(shù)據(jù)來訓(xùn)練算法時,強(qiáng)化學(xué)習(xí)會很有幫助。您需要探索各種選擇(并在此過程中創(chuàng)建數(shù)據(jù))。
小心你的愿望。
如果你真的想繼續(xù)前進(jìn),領(lǐng)域?qū)<覒?yīng)該與技術(shù)團(tuán)隊緊密合作,幫助設(shè)計輸入、行動和回報。對于輸入,要尋找你可以用來做出正確決策的最小信息集。對于行動,要詢問你希望給予系統(tǒng)多少靈活性;從簡單行動開始,以后再擴(kuò)大行動范圍。對于回報,要仔細(xì)考慮結(jié)果——要小心避免陷入孤立地考慮一個變量或者以長期痛苦換取短期收益的陷阱。
問問這樣做是否值得。
可能的收益是否可以證明發(fā)展成本的合理性?許多企業(yè)需要進(jìn)行數(shù)字化轉(zhuǎn)型投資,以建立系統(tǒng)和密集的、生成數(shù)據(jù)的業(yè)務(wù)流程,從而讓強(qiáng)化學(xué)習(xí)系統(tǒng)真正發(fā)揮作用。為了回答投資是否會有回報的問題,技術(shù)團(tuán)隊?wèi)?yīng)該評估計算資源,以確保你擁有支持試驗所需的計算能力,并允許系統(tǒng)探索和確定最優(yōu)排序。(他們可能希望在實時發(fā)布算法之前先創(chuàng)建一個模擬的環(huán)境來對其測試。)在軟件方面,如果你計劃使用一個針對客戶參與的學(xué)習(xí)系統(tǒng),那你就需要一個能夠支持A/B測試的系統(tǒng)。這對學(xué)習(xí)過程至關(guān)重要,因為算法需要探索不同的選擇,然后才能確定哪一個選項最有效。最后,如果你的技術(shù)堆棧只能普遍發(fā)布特性,那么你可能需要在升級之后再開始優(yōu)化。
做好耐心的準(zhǔn)備。
最后但同樣重要的是,與許多學(xué)習(xí)算法一樣,在系統(tǒng)學(xué)習(xí)的早期,你必須對錯誤持開放態(tài)度。它不會從第一天起就找到最佳路徑,但它會適時實現(xiàn)目標(biāo)——而在它真的實現(xiàn)目標(biāo)的時候,可能就會找到出乎人類想象的令人驚訝的創(chuàng)造性解決方案。
盡管強(qiáng)化學(xué)習(xí)是一項成熟的技術(shù),但它現(xiàn)在才剛剛開始應(yīng)用于商業(yè)背景。當(dāng)該技術(shù)用于自動化或優(yōu)化生成密集數(shù)據(jù)的業(yè)務(wù)流程時,以及在可能存在無法用公式或規(guī)則得出的意外變數(shù)時,它會有出色表現(xiàn)。如果你能發(fā)現(xiàn)一個機(jī)會,而且要么依靠一個內(nèi)部技術(shù)團(tuán)隊,要么與該領(lǐng)域的專家合作,那你就有機(jī)會可以運用這項技術(shù)來超越你的競爭對手。
?*本文節(jié)選自《哈佛商業(yè)評論》中文版 2021年6月刊文章《AI的下一件大事》。
? ?