美國加州舊金山谷歌人工智能(AI)研究人員Ali Rahimi去年12月對其所在研究領(lǐng)域進(jìn)行了一次猛烈的抨擊,并獲得了40秒的掌聲。在一次AI會議上,Rahimi指責(zé)機(jī)器學(xué)習(xí)算法,即計(jì)算機(jī)通過反復(fù)試驗(yàn)和糾錯來學(xué)習(xí)已經(jīng)成為某種形式的“煉金術(shù)”。他說,研究人員并不知道為什么有些算法會起作用而另一些不會,他們在選擇一個AI架構(gòu)而非另一個時(shí)也沒有嚴(yán)格的標(biāo)準(zhǔn)。在近日于加拿大溫哥華舉行的關(guān)于學(xué)習(xí)表現(xiàn)的國際會議上發(fā)表的一篇論文中,Rahimi和合作者列舉了他們所看到的“煉金術(shù)問題”,并為提高AI的嚴(yán)格性開了“藥方”。
“這個領(lǐng)域有一種痛苦。”Rahimi說,“我們很多人覺得自己在使用一種完全不同的技術(shù)。”
這個問題與AI的再現(xiàn)性問題截然不同,由于實(shí)驗(yàn)和出版實(shí)踐的不一致,研究人員無法復(fù)制彼此的結(jié)果。它也不同于機(jī)器學(xué)習(xí)中的“黑箱”或“可解釋性”問題:解釋某一特定AI如何得出結(jié)論的難題。正如Rahimi所言,“我試圖把機(jī)器學(xué)習(xí)系統(tǒng)的‘黑箱’與轉(zhuǎn)變?yōu)楹谙涞恼麄€領(lǐng)域區(qū)分開來。”
他說,如果不深入了解構(gòu)建和訓(xùn)練新算法所需要的基本工具,研究人員創(chuàng)建AI就會像中世紀(jì)的煉金術(shù)士一樣訴諸于謠言。加州山景城谷歌計(jì)算機(jī)學(xué)家Francois Chollet補(bǔ)充道:“人們被狂熱崇拜所吸引”,依賴的是“民間傳說和魔法咒語”。他舉例說,他們采用寵物的方法調(diào)整AI的“學(xué)習(xí)速率”(一個算法在每個錯誤之后會在多大程度上進(jìn)行糾正),而不是了解為什么一個算法比其他的更好。在其他情況下,AI研究人員訓(xùn)練其算法只是在黑暗中磕磕碰碰。例如,他們執(zhí)行所謂的“隨機(jī)梯度下降”,以此優(yōu)化一個算法的參數(shù),以獲得盡可能低的失敗率。然而,盡管有數(shù)千篇關(guān)于這一主題的學(xué)術(shù)論文,以及無數(shù)應(yīng)用該方法的途徑,這一過程仍然依賴于嘗試和糾錯。
Rahimi的論文強(qiáng)調(diào)了被浪費(fèi)掉的努力以及可能導(dǎo)致的次優(yōu)表現(xiàn)。例如,它指出,當(dāng)其他研究人員從最先進(jìn)的語言翻譯算法中去掉大部分的復(fù)雜性時(shí),它實(shí)際上能夠把英語更好地翻譯成德語或法語,而且效率更高,這表明其創(chuàng)建者并沒有完全理解那些額外部分有什么好處。相反,英國倫敦推特網(wǎng)機(jī)器學(xué)習(xí)研究人員Ferenc Huszar說,有時(shí)候,附加在算法上的鈴聲和哨聲是唯一優(yōu)秀的部分。他說,在某些情況下,算法的核心存在技術(shù)缺陷,這意味著其得出的好結(jié)果“完全歸因于在上面應(yīng)用的其他技巧”。
Rahimi對了解哪種算法最有效提供了若干建議。他說,對于初學(xué)者來說,研究人員應(yīng)該像翻譯算法那樣進(jìn)行“切除研究”:一次刪除一個算法的某些部分,以查看每個組件的功能。
他呼吁進(jìn)行“切片分析”,在此過程中,需要對一個算法的性能進(jìn)行詳細(xì)分析,以了解某些地方的改進(jìn)是否會在其他方面產(chǎn)生成本。他還說,研究人員應(yīng)該對其算法進(jìn)行許多不同條件和設(shè)置的測試,并報(bào)告所有測試的性能。
加州大學(xué)伯克利分校計(jì)算機(jī)學(xué)家、Rahimi煉金術(shù)主題演講論文的共同作者Ben Recht表示,AI應(yīng)向物理學(xué)取經(jīng),該領(lǐng)域的研究人員經(jīng)常把問題縮小到更小的“玩具問題”。他說:“物理學(xué)家在設(shè)計(jì)簡單的實(shí)驗(yàn)以找到現(xiàn)象的解釋方面非常驚人。”一些AI研究人員已經(jīng)開始采用這種方法,在處理大型彩色照片之前,先在小型黑白手寫字符上測試圖像識別算法,以更好地理解該算法的內(nèi)部機(jī)制。
倫敦深度思維計(jì)算機(jī)科學(xué)家Csaba Szepesvari表示,該領(lǐng)域還需要減少對競爭性測試的重視。他說,現(xiàn)在如果一篇論文報(bào)告的算法優(yōu)于某些基準(zhǔn),而非闡明該軟件的內(nèi)部工作原理,就更有可能被發(fā)表。這就是花哨的翻譯算法通過同行評審的方式。“科學(xué)的目的是產(chǎn)生知識,”他說,“你需要生產(chǎn)出別人可以使用并可以它為基礎(chǔ)的東西。”
并非所有人都同意Rahimi和Recht的批評。臉譜網(wǎng)紐約首席AI科學(xué)家Yann LeCun擔(dān)心,把太多的精力從尖端技術(shù)轉(zhuǎn)移到核心理解上,可能會減緩創(chuàng)新,阻礙AI的實(shí)際應(yīng)用。“這不是煉金術(shù),而是工程學(xué)。”他說,“工程學(xué)是散亂復(fù)雜的。”
Recht發(fā)現(xiàn)一個適合系統(tǒng)性且允許冒險(xiǎn)研究的地方。“我們兩者都需要。”他說,“我們需要了解故障來自哪里,這樣就可以建立可靠的系統(tǒng);我們必須向前推進(jìn)邊界,這樣就能沿著這條路線擁有更好的系統(tǒng)。”
摘自《中國科學(xué)報(bào)》