美國加州舊金山谷歌人工智能(AI)研究人員Ali Rahimi去年12月對其所在研究領域進行了一次猛烈的抨擊,并獲得了40秒的掌聲。在一次AI會議上,Rahimi指責機器學習算法,即計算機通過反復試驗和糾錯來學習已經(jīng)成為某種形式的“煉金術(shù)”。他說,研究人員并不知道為什么有些算法會起作用而另一些不會,他們在選擇一個AI架構(gòu)而非另一個時也沒有嚴格的標準。在近日于加拿大溫哥華舉行的關(guān)于學習表現(xiàn)的國際會議上發(fā)表的一篇論文中,Rahimi和合作者列舉了他們所看到的“煉金術(shù)問題”,并為提高AI的嚴格性開了“藥方”。
“這個領域有一種痛苦。”Rahimi說,“我們很多人覺得自己在使用一種完全不同的技術(shù)?!?/p>
這個問題與AI的再現(xiàn)性問題截然不同,由于實驗和出版實踐的不一致,研究人員無法復制彼此的結(jié)果。它也不同于機器學習中的“黑箱”或“可解釋性”問題:解釋某一特定AI如何得出結(jié)論的難題。正如Rahimi所言,“我試圖把機器學習系統(tǒng)的‘黑箱’與轉(zhuǎn)變?yōu)楹谙涞恼麄€領域區(qū)分開來?!?/p>
他說,如果不深入了解構(gòu)建和訓練新算法所需要的基本工具,研究人員創(chuàng)建AI就會像中世紀的煉金術(shù)士一樣訴諸于謠言。加州山景城谷歌計算機學家Francois Chollet補充道:“人們被狂熱崇拜所吸引”,依賴的是“民間傳說和魔法咒語”。他舉例說,他們采用寵物的方法調(diào)整AI的“學習速率”(一個算法在每個錯誤之后會在多大程度上進行糾正),而不是了解為什么一個算法比其他的更好。在其他情況下,AI研究人員訓練其算法只是在黑暗中磕磕碰碰。例如,他們執(zhí)行所謂的“隨機梯度下降”,以此優(yōu)化一個算法的參數(shù),以獲得盡可能低的失敗率。然而,盡管有數(shù)千篇關(guān)于這一主題的學術(shù)論文,以及無數(shù)應用該方法的途徑,這一過程仍然依賴于嘗試和糾錯。
Rahimi的論文強調(diào)了被浪費掉的努力以及可能導致的次優(yōu)表現(xiàn)。例如,它指出,當其他研究人員從最先進的語言翻譯算法中去掉大部分的復雜性時,它實際上能夠把英語更好地翻譯成德語或法語,而且效率更高,這表明其創(chuàng)建者并沒有完全理解那些額外部分有什么好處。相反,英國倫敦推特網(wǎng)機器學習研究人員Ferenc Huszar說,有時候,附加在算法上的鈴聲和哨聲是唯一優(yōu)秀的部分。他說,在某些情況下,算法的核心存在技術(shù)缺陷,這意味著其得出的好結(jié)果“完全歸因于在上面應用的其他技巧”。
Rahimi對了解哪種算法最有效提供了若干建議。他說,對于初學者來說,研究人員應該像翻譯算法那樣進行“切除研究”:一次刪除一個算法的某些部分,以查看每個組件的功能。
他呼吁進行“切片分析”,在此過程中,需要對一個算法的性能進行詳細分析,以了解某些地方的改進是否會在其他方面產(chǎn)生成本。他還說,研究人員應該對其算法進行許多不同條件和設置的測試,并報告所有測試的性能。
加州大學伯克利分校計算機學家、Rahimi煉金術(shù)主題演講論文的共同作者Ben Recht表示,AI應向物理學取經(jīng),該領域的研究人員經(jīng)常把問題縮小到更小的“玩具問題”。他說:“物理學家在設計簡單的實驗以找到現(xiàn)象的解釋方面非常驚人?!币恍〢I研究人員已經(jīng)開始采用這種方法,在處理大型彩色照片之前,先在小型黑白手寫字符上測試圖像識別算法,以更好地理解該算法的內(nèi)部機制。
倫敦深度思維計算機科學家Csaba Szepesvari表示,該領域還需要減少對競爭性測試的重視。他說,現(xiàn)在如果一篇論文報告的算法優(yōu)于某些基準,而非闡明該軟件的內(nèi)部工作原理,就更有可能被發(fā)表。這就是花哨的翻譯算法通過同行評審的方式?!翱茖W的目的是產(chǎn)生知識,”他說,“你需要生產(chǎn)出別人可以使用并可以它為基礎的東西?!?/p>
并非所有人都同意Rahimi和Recht的批評。臉譜網(wǎng)紐約首席AI科學家Yann LeCun擔心,把太多的精力從尖端技術(shù)轉(zhuǎn)移到核心理解上,可能會減緩創(chuàng)新,阻礙AI的實際應用?!斑@不是煉金術(shù),而是工程學?!彼f,“工程學是散亂復雜的。”
Recht發(fā)現(xiàn)一個適合系統(tǒng)性且允許冒險研究的地方。“我們兩者都需要?!彼f,“我們需要了解故障來自哪里,這樣就可以建立可靠的系統(tǒng);我們必須向前推進邊界,這樣就能沿著這條路線擁有更好的系統(tǒng)?!?/p>
摘自《中國科學報》