編者按
人類視聽覺認知機理研究是認知科學(xué)的重要組成部分,而人類視聽覺信息的機器理解與計算一直是人工智能領(lǐng)域的主要研究內(nèi)容,在國民經(jīng)濟、社會發(fā)展和國家安全等領(lǐng)域中扮演著十分重要的角色。
2008年,國家自然科學(xué)基金委員會(以下簡稱自然科學(xué)基金委)設(shè)立了重大研究計劃“視聽覺信息的認知計算”,旨在發(fā)展和構(gòu)建新的認知計算模型與算法,為提高計算機對非結(jié)構(gòu)感知信息與海量異構(gòu)信息的理解能力和計算效率提供科學(xué)支撐。
實施10年來,該重大研究計劃取得了豐碩成果。本期基金版將總結(jié)該重大研究計劃的經(jīng)驗,展示其取得的成績。
當(dāng)前,人們對于人工智能也許并不陌生,因為從幾年前開始,相關(guān)新聞就時常見諸報端:AlphaGo在圍棋比賽中戰(zhàn)勝人類冠軍李世石和柯潔、無人駕駛汽車獲發(fā)測試牌照即將上路、越來越多高校成立人工智能學(xué)院和研究院……
簡言之,人工智能就是讓機器能像人那樣理解、思考和學(xué)習(xí),即用計算機模擬人的智能。它涵蓋認知與推理(包含各種物理和社會常識)、計算機視覺、自然語言理解與交流(包含聽覺)、機器學(xué)習(xí)等廣泛的學(xué)科領(lǐng)域。因此可以說,視聽覺信息的認知計算是人工智能重要研究內(nèi)容,理解人類視聽覺認知并建立可計算視聽覺認知模型對人工智能的核心算法具有重大的啟示意義。
來自上世紀的設(shè)想
但如果將時間回撥至二十年前,公眾對人工智能的認識既沒有如此深刻,也不像如今這樣對它抱有那么大的期待。甚至在上世紀九十年代初,面對全球范圍內(nèi)現(xiàn)代PC的出現(xiàn)和普及,人工智能由于發(fā)展不及預(yù)期導(dǎo)致遇到資金困難等難題,經(jīng)歷了一場寒冬。不過,這個在當(dāng)時看似“無人問津”的領(lǐng)域引起了中國工程院院士、西安交通大學(xué)教授鄭南寧的注意。
“為什么人工智能會遭遇寒冬?我們面臨的挑戰(zhàn)是什么?”上世紀90年代初,中國工程院院士、西安交通大學(xué)教授鄭南寧對這個問題進行了深入思考。
“1999年,‘視聽覺信息的認知計算’重大研究計劃立項的前期思考和頂層設(shè)計工作就開始了。”該重大研究計劃指導(dǎo)專家組組長鄭南寧告訴《中國科學(xué)報》,但由于科學(xué)家們最初并沒有形成基本的共識,因此歷經(jīng)9年艱辛的研究積累和多次探討,在自然科學(xué)基金委和專家們的共同努力下,才終于在2008年正式啟動了這一重大研究計劃,“這是我國在人工智能基礎(chǔ)研究領(lǐng)域發(fā)展的里程碑之一,標(biāo)志著中國人工智能科學(xué)研究‘國家隊’的正式組建”。
“本重大研究計劃在立項伊始,人工智能技術(shù)還未形成當(dāng)今席卷全球范圍的研究熱潮,足以體現(xiàn)出自然科學(xué)基金委與相關(guān)專家的學(xué)術(shù)洞察力和戰(zhàn)略前瞻眼光。”回首往事,鄭南寧欣慰地說。通過這一重大研究計劃的資助,我國在人工智能領(lǐng)域從理論、方法、技術(shù)到應(yīng)用都得到了蓬勃發(fā)展。
讓基礎(chǔ)研究走出實驗室
立項之初,為確保國家安全與公共安全、推動信息服務(wù)及相關(guān)產(chǎn)業(yè)發(fā)展以及提高國民生活和健康水平,研究人員確定了“視聽覺信息的認知計算”重大研究計劃的目標(biāo),即研究并構(gòu)建新的計算模型與計算方法,提高計算機對非結(jié)構(gòu)化視聽覺感知信息的理解能力和海量異構(gòu)信息的處理效率,克服圖像、語音和文本(語言)信息處理所面臨的瓶頸困難。
如何才能實現(xiàn)這一目標(biāo)?在鄭南寧看來,這需要從人類的視聽覺認知機理出發(fā)。“圍繞認知過程的‘表達’與‘計算’這一基本科學(xué)問題,我們重點開展了‘感知特征的提取、表達與整合’‘感知數(shù)據(jù)的機器學(xué)習(xí)與理解’和‘多模態(tài)信息協(xié)同計算’三個核心科學(xué)問題的研究。”
“計算機對感知信息不能有效處理,根本原因則是不能對真實場景的基本特征進行可靠提取,缺乏對真實場景基本特征的一般表達方式以及對不同模態(tài)下信息特征有效整合的理論。”他指出,雖然機器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等方法近年來在高維數(shù)據(jù)可視化、特征提取、數(shù)據(jù)聚類與特征子空間分析等方面取得了重要進展,但非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)維數(shù)的確定仍然是一個公開的難題;現(xiàn)有的信息處理方法主要是針對單模態(tài)的,對多模態(tài)信息的處理還基本上停留在將各種單模態(tài)信息的處理結(jié)果在決策層面上進行融合。“正是因為這些基本問題沒有得到解決,計算機才只能處理比較理想狀態(tài)下的一些簡單問題,很難處理現(xiàn)實世界中的復(fù)雜問題。”
通過對上述三個核心科學(xué)問題的研究,十年來,該重大研究計劃在認知機理和模型、視聽覺信息處理、自然語言(漢語)理解等方面取得了一系列標(biāo)志性成果。
例如在視覺認知機理方面,研究人員提出了知覺物體的拓撲學(xué)定義和注意瞬脫的拓撲學(xué)解釋等基礎(chǔ)理論和模型;在視聽覺信息處理與計算方面,建立了視覺注意力統(tǒng)計學(xué)習(xí)計算模型和顯著性目標(biāo)檢測新理論;在漢語自然語言理解方面,創(chuàng)建了一種新的語義計算理論框架,成功研發(fā)了一系列面向公共安全的語言交互系統(tǒng)。
據(jù)不完全統(tǒng)計,截至2018年9月,該重大研究計劃共發(fā)表學(xué)術(shù)論文2255篇,申請國家發(fā)明專利532項。其中,在認知和信息科學(xué)相關(guān)領(lǐng)域的國際權(quán)威期刊上發(fā)表論文163篇,包括在影響因子5.0以上期刊發(fā)表論文50余篇。
“特別值得一提的是,為了進一步推動研究工作走出實驗室、產(chǎn)生原創(chuàng)性重大成果,本重大研究計劃創(chuàng)建了兩個比賽平臺,即‘中國智能車未來挑戰(zhàn)賽’和‘中國腦—機接口比賽’,并組織了10屆‘中國智能車未來挑戰(zhàn)賽’和2屆‘中國腦—機接口比賽’。”鄭南寧介紹道,通過在真實的物理環(huán)境中驗證理論成果,解決實際環(huán)境中復(fù)雜認知和智能行為決策等問題,改變了簡單的論文匯總或?qū)嶒炇页晒菔镜膫鹘y(tǒng)模式,促進了應(yīng)用基礎(chǔ)研究與物理可實現(xiàn)系統(tǒng)的有機結(jié)合。
而這也為我國培養(yǎng)和造就了一大批計算機視覺、腦機接口、無人駕駛技術(shù)和人工智能等方面的優(yōu)秀中青年人才。鄭南寧說:“尤其是‘中國智能車未來挑戰(zhàn)賽’,歷經(jīng)10年的摸索和實踐,業(yè)已成為中國無人車研發(fā)的重要品牌,培養(yǎng)了一大批本領(lǐng)域優(yōu)秀的中青年科技骨干,是當(dāng)之無愧的中國無人車研發(fā)‘黃埔軍校’。”
加強學(xué)科交叉共融
人類視聽覺認知機理研究是認知科學(xué)的重要組成部分,而人類視聽覺信息的機器理解與計算一直是人工智能領(lǐng)域主的要研究內(nèi)容。可以說,自立項之日起,“視聽覺信息的認知計算”重大研究計劃就帶有明顯的學(xué)科交叉屬性,比如信息科學(xué)、神經(jīng)科學(xué)、認知心理學(xué)、數(shù)理科學(xué)等學(xué)科的交叉——而這也是鄭南寧十年來感受頗深的地方。
“我們所談的科學(xué)問題普遍性越強,它所牽涉的交叉性就越強。要解決基礎(chǔ)科學(xué)問題,必須走學(xué)科交叉這條路。”鄭南寧介紹說,該重大研究計劃以“認知計算和腦機接口”和“無人駕駛與智能測試”兩方面為切入點,共部署了5個集成項目,根據(jù)承擔(dān)集成項目的10個項目組的不完全統(tǒng)計,論文分別發(fā)表在信息科學(xué)、認知科學(xué)、心理學(xué)、神經(jīng)科學(xué)、物理學(xué)、生命科學(xué)等領(lǐng)域的國際核心學(xué)術(shù)刊物上,“充分體現(xiàn)了多學(xué)科交叉的特點和我們研究工作的學(xué)術(shù)水平,另外,自然科學(xué)基金委信息學(xué)部在重大研究計劃實施的管理機制創(chuàng)新方面,也為不同領(lǐng)域?qū)<业暮献髁㈨梽?chuàng)造了寬松的環(huán)境” 。
比如,視覺注意機制是生物視覺的一個重要特性,早期的研究主要集中在心理學(xué)、認知科學(xué)和神經(jīng)生理學(xué)等領(lǐng)域,上世紀80年代后,這一課題引起了計算機視覺、人工智能等領(lǐng)域?qū)W者的重視。該重大研究計劃針對自主式車輛視覺導(dǎo)航的需要,多個課題組對此問題開展了深入的研究,在計算視覺與生物視覺結(jié)合方面開展了深入的多學(xué)科交叉,取得一批重要學(xué)術(shù)成果:清華大學(xué)在人機駕駛模型融合研究方面,開展了駕駛員感知信息處理與融合的認知機制研究;吉林大學(xué)模擬真實駕駛員對預(yù)期軌跡信息的認知處理機理,研究無人駕駛車輛的局部路徑規(guī)劃問題;西安交通大學(xué)研究了視覺注意機制建模問題,成為視覺注意力檢測的代表性工作。
不過,在鄭南寧看來,研究者的學(xué)科交叉還有待進一步深入。
“一方面,學(xué)科交叉取決于學(xué)者的熱情,這是根本因素。同時,也要有自上而下的組織。”不過他指出,從實際情況來看,這兩方面都有所不足,“研究者應(yīng)該更多地去主動思考科學(xué)問題背后的學(xué)科交叉需求,對于研究中存在的一些急功近利,也需要去改變”。
實際上,不僅解決科學(xué)問題需要學(xué)科交叉,應(yīng)對人工智能所帶來的深刻的社會問題,也同樣需要學(xué)科交叉。“因為人工智能模糊了物理現(xiàn)實、數(shù)據(jù)和個人的界限,延伸出復(fù)雜的倫理、法律和安全問題。人工智能的逐漸普及和深度應(yīng)用一定會給人們帶來心理的影響,進而產(chǎn)生社會人文風(fēng)險,這已不是傳統(tǒng)的工程安全方法能夠解決的問題了。因此在這些領(lǐng)域,人文社會學(xué)科和哲學(xué)學(xué)科將會大有作為。”鄭南寧說。
摘自《中國科學(xué)報》