人工智能對各個(gè)領(lǐng)域科學(xué)研究正在產(chǎn)生廣泛影響,如何將強(qiáng)大的人工智能模型真正用于分析科學(xué)數(shù)據(jù)、構(gòu)建數(shù)學(xué)模型、發(fā)現(xiàn)科學(xué)規(guī)律,成為亟待突破的關(guān)鍵問題。
近日,自動化所研究團(tuán)隊(duì)提出了一種創(chuàng)新性框架——DrSR (Dual Reasoning Symbolic Regression):通過數(shù)據(jù)分析與經(jīng)驗(yàn)歸納“雙輪驅(qū)動”,賦予大模型像科學(xué)家一樣“分析數(shù)據(jù)、反思成敗、優(yōu)化模型”的能力。
在DrSR中,三位“虛擬科學(xué)家”協(xié)同工作:一個(gè)善于洞察變量關(guān)系的“數(shù)據(jù)科學(xué)家”;一個(gè)擅長總結(jié)失敗教訓(xùn)與成功經(jīng)驗(yàn)的“理論科學(xué)家”;一個(gè)勇于嘗試假設(shè)、不斷優(yōu)化模型的“實(shí)驗(yàn)科學(xué)家”。這三種角色基于大模型構(gòu)建起高效的協(xié)作機(jī)制,共同驅(qū)動DrSR實(shí)現(xiàn)智能化、系統(tǒng)化的科學(xué)方程發(fā)現(xiàn)。
在物理、生物、化學(xué)、材料等跨學(xué)科領(lǐng)域的典型建模任務(wù)中(如非線性振蕩系統(tǒng)建模、微生物生長速率建模、化學(xué)反應(yīng)動力學(xué)建模、材料應(yīng)力-應(yīng)變關(guān)系建模等),DrSR展現(xiàn)出強(qiáng)大的泛化能力,刷新當(dāng)前最優(yōu)性能,成為AI助力科學(xué)研究的有力工具。
DrSR:讓大模型“有據(jù)可依、步步為營”地發(fā)現(xiàn)規(guī)律
DrSR的核心創(chuàng)新是“雙路徑推理”(Dual Reasoning)機(jī)制,即通過數(shù)據(jù)驅(qū)動的結(jié)構(gòu)分析和經(jīng)驗(yàn)驅(qū)動的策略總結(jié),為大模型提供結(jié)構(gòu)化引導(dǎo)與反饋,模擬科學(xué)家的研究過程,高效且穩(wěn)健地進(jìn)行科學(xué)建模與方程發(fā)現(xiàn)。
DrSR在每一輪嘗試中都“看數(shù)據(jù)、學(xué)經(jīng)驗(yàn)、再出手”,具體流程如圖1所示:
圖1. DrSR的雙路徑推理機(jī)制
數(shù)據(jù)驅(qū)動洞察模塊(Data-aware Insight):負(fù)責(zé)分析數(shù)據(jù)中的變量關(guān)系,包括耦合程度、單調(diào)性、非線性趨勢等結(jié)構(gòu)特征。同時(shí),DrSR 還會根據(jù)上一輪候選方程的殘差,進(jìn)一步定位“沒擬合好”的數(shù)據(jù)段,為后續(xù)方程生成提供更高質(zhì)量的提示。
經(jīng)驗(yàn)驅(qū)動總結(jié)模塊(Inductive Idea Learning):將生成的方程按效果分為“更好”、“變差”和“無效”,反思成功與失敗原因,總結(jié)經(jīng)驗(yàn)并存入經(jīng)驗(yàn)庫(Idea Library),為后續(xù)生成方程提供策略指導(dǎo),避免重復(fù)錯(cuò)誤,提升生成效率。
方程生成與優(yōu)化模塊(Equation Generation):綜合數(shù)據(jù)分析和經(jīng)驗(yàn)庫指導(dǎo),生成方程骨架(skeleton),再調(diào)用優(yōu)化器(如BFGS)擬合參數(shù),持續(xù)迭代、評估,形成從數(shù)據(jù)分析、方程生成到經(jīng)驗(yàn)總結(jié)的閉環(huán)反饋機(jī)制。
總的來說,DrSR實(shí)現(xiàn)了一種閉環(huán)式智能探索,使模型從“盲目試探”走向“有的放矢”,系統(tǒng)化、高效地推動模型構(gòu)建與科學(xué)規(guī)律的自動發(fā)現(xiàn)。
DrSR不僅“更準(zhǔn)”,還“更快、更穩(wěn)、更聰明”
研究團(tuán)隊(duì)在六大符號回歸基準(zhǔn)任務(wù)上系統(tǒng)評估了DrSR的性能,結(jié)果顯示:DrSR在精度、建模效率和泛化能力上全面領(lǐng)先主流方法,并展現(xiàn)出卓越的跨領(lǐng)域適應(yīng)性。
表1. DrSR和基線方法在權(quán)威符號回歸基準(zhǔn)上的性能對比
圖2. 訓(xùn)練收斂性比較
圖3. 跨科學(xué)領(lǐng)域的泛化對比
讓大模型更像科學(xué)家,科學(xué)智能邁出關(guān)鍵一步
DrSR提出了一種融合數(shù)據(jù)感知與經(jīng)驗(yàn)反思的科學(xué)問題建模新范式,它通過結(jié)構(gòu)洞察指導(dǎo)生成方向,通過經(jīng)驗(yàn)總結(jié)提升推理質(zhì)量,讓大模型在科學(xué)建模中逐步具備“看數(shù)據(jù)、記教訓(xùn)、會修正”的能力。作為一套通用性強(qiáng)、可解釋性好、建模效率高的新架構(gòu),DrSR為人工智能深度參與科學(xué)發(fā)現(xiàn)提供了堅(jiān)實(shí)技術(shù)支撐。
DrSR已集成至一站式智能科研平臺 ScienceOne,為科研工作者提供高效、可解釋的科學(xué)建模服務(wù)。DrSR 并不依賴特定的大模型,具備良好的模型兼容性和可擴(kuò)展性。未來,研究團(tuán)隊(duì)將基于平臺自研的科學(xué)基礎(chǔ)大模型S1-Base,進(jìn)一步增強(qiáng) DrSR在科學(xué)建模中的推理能力與跨任務(wù)泛化能力。
研究團(tuán)隊(duì)表示,讓人工智能不僅能“擬合數(shù)據(jù)”,更能“發(fā)掘自然規(guī)律”,這是AI4Science走向深層科學(xué)智能的必由之路。
來源:中國科學(xué)院自動化研究所