久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

ABB
關注中國自動化產業發展的先行者!
橫河電機25年9月
工業智能邊緣計算2025年會
2025工業安全大會
CAIAC 2025
OICT公益講堂
當前位置:首頁 >> 資訊 >> 行業資訊

資訊頻道

國際計算語言學年會(ACL?2025)自動化所入選成果速覽
  • 點擊數:271     發布時間:2025-08-27 15:16:46
  • 分享到:
國際計算語言學年會(Annual Meeting of the Association for Computational Linguistics,簡稱ACL )是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學學會組織。第63屆ACL大會近期在奧地利維也納召開。我們將分期對自動化所的錄用研究成果進行簡要介紹,歡迎大家共同交流討論。
關鍵詞:

國際計算語言學年會(Annual Meeting of the Association for Computational Linguistics,簡稱ACL )是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學學會組織。第63屆ACL大會近期在奧地利維也納召開。我們將分期對自動化所的錄用研究成果進行簡要介紹,歡迎大家共同交流討論。


01.?重新思考提示策略在大語言模型測試時間拓展時的作用:一個基于概率論的視角

Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory

★ Outstanding Paper Award

作者:劉燁翔、李澤坤、方志、徐楠、赫然、譚鐵牛

錄用類型:Main Conference Papers

本研究探索了在Test-Time Scaling設置下何種提示策略最優,在6個大語言模型×8種提示策略×6個數據集上進行了測試,重點圍繞最基礎的多數投票測試時間拓展設置。研究發現,pass@1 accuracy高的提示策略在Test-Time Scaling時并不一定始終最優,而在大部分情況下,簡單的0-shot CoT會隨著Scale逐漸成為最優策略,即使它的pass@1 accuracy并不高。

研究團隊從概率理論的角度分析了這一現象的原因:

1. 定義了基于結果概率分布的新的問題難度體系。簡單和中等難度問題隨著Scale性能單調不減,困難問題則相反。CoT有更多的簡單問題和更少的困難問題。

2. CoT的錯誤答案概率分布更平坦,使其在增加采樣次數時,測試時間拓展性能增加受到的影響更小,使得性能提升更快。

基于理論,研究提出了兩種能大幅提升測試時間拓展性能的方法:

1. 根據定義的問題難度自適應拓展。

2. 動態選擇單個問題的最佳提示策略。

兩者結合能更大幅提升性能,例如將LLaMA-3-8B-Instruct在MATH500上的準確率從15.2%提升至61.0%。

17566248571.png

圖1. 每個模型和推理提示策略在測試數據集上的平均性能結果,CoT隨著采樣次數/輪數增加性能快速提升,在采樣次數/輪數足夠大時成為最優策略。

17566248671.png

圖2. CoT有時在較小采樣次數下表現較差,而在較大采樣次數下表現較好的兩個原因。左圖:CoT有更多的簡單問題和更少的困難問題,例如L2M的結果概率分布為{0.4(正確答案),0.5,0.1,0.0,0.0}(困難問題),CoT的結果概率分布為{0.3(正確答案),0.2,0.2,0.2,0.1}(簡單問題),盡管L2M有更高的pass@1 accuracy(0.4>0.3),它的性能隨著測試時間拓展逐漸降低至0,而CoT則逐漸增加至100%。右圖:CoT有更平坦的錯誤答案概率分布,使其多數投票得到正確答案的概率更快速增長。


02.?傳染性越獄麻煩制造者在誠實小鎮制造混亂

A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns

★?SAC Highlights Award

作者:門天逸、曹鵬飛、金卓然、陳玉博、劉康、趙軍

錄用類型:Main Conference Papers

隨著大語言模型的發展,它們作為智能體被廣泛應用于各個領域。智能體的核心組件之一是記憶模塊,該模塊雖然存儲關鍵信息,但容易受到越獄攻擊?,F有研究主要集中于單智能體攻擊和共享記憶攻擊,然而現實場景中往往存在獨立記憶架構。本文提出"麻煩制造者在誠實小鎮制造混亂"(TMCHT)任務框架,這是一個大規模、多智能體、多拓撲結構的文本攻擊評估框架。該框架要求一個攻擊者智能體嘗試誤導整個智能體社會。我們發現多智能體攻擊面臨的兩大挑戰:(1)非完全圖結構,(2)大規模系統。我們將這些挑戰歸因于"毒性消失"現象。

為解決這些問題,我們提出對抗性復制傳染越獄(ARCJ)方法:通過優化檢索后綴增強毒性樣本的檢索概率,同時優化復制后綴使毒性樣本具備傳染能力。實驗證明我們的方法在TMCHT任務中具有顯著優勢,在線型結構、星型結構和一百個智能體場景分別實現23.51%、18.95%和52.93%的性能提升。該研究揭示了廣泛采用的多智能體架構中潛在的傳染風險。

17566248811.png

圖1.(a) 攻擊記憶機制:注入記憶的毒性樣本比正常內容更容易被檢索,導致誤導性響應。(b) 多智能體攻擊場景:給定一個攻擊者和若干正常智能體的小鎮環境。經過多輪交互后,攻擊者希望能誤導更多智能體。(c) 毒性消失現象:毒性樣本在多次傳播后毒性逐漸減弱,使其更難被檢索。因此,現有針對單智能體記憶的攻擊方法缺乏傳播能力。

17566248911.png

圖2.傳染越獄攻擊方法概覽。左側為本方法能夠緩解毒性消失現象,并在群體中實現更強攻擊效果。右側為方法細節示意圖:第一階段通過優化檢索后綴,使毒性樣本更易被檢索到;第二階段優化復制后綴以緩解毒性消失現象,使其具備毒性傳播能力。


03. 教會視覺語言模型提問:解決歧義性視覺問題

Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

★ SAC Highlights Award

作者:簡璞、于東磊、楊文、任爍、張家俊

錄用類型:Main Conference Papers

在視覺問答(VQA)任務中,由于用戶表達習慣不同,常常會向視覺語言模型(VLMs)提出含糊不清的問題?,F有研究主要通過改寫問題來處理歧義,忽略了VLMs與用戶交互中本質上的互動特性,即歧義可通過用戶反饋加以澄清。然而,面向交互式澄清的研究仍面臨兩大挑戰:(1)缺乏用于評估VLMs在互動中消除歧義能力的基準;(2)現有VLMs訓練目標以回答為主,缺乏主動提問能力,難以發起澄清。

為解決上述問題,我們提出了 ClearVQA 基準,涵蓋視覺問答中三類常見歧義情形,并覆蓋多種VQA場景。此外,我們設計了一條自動化流程,用于生成“歧義-澄清問題”對。實驗表明,基于自動生成數據進行訓練后,VLMs能夠提出合理的澄清問題,并在用戶反饋基礎上生成更準確、具體的答案。

17566249841.png

圖1. ClearVQA基準中強調的視覺問句歧義問題。(a) ClearVQA將歧義劃分為三類:指稱歧義、意圖不明確和拼寫歧義。Q表示原始問題,IQ為用戶的真實意圖問題,ICQ為理想的澄清問題,GT為標準答案。(b) 測試集實驗結果顯示,與明確表達的IQ相比,現有VLMs在處理對應的歧義問題時表現不佳,導致VQA準確率顯著下降。

17566249921.png

圖2. (a) 訓練流程用于賦予模型交互式澄清能力;(b) 推理流程。ICQ 表示理想的澄清問題,GT 表示真實答案,Q 表示用戶提出的問題,NCQ 表示未能準確反映用戶真實意圖的澄清問題。


04.?HiDe-LLaVA:多模態大模型持續指令微調的分層解耦方法

HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

作者:郭海洋*、曾繁虎*、向子維、朱飛、王大寒、張煦堯、劉成林

錄用類型:Main Conference Papers

指令微調是一種廣泛用于提升預訓練多模態大模型(MLLM)的方法,通過在精心挑選的任務特定數據集上進行訓練,使其更好地理解人類指令。然而,在實際應用中,同時收集所有可能的指令數據集是不切實際的。因此,使MLLM具備持續指令微調能力對于保持其適應性至關重要。然而,現有方法往往在內存效率和性能提升之間進行權衡,這會顯著降低整體效率。

本文提出了一種基于不同模型層在多樣化數據集上訓練時中心核對齊(CKA)相似性變化的任務特定擴展與任務通用融合框架。此外,我們分析了現有基準測試中的信息泄露問題,并提出了一個新的、更具挑戰性的基準測試,以合理評估不同方法的性能。全面的實驗結果表明,與現有最先進方法相比,我們的方法在性能上取得了顯著提升。

論文鏈接

GitHub鏈接

17566250021.png

HiDe-LLaVA 框架示意圖。(a)在訓練過程中,我們使用自回歸損失優化 LoRA 模塊和投影層,而圖像-文本錨點則從 CLIP 的圖像和文本編碼器中提取。(b) 在推理階段,我們的方法對頂層 LoRA 采用類似于 MoE 的擴展,并通過與先前學習的圖像和文本錨點進行相似性匹配,動態分配專家權重。對于剩余的層,通過 LoRA 融合將跨任務的通用知識進行有效整合。


05.?TokAlign:通過詞元對齊實現的高效詞表適應方法

TokAlign: Efficient Vocabulary Adaptation via Token Alignment

作者:李翀、張家俊、宗成慶

錄用類型:Main Conference Papers

大模型的詞表通常在訓練開始階段就已經確定,因此將其用于新的領域或語言時,如果詞表的編碼效率較低,就會降低模型的推理速度。另一方面,不同大模型之間詞表的差異阻礙了模型之間深層次知識遷移,例如在詞元級別細粒度的知識蒸餾和模型集成方法就需要模型有相同的詞表。

為了解決以上問題,我們提出了一種用于大模型的高效詞表替換方法TokAlign。該方法通過對齊新詞表與舊詞表的詞元,利用相似詞元的參數進行初始化,并通過兩階段的新詞表適應過程,快速恢復模型的初始性能表現。

實驗結果發現:在給定替換的目標詞典后,我們的方法使模型獲得了良好的初始化。TokAlign將初始困惑度從2.9e5降低到1.2e2,僅用四千步微調就恢復了原始性能,并且在13種語言上平均提高了29.2%的壓縮率。

使用我們的方法對齊不同大模型之間的詞表后,不同架構的模型之間就可以進行如詞元級別的細粒度知識蒸餾。實驗發現詞元級別的知識蒸餾大幅提升了模型的性能,顯著超越了文本級別的粗粒度知識蒸餾方法。

17566250111.png

TokAlign通過在分詞后的詞元語料上訓練詞元表征來對齊不同詞表的詞元


06.?基于源句追溯與關系分類的細粒度文本溯源任務

TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification

作者:朱軍楠、肖敏、王亦寧、翟飛飛、周玉、宗成慶

錄用類型:Main Conference Papers

隨著大模型在文本生成方面展現出卓越的流暢性和連貫性,其廣泛應用也引發了對內容可靠性和可問責性的擔憂。在法律、醫療等高風險領域,準確識別文本內容的來源及其生成方式至關重要。為此,我們提出了文本溯源任務,旨在將目標文本的每個句子追溯到源文檔中的具體源句,并建立細粒度的關系分類。

區別于現有研究主要聚焦于單文檔或粗粒度引用識別,本文所提出的文本溯源任務專注于多文檔和長文檔場景下的精確溯源。本文構建的數據集基于三個公開數據集,涵蓋11個多樣化場景、中英雙語以及不同長度的源文本,通過三階段標注流程確保數據質量。該數據集將目標句與源句間的關系細分為“引用”、“壓縮”、“推理”和“其他”四大類型,為理解文本生成的精細機制提供了重要基礎。實驗評估了11個主流大模型在“直接提示”和“檢索增強”兩種范式下的性能。結果表明:“檢索增強”對所有模型均可以帶來顯著提升,大參數模型在復雜關系分類任務中表現更優。盡管閉源模型整體領先,但開源模型通過檢索增強可顯著縮小性能差距。值得注意的是,關系分類仍然是一個極具挑戰性的研究問題。

17566250201.png

圖1. 文本溯源任務與相關任務的對比概覽圖(展示了文本溯源與引用文本生成、事實驗證、基于知識的文本生成等相關任務的區別)

17566250321.png

圖2. 文本溯源數據集分布統計圖(數據集在任務類型、語言分布、輸入長度等維度的詳細統計)


07.?數學推理中過程監督獎勵模型的高效精確訓練數據構建框架

An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning

作者:孫為、杜倩龍、崔福偉、張家俊

錄用類型:Main Conference Papers

提升大型語言模型(LLMs)的數學推理能力具有重大的科學和實踐意義。研究人員通常采用過程監督獎勵模型(PRMs)來指導推理過程,從而有效提高模型的推理能力。然而,現有的過程監督訓練數據構建方法,如人工標注和逐步蒙特卡洛估計,往往成本高昂或質量不佳。為了解決這些挑戰,本文引入了一個名為EpicPRM(高效、精確、廉價)的框架,該框架根據每個中間推理步驟的量化貢獻進行標注,并使用一種自適應二分搜索算法來提高標注的精確度和效率。通過這種方法,我們高效地構建了一個高質量的過程監督訓練數據集,名為Epic50k,包含5萬個已標注的中間步驟。與其他公開可用的數據集相比,使用Epic50k訓練的PRM模型表現出顯著優越的性能。

17566250411.png

圖1. 使用Epic50k訓練的PRM的Best-of-N監督效果與baseline方法的對比

17566250481.png

圖2. 使用Epic50k訓練的PRM在PROCESSBENCH上與baseline方法的對比


08.?LADM:基于注意力依賴度量的大語言模型長上下文訓練數據篩選框架

LADM: Long-context Training Data Selection with Attention-based Dependency Measurement for LLMs

作者:陳江昊、武俊宏、徐楊一帆、張家俊

錄用類型:Main Conference Papers

隨著大語言模型上下文建模窗口的不斷擴展,在預訓練階段選擇高質量的長文本訓練數據變得至關重要。然而,當前長上下文訓練數據的質量評估仍面臨挑戰,現有方法均未能充分捕捉上下文內部的全局依賴結構,亟需一種高效、精準的數據選擇框架。為此,本文提出了一個基于注意力機制的依賴性度量 (LADM) 的長上下文數據選擇框架,該框架能夠從大規模、多領域的預訓練語料庫中高效地識別高質量的長上下文數據。LADM 利用注意力機制內在的檢索能力來捕捉上下文依賴關系,從而確保對長上下文數據進行全面的質量評估。實驗結果在長文本困惑度,長文本合成任務和真實場景長文本任務上驗證了提出方法的優越性。在同等規模的訓練量下,LADM數據選擇方案顯著優于各類基線方法。

17566250561.png

LADM整體框架


09.?基于多模態大模型知識繼承的單-多模態對齊文檔圖像翻譯

Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation

作者:梁雨普、張亞萍、張志揚、趙陽、向露、宗成慶、周玉

錄用類型:Main Conference Papers

文檔圖像翻譯(DIMT)旨在翻譯文檔圖像中的文本,是跨語言跨模態信息轉換的重要技術,在實際應用中面臨訓練數據有限和跨模態信息融合不足的挑戰。傳統小模型方法,通常難以有效捕捉視覺與文本模態間的復雜關聯,導致泛化能力受限。為此,我們提出一種M4Doc框架,創新性地通過單模態-多模態對齊機制解決這一難題。M4Doc的核心思想是將圖像編碼器與經過大規模預訓練的多模態大模型(MLLM)的多模態表示空間對齊,使輕量級翻譯模型能夠繼承豐富的視覺-文本關聯知識。這種設計使得模型在推理階段無需依賴MLLM即可保持高效計算,同時獲得顯著提升的翻譯性能。為驗證方法的有效性,我們在跨領域場景和復雜文檔布局條件下進行了系統實驗,結果表明M4Doc不僅超越了現有方法的翻譯質量,更展現出優異的泛化能力。此外,本研究提出的對齊范式為其他視覺-語言任務提供了可遷移的技術路徑。

17566250651.png

M4Doc的模型結構圖


10.MMDEND:樹突啟發的多分支多室并行序列建模中的峰值神經元

MMDEND: Dendrite-Inspired Multi-Branch Multi-Compartment Parallel Spiking Neuron for Sequence Modeling

作者:王可心、侴雨宏、商迪、梅仕杰、張佳鴻、黃彥彬、姚滿、徐波、李國齊

錄用類型:Main Conference Papers

傳統脈沖神經元(Vanilla spiking neurons)將具有樹突、胞體和突觸的復雜生物神經元簡化為單一胞體隔室。由于性能和訓練效率的限制,這類神經元在建模長序列時面臨重大挑戰。性能方面,過度簡化的脈沖神經元動力學忽略了長期時間依賴性;膜電位的長尾分布和二元激活的離散化誤差進一步限制了其長序列建模能力。效率方面,脈沖神經元的串行機制導致長序列訓練耗時過長。雖然并行脈沖神經元是高效解決方案,但其參數量通常與隱藏維度或序列長度綁定,使得現有并行結構難以適配大型架構。為此,我們提出MMDEND:一種多分支多隔室并行脈沖樹突神經元。其比例可調的多分支多隔室結構能捕捉長期時間依賴性,同時引入的縮放-平移整數發放(SSF)機制可擬合長尾膜電位分布,在保持效率的同時減少離散化誤差。與并行神經元相比,MMDEND以更少參數和更低能耗實現了更優的長序列建模能力??梢暬Y果也證實SSF機制能有效擬合長尾分布。

17566250721.png

圖. Dendritic Neuron Modeling

表.?Comparison of Performance on General Sequential Tasks

17566250781.png


11.?揭示知識編輯的欺騙性:表面編輯的機制性分析

Revealing the Deceptiveness of Knowledge Editing: A Mechanistic Analysis of Superficial Editing

作者:謝甲寬、曹鵬飛、陳玉博、劉康、趙軍

錄用類型:Main Conference Papers

知識編輯技術旨在高效更新大語言模型中的知識,然而現有方法往往僅關注表面性能指標,忽視了編輯的魯棒性與可靠性。本文首次系統地定義了表面編輯問題,揭示了當前主流知識編輯算法存在的關鍵性缺陷:盡管模型在標準測試提示下能正確回答更新后的知識,但在添加特定上下文攻擊前綴后,模型會回退至原有知識,表明編輯操作并未真正修正模型內部的知識表征。通過評估實驗,我們發現現有編輯算法在傳統性能指標上表現優異,但普遍存在嚴重的表面編輯現象。為探究其成因,我們深入剖析了模型內部機制,發現:(1)淺層中主語位置新知識的積累會受抑制性干擾;(2)深層中的特定注意力頭傾向于向序列末端注入舊知識相關信息,奇異值分解進一步表明,某些左奇異向量對表面編輯現象具有因果性影響。為驗證結論的普適性,我們在表面遺忘任務中復現了相同機制,證實了分析方法的泛化能力。

17566250851.png

表面編輯示例。當輸入標準查詢(查詢1)時,編輯后的模型能正確輸出目標知識;當輸入含攻擊前綴的查詢(查詢2)時,模型會重新生成原有知識,表明知識更新僅停留在表層。


12.?神經不兼容性:大語言模型中跨規模參數化知識遷移難以逾越

Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models

作者:譚宇喬、何世柱、劉康、趙軍

錄用類型:Main Conference Papers

大語言模型可訪問的參數編碼了廣泛的知識,這些知識可以被分析、定位和遷移。一個關鍵的研究挑戰是超越傳統基于符號語言的知識遷移范式,實現真正的參數化知識遷移。本文證明了在參數空間中的對齊是實現成功跨規模參數化知識遷移的基本前提。因此,我們首次定義此前的參數知識遷移為后對齊參數化知識遷移范式。為了減少對齊的成本,我們引入了一種新的預對齊參數化知識遷移范式,并提出了一種名為LaTen(定位再對齊)的解決方案,該方法僅通過幾個訓練步驟即可對不同規模大語言模型的參數空間進行對齊,無需后續訓練。

在四個基準上的綜合實驗表明,所有參數知識遷移方法在實現一致穩定的遷移方面都面臨挑戰。我們將這一現象歸因為神經不兼容性,即不同規模大語言模型之間的行為邏輯和參數結構的本質差異,這對實現有效的參數知識遷移構成了根本挑戰。這些發現為大語言模型的參數化架構提供了新的見解,并為未來關于高效PKT的研究指明了有前景的方向。

17566250931.png

參數化知識遷移和基于語言的知識遷移的對比示意圖

論文鏈接

代碼鏈接


13.?Agent-RewardBench:面向真實世界多模態智能體的感知、規劃與安全統一獎勵建?;鶞?/p>

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception,?Planning,?and Safety in Real-World Multimodal Agents

作者:門天逸,金卓然,曹鵬飛,陳玉博,劉康,趙軍

錄用類型:Main Conference Papers

隨著多模態大語言模型的發展,多模態智能體在網頁導航、具身智能等現實任務中展現出巨大潛力。然而,由于缺乏外部反饋機制,這些智能體在自我修正和泛化能力方面仍存在明顯局限。采用獎勵模型作為外部反饋是一種可行的方案,但目前缺乏針對智能體的獎勵模型選擇標準,急需構建面向智能體的獎勵評估基準。為此,我們提出Agent-RewardBench基準框架,其具備三大核心特征:(1)多維度真實場景獎勵建模評估,涵蓋感知、規劃與安全三大維度,包含七種典型應用場景;(2)步驟級獎勵評估,支持對任務執行過程中每個獨立步驟的細粒度能力評估;(3)難度適配的高質量數據,從十種不同模型中采樣并精選樣本,通過難度控制保證任務具有挑戰性,并經過人工核驗確保數據可靠性。實驗表明,即使是當前最先進的多模態模型也表現欠佳,這凸顯了開展智能體獎勵建模專項訓練的必要性。

17566251001.png

圖1. 監督微調、獎勵引導的訓練及獎勵引導的搜索方法的示意圖

17566251091.png

圖2. Agent-RewardBench示意圖。該框架用于評估智能體在感知、規劃與安全三個維度的獎勵建模能力。


14.?基于捷徑神經元分析構建大語言模型的可信評估

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

作者:朱克建,涂尚卿,金卓然,侯磊,李涓子,趙軍

錄用類型:Main Conference Papers

隨著大語言模型技術發展,評估其真實能力的可靠性問題也日益凸顯。當前,模型評估主要依賴于開源的評測基準。但這極易受到“數據污染”的影響,即模型在訓練階段可能已經接觸過評測數據,從而在測試中取得高于真實水平的分數,嚴重影響了評估的公平性與可信度。為應對這一挑戰,以往的工作重點關注構建定期更新的評測基準。但這類方法成本高且周期長。對此,我們提出了一種全新的思路,從模型內部機制出發,分析和抑制模型在訓練測試集時帶來的解題捷徑。我們認為,污染模型表現高于真實水平,是由于其在訓練中學習到了捷徑解法。本研究首次從神經元出發,系統揭示了模型內部“走捷徑”的機制。我們提出通過對比與因果分析相結合的方式,定位了污染模型種的捷徑神經元。在此基礎上,我們進一步提出捷徑神經元修補方法,有效抑制模型走捷徑推理。實驗顯示,經修補后的污染模型在對應數據泄露的評測基準上準確率顯著下降,且更接近其真實未污染時的表現。

17566251161.png

圖1. 一個展示我們方法的核心原理的示例:我們通過抑制模型在被污染區域依賴捷徑生成答案,來恢復模型的真實能力。

17566251221.png

圖2:我們方法的整體流程圖。我們通過神經元分析,識別模型中可能存在捷徑推理的區域。具體而言,我們計算對比分數與因果分數以定位捷徑神經元:對比分數用于發現污染模型與未污染模型在參數激活上的最大差異區域;因果分數則通過神經元修補分析,評估其對模型表現的因果影響。隨后,我們利用所定位的捷徑神經元,對待測模型進行修補,從而實現更可信的評估結果。


15.?從個性化和主動性角度評估個性化工具增強大語言模型

Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity

作者:郝煜樸,曹鵬飛,金卓然,廖桓萱,陳玉博,劉康,趙軍

錄用類型:Main Conference Papers

個性化的工具調用對于使大語言模型(LLMs)在與各種工具交互的場景中更好地對齊用戶偏好至關重要。然而,現有的大多數評測基準側重于文本生成的個性化,或者專注于工具的直接調用,往往未能同時兼顧這兩方面。在本研究中,我們提出了一個全新的評測基準ETAPP,用于評估個性化的工具使用能力。我們構建了一個沙箱環境,并整理了一個涵蓋多樣化用戶畫像的、包含800個測試樣例的綜合性數據集。為了提高評估的準確性,我們提出了一種基于關鍵點的大語言模型評估方法。該方法通過為每個測試樣例人工標注關鍵點,并將其作為參考提供給用于評估的大模型,從而緩解了因為由大語言模型擔任評審者(LLM-as-a-judge)的系統中可能存在的偏差問題。此外,我們對多個優秀的大語言模型進行了系統評估,并提供了深入的分析。同時,我們還探討了不同的工具調用策略對大語言模型個性化表現的影響,以及在該任務中進行微調的實驗效果。我們的研究還驗證了偏好設定機制和基于關鍵點的評估方法的有效性。我們的研究成果為提升個性化大語言模型智能體的能力提供了新的見解。

17566251311.png


16.?破解事實知識:大語言模型中簡并知識神經元的全面分析

Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models

作者:陳宇恒、曹鵬飛、陳玉博、王一寧、劉升平、劉康、趙軍

錄用類型:Main Conference Papers

知識神經元理論為理解大語言模型(LLMs)中事實性知識的作用機制提供了關鍵路徑,該理論認為事實存儲于多層感知機神經元中。本文進一步探索了簡并知識神經元(Degenerate Knowledge Neurons,DKNs)——即不同神經元集合可存儲相同事實,但不同于簡單冗余,這些神經元同時參與存儲其他不同事實。盡管此概念具有新穎性和獨特屬性,卻尚未被準確定義和系統研究。

我們的核心貢獻包括:

1. 開創性結構分析: 通過解析神經元權重連接模式,首次從功能與結構雙重視角對DKNs進行系統性定義。

2. 精準識別方法: 基于上述定義提出神經元拓撲聚類(Neuronal Topology Clustering)方法,顯著提升DKNs的識別準確率。

3. 實踐應用驗證: 在兩方面證明DKNs的應用價值:指導LLMs高效學習新知識;揭示其對輸入錯誤的抗干擾魯棒性機制。

本研究為深入解析大語言模型的知識存儲冗余性與魯棒性提供了理論工具與方法論基礎。

17566251381.png


17.?知識顯微鏡:特征——優于神經元的分析透鏡

The Knowledge Microscope: Features as Better Analytical Lenses than Neurons

作者:陳宇恒、曹鵬飛、劉康、趙軍

錄用類型:Main Conference Papers

先前的研究主要利用多層感知機(MLP)神經元作為分析單元,以理解語言模型(LMs)中事實性知識的作用機制。然而,神經元存在多義性(polysemanticity)問題,導致其知識表達能力受限且可解釋性較差。

在本研究中,我們首先通過初步實驗驗證了稀疏自編碼器(Sparse Autoencoders,SAE)能夠有效地將神經元分解為特征(features),這些特征可作為替代的分析單元。基于此,我們的核心發現揭示了特征相較于神經元的三大關鍵優勢:

1. 更強的影響與更優的可解釋性: 特征對知識表達具有更強的影響力,并展現出更優越的可解釋性。

2. 增強的單義性: 特征表現出更強的單義性(monosemanticity),在表達相關事實與不相關事實時呈現出明顯不同的激活模式。

3. 更好的隱私保護: 特征能實現比神經元更佳的隱私保護效果。我們提出的特征擦除(FeatureErase) 方法,在從語言模型中擦除隱私敏感信息方面,顯著優于現有的基于神經元的方案。

這項研究表明,特征作為更精細的分析單元,為理解和操控語言模型中的知識提供了更清晰、更有效的途徑。

17566251441.png


18.?EAC-MoE:基于專家選擇機制的混合專家大語言模型壓縮方法

EAC-MoE: Expert-Selection Aware Compressor for Mixture-of-Experts Large Language Models

作者:陳遠騰、邵遠天、王培松、程健

錄用類型:Main Conference Papers

混合專家大語言模型(MoE-LLMs)通過引入專家路由機制,有效降低了模型在訓練和推理過程中的激活參數量,從而展現出在高效計算與可擴展網絡容量方面的巨大潛力。然而,當前的MoE-LLMs在實際部署與推理中仍面臨兩個主要挑戰:一是總參數量較大,二是推理速度明顯低于具有相同激活參數量的密集型大語言模型(Dense-LLMs)。為應對上述問題,本文針對MoE-LLMs的核心:專家選擇機制,提出了一種結合靜態量化與動態專家剪枝的混合壓縮方法。在靜態量化方面,針對量化誤差導致的專家選擇偏移問題,本文提出了結合專家路由校準的逐層量化方法,有效提升了量化后MoE模型的專家選擇準確率。在動態專家剪枝方面,本文基于專家選擇頻率,動態跳過對當前任務重要性較低的專家推理,從而顯著提高推理效率。通過將靜態量化與動態專家剪枝有機結合,EAC-MoE能在保持較小準確率損失的前提下,顯著降低MoE-LLMs實際部署的顯存需求并提高推理速度。本文方法在多個主流MoE模型和數據集上進行了驗證,實驗結果表明其具有良好的有效性。

17566251521.png

所提EAC-MoE方法在減少顯存消耗和加快推理方面的表現


19.?借助視覺感知注意力頭散度揭示大型視覺語言模型中的幻覺成因

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

作者:賀靖涵、朱寬、郭海云、方俊峰、花政林、賈育衡、唐明、蔡達成、王金橋

錄用類型:Main Conference Papers

盡管大型視覺語言模型實現了先進的多模態推理能力,但其仍存在嚴重的“幻覺”問題,即生成的文本與視覺內容不符,影響準確性與可靠性?,F有方法多聚焦于生成階段的對齊訓練或解碼優化,未能深入探究幻覺的內在成因。本研究從模型內部機制出發,重點關注多頭注意力模塊,提出視覺感知注意力頭散度(VHD)這一指標,量化注意力頭對視覺上下文的敏感程度。研究發現,盡管存在對視覺信息敏感的注意力頭,但模型過度依賴語言先驗模式仍是幻覺的主要誘因?;诖?,作者提出視覺感知注意力頭強化(VHR)方法,無需額外訓練即可通過增強視覺敏感注意力頭的作用來抑制幻覺。實驗表明,VHR在減少幻覺方面優于現有技術,且幾乎不增加時間開銷,兼具高效性與性能優勢。

17566252441.png

圖1.大型視覺語言模型的幻覺與語言偏好之間的關聯

17566252501.png

圖2. 本文提出的VHD指標及VHR方法的示意圖


20.?先生成,后采樣:利用大語言模型增強和強化采樣的虛假新聞檢測方法

Generate First,Then Sample: Enhancing Fake News Detection with LLM-Augmented Reinforced Sampling

作者:童昭、谷逸夢、劉會東、劉強、吳書、石海超、張曉宇

錄用類型:Main Conference Papers

當前假新聞檢測方法(如基于深度學習的語義建模和融合社交上下文的方法)面臨兩大挑戰:一是模型對數據分布敏感,假新聞識別性能顯著低于真實新聞(差距超過20%);二是在標注數據有限時泛化能力不足。為此,本文提出GSFND?(Generate first and then Sample for Fake News Detection)框架,通過生成增強與動態采樣機制提升檢測性能。該框架首先利用大語言模型生成改寫、擴展和偽裝三種風格的假新聞,豐富訓練數據的多樣性;進而設計強化學習策略,動態優化訓練過程中真實新聞與假新聞的采樣比例。實驗結果表明,GSFND在GossipCop和Weibo21基準數據集上分別實現了24.02%和11.06%的假新聞F1值提升,增強了模型對不同平臺數據分布的適應能力。

17566252561.png

圖. GSFND的方法圖,首先利用Prompt結合虛假新聞利用大語言模型生成多樣性 虛假新聞,然后再利用強化學習對數據集進行動態采樣。

表.GSFND方法與現有方法的實驗結果對比

17566252641.png


21.?AutoGUI:賦能數字智能體的大規模自動化功能語義標注框架

AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs

作者:李鴻鑫*、陳競帆*、蘇靖然*、陳韞韜、李青、張兆翔

錄用類型:Main Conference Papers

視覺語言模型(VLMs)在用戶界面(UI)理解領域潛力巨大,但現有數據集要么規模有限,要么缺乏對GUI元素上下文功能的詳細描述(例如,區分視覺相似的“搜索”與“縮放”圖標),嚴重制約了VLMs的細粒度元素定位(Grounding)能力。

本研究提出AutoGUI創新框架(項目主頁:https://autogui-project.github.io/),首次實現大規模、高質量的GUI元素功能語義自動標注。核心在于:1)模擬交互軌跡,捕獲元素交互前后的UI狀態變化;2)利用開源LLM(如Llama-3-70B)作為推理引擎,根據狀態變化自動生成元素的功能描述;3)獨創LLM輔助拒絕與驗證機制:通過可預測性評分過濾無效樣本(如加載失敗頁),并采用多LLM交叉驗證(Llama-3 + Mistral)確保標注正確性,最終達到96.7%的高準確率,媲美專業標注員。

本研究提供了一個高質量數據集AutoGUI-704k,涵蓋Web與移動端,提供704K個GUI元素功能標注,規模與語義豐富度顯著超越前人工作。該數據集可用于顯著提升各類VLM的UI定位能力:基于AutoGUI-704k微調的VLMs(如Qwen2-VL-7B)在多個GUI元素定位基準(FuncPred,ScreenSpot,MOTIF,VWB)上取得顯著提升,并展現出明確的規模效應——數據量越大,性能越優。多個消融實驗驗證了功能語義標注的優越性:基于交互推斷的功能描述作為監督信號,顯著優于直接使用HTML代碼或簡短意圖描述。該數據集也能賦能下游智能體任務:初步實驗表明,增強定位能力的VLMs可有效提升GUI智能體任務(如AITW)的步驟準確率。

AutoGUI為解決UI理解的數據稀缺問題提供了高效、可擴展的自動化方案,為構建更智能的GUI交互智能體奠定了堅實基礎。

17566252801.png

圖1. AutoGUI全自動數字界面元素標注流程

17566252901.png

圖2. 經過AutoGUI數據訓練的VLM可以輔助GPT-4o任務規劃器精準定位具體要交互的元素。


23.?基于對比激活引導的個性化文本生成

Personalized Text Generation with Contrastive Activation Steering

作者:張景昊、劉禹廷、王文杰、劉強、吳書、王亮、Tat-Seng Chua

錄用類型:Main Conference Papers

現有個性化文本生成方法(如檢索增強生成 RAG 和參數高效微調 PEFT)存在內容與風格糾纏、可擴展性差(檢索延遲或存儲需求高)等問題。為此,本文提出 StyleVector 框架,無需訓練即可實現個性化生成。該框架通過對比用戶真實響應與模型生成的風格無關響應,在大語言模型激活空間中提取代表用戶風格的 “風格向量”,并在推理時通過線性干預引導生成。實驗表明,StyleVector 在短文本(LaMP)和長文本(LongLaMP)基準上實現 8% 的相對性能提升,存儲需求較 PEFT 減少 1700 倍,有效平衡了個性化效果與效率。?

17566252971.png

圖 1. StyleVector 框架整體流程,包括風格無關響應生成、風格向量提取和激活引導生成三個階段。

17566253031.png

圖2. 新聞標題生成任務中的案例研究,展示風格向量對個性化生成的引導效果及與基線方法的對比。


24.?LongDocURL:集成理解、推理和定位的多模態長文檔基準

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding,Reasoning,and Locating

作者:鄧超*、袁嘉樂*、不皮、王培杰、李忠志、徐健、李曉輝、高原、宋俊、鄭波、劉成林

錄用類型:Main Conference Papers

現有視覺大語言模型(LVLMs)在單頁文檔上的綜合表現已逼近極限(Qwen2-VL在DocVQA上刷點95分以上)。然而,真實世界的文檔往往以多頁甚至長文檔形式出現,文檔元素更復雜,上下文更長。我們認為,有必要建立一個更全面、更細粒度的長文檔理解基準??紤]到擴展的上下文長度,以及文檔頁與頁之間的連續性和層次性,現有LVLMs將迎來新的挑戰。

研究瞄準長文檔場景,首先定義了三個主任務類別:長文檔理解(Long Document Understanding)、數值推理(Numerical Reasoning)和跨元素定位(Cross-element Locating),然后提出了一個綜合基準——LongDocURL——集成了上述三個主任務,并包含 20 個細分子任務。之后,團隊設計了一個半自動化流程,收集了2325個高質量的問答對,涵蓋396個PDF文檔和超過33000頁的文檔,大大優于現有基準。最后,團隊對26種不同配置的開源和閉源模型進行了全面的評估實驗。實驗結果中,最強模型GPT-4o僅得分64.5,其余模型均未及格。這表明,我們的基準對現有LVLMs是富有挑戰性的。

17566253121.png

任務分類體系。內環:按主要任務類別(理解、推理和定位)劃分。中環:按答案證據頁數(單頁、多頁)和證據元素類型數量(跨元素)劃分。外環:按證據元素類型(文本、布局、表格、圖像)劃分。



25.?基于V-information增強上下文知識的利用

Exploiting Contextual Knowledge in LLMs through ??V-usable Information based Layer Enhancement

作者:袁曉薇、楊朝、黃子揚、王業全、樊思琪、鞠一鳴、趙軍、劉康

錄用類型:Main Conference Papers

大語言模型(LLMs)在各種任務中展現出了卓越的能力,但它們在生成與上下文忠實度相符且能恰當反映上下文知識的內容時,往往面臨困難。盡管現有方法側重于改進解碼策略,但它們缺少對于上下文信息在大語言模型內部狀態處理機制的探尋,大語言模型在充分利用上下文知識的能力方面仍然存在局限。在本文中,我們提出了上下文感知層增強(CaLE)這一新穎的干預方法,它能增強大語言模型內部表征中對上下文知識的利用。通過采用V-usable information分析,CaLE策略性地在最優層放大上下文信息的特征,從而豐富最后一層的表征。我們的實驗表明,CaLE有效地提高了問答任務中與上下文忠實度相符的生成能力,尤其是在涉及未知或相互沖突的上下文知識的場景中。?

17566253201.png

圖1. CaLE方法示意圖

17566253281.png

圖2. V-usable information在不同模型上的變化


26.?邁向更優的思維鏈:對有效性與忠實性的反思

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness

作者:李嘉淳、曹鵬飛、陳玉博、劉康、趙軍

錄用類型:Findings Papers

思維鏈(Chain-of-thought,CoT)提示在不同的推理任務中表現不一。已有研究嘗試對其進行評估,但未能深入分析影響思維鏈表現的具體模式。本文從“有效性”(effectiveness)與“忠實性”(faithfulness)兩個角度出發,對CoT的性能展開研究。

在有效性方面,我們識別了若干關鍵因素,這些因素對CoT在提升任務表現方面的效果具有顯著影響,包括問題難度、信息增益以及信息流動。在忠實性方面,我們通過對問題、CoT和答案三者之間的信息交互進行聯合分析,揭示了CoT不忠實的問題。研究發現,大型語言模型(LLM)在預測答案時,可能會從問題中回憶起CoT中缺失但正確的信息,從而引發忠實性偏差。為緩解這一問題,我們提出了一種新穎的算法,通過從問題中回調更多信息以增強CoT生成過程,并基于信息增益對CoT進行評估。大量實驗結果表明,我們的方法在提升CoT的忠實性和有效性方面均取得了顯著成效。

17566253351.png

圖1. 不同模型和數據集下的CoT性能提升

17566253431.png

圖2. 本文方法的主要流程圖


27.?RAG-RewardBench:面向偏好對齊的檢索增強生成獎勵模型基準

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

作者:金卓然,苑紅榜,門天逸,曹鵬飛,陳玉博,劉康,趙軍

錄用類型:Findings Papers

在檢索增強生成(Retrieval-Augmented Generation,RAG)系統中,大模型通過結合外部檢索文檔,有效緩解其在知識時效性和長尾知識覆蓋方面的不足。然而,傳統RAG方法多側重于提升事實準確性,往往忽視了對人類偏好的對齊,從而可能生成冗長、偏題甚至潛在有害的內容。為了使RAG系統更加有用且無害,偏好對齊成為關鍵環節,其中獎勵模型作為人類價值觀的代理,承擔著評估生成結果是否滿足用戶在實用性、安全性和準確性等方面偏好的核心職責。

獎勵模型在偏好對齊中的重要性日益凸顯,但當前RAG場景下缺乏針對性強、系統性好的評估基準,導致獎勵模型的選擇與訓練面臨較大挑戰。為此,我們提出RAG-RewardBench,這是首個專為RAG設計的獎勵模型評估基準,系統性地支持RAG中的偏好對齊研究。該基準從三個關鍵維度出發:(1)精心設計四類具有挑戰性的RAG特有偏好場景,包括多跳推理、細粒度引用、恰當拒答以及沖突魯棒性;(2)涵蓋18個真實數據集、6種主流檢索器與24個代表性RAG模型,確保任務覆蓋廣泛且評價結果具代表性;(3)引入多種強大的商業模型,構建LLM-as-a-judge體系,實現高效且一致的偏好標注。RAG-RewardBench不僅揭示了當前獎勵模型在RAG場景中的性能短板,也進一步凸顯了RAG系統向偏好對齊訓練范式轉型的迫切性與重要性。

17566253511.png

RAG-RewardBench框架圖


28.?Search-in-Context: 結合蒙特卡洛樹搜索與動態KV檢索的高效長上下文多跳問答方法

Search-in-Context: Efficient Multi-Hop QA over Long Contexts via Monte Carlo Tree Search with Dynamic KV Retrieval

作者:陳佳倍、劉廣、何世柱、羅坤、徐遙、趙軍、劉康

錄用類型:Findings Papers

近年來,大型語言模型(LLM)在數學問題求解、代碼生成等復雜推理任務上展現了卓越的能力。然而,面向長上下文的多跳問答(MHQA)仍然是一個重大挑戰,該任務既需要強大的知識密集型推理能力,也需要對長文檔進行高效處理?,F有方法往往難以平衡這些需求:它們要么忽略了顯式的推理過程,要么因在長上下文上采用全局注意力機制而產生高昂的計算成本。

為解決這一問題,我們提出了一種名為 “Search-in-Context” (SIC)的新型框架。該框架將蒙特卡洛樹搜索(MCTS)與動態鍵值(KV)檢索相結合,以實現迭代式的、上下文感知的推理過程。在每個推理步驟中,SIC 能動態地檢索出關鍵的 KV 緩存對,優先關注最相關的證據片段,從而有效緩解了“中間信息丟失”(lost in the middle)問題。此外,本文還引入了一個在自動標注數據上訓練的“過程獎勵模型”(PRM)。該模型通過提供分步獎勵來指導 MCTS 的搜索過程,在無需人工標注的情況下,促進了高質量推理路徑的生成。

我們在三個長上下文多跳問答基準(HotpotQA、2WikiMultihopQA、MuSiQue)以及一個反事實多跳數據集(CofCA)上進行的實驗證明了 SIC 框架的優越性。它在取得當前最佳性能的同時,也顯著降低了計算開銷。

17566257201.png

SIC框架示意圖


29.?通過自歸納和相關性重評估改進規則的檢索和推理

Improve Rule Retrieval and Reasoning with Self-Induction and Relevance ReEstimate

作者:黃子揚、孫望濤、趙軍、劉康

錄用類型:Findings Papers

本論文系統地解決了規則檢索的挑戰,這是一個在推理任務中至關重要但未被充分探索的領域。研究者指出,傳統的檢索方法(如稀疏或密集檢索器)在直接搜索相關規則時,往往準確率較低。這主要是因為查詢中的具體事實與規則中包含變量和謂詞的抽象表示之間存在顯著的語義鴻溝,這種不匹配導致了次優的檢索質量。為了克服這些挑戰,論文提出了兩種新方法:自歸納增強檢索(SIAR)和規則相關性重新評估(Rule Relevance ReEstimate,R3)。SIAR 利用大型語言模型的歸納能力,通過抽象查詢中的基礎知識和邏輯結構來生成潛在的推理規則。這些生成的規則隨后被用于增強查詢,從而提高檢索效率。SIAR 的核心思想是將查詢盡可能地投影到規則語義空間中,使其能更好地匹配具有相似底層邏輯的規則。在此基礎上,作者引入了 R3方法,它通過評估檢索到的規則所包含的抽象知識是否可以被實例化以與查詢中的事實對齊,以及其對推理的幫助程度,來重新評估規則的相關性。實驗結果顯示,與直接檢索相比,SIAR 顯著提高了檢索和推理性能。此外,結合 SIAR 的R3進一步增強了性能,證明了 LLMs 可以可靠地評估查詢和規則之間的相關性,從而提升了規則檢索的質量。

17566257391.png

規則推理的特點與挑戰


30.?通過可信引用透明化模型對內外部知識的利用

Transparentize the Internal?and External Knowledge Utilization in LLMs with Trustworthy Citation

作者:沈佳俊,周桐,陳玉博,丘德來,劉升平,劉康,趙軍

錄用類型:Findings Papers

盡管檢索增強生成和引用生成能在一定程度上緩解大模型的幻覺問題,但我們發現模型如何利用其內部知識依然不透明,其回答的可信度也因此存疑。

為了解決這個問題,我們提出了“內外知識增強引用生成”任務。該任務要求模型在生成引用時,同時考慮外部與內部知識,并提供可靠的參考文獻。為此,我們設計了五項評估指標,從回答的幫助性、引用忠實度和可信度三個維度進行考量。

我們引入了名為RAEL(理性歸因生成)的任務范式,并設計了INTRALIGN(可解釋、可信對齊)方法,包含一套獨特的數據生成流程和一個對齊算法。實驗結果表明,我們的方法在跨場景性能上優于其他基線。進一步的擴展實驗還揭示,檢索質量、問題類型和模型本身的知識儲備對引用生成的可信度有著顯著影響。

17566259581.png

圖1. 內外知識增強引用生成任務的五個指標

17566259651.png

圖2. INTRALIGN(可解釋、可信對齊)的流程實現


31.?Q-Mamba: 基于訓練后量化的高效Mamba模型

Q-Mamba: Towards more efficient Mamba models via post-training quantization

作者:陳天奇、陳遠騰、王培松、許偉翔、朱澤雨、程健

錄用類型:Findings Papers

近期Mamba在語言理解任務中展現出潛力,逐漸成為 Transformer架構的有力競爭者。然而,本文研究表明,Mamba架構在效率方面仍可通過量化方法進行優化,即對線性層以及狀態緩存(state caches)量化減少內存開銷和加速推理。通過理論分析狀態中離群值的成因,本文提出解耦尺度量化(Decoupled Scale Quantization,DSQ)方法,通過在狀態維度和通道維度分別應用獨立的量化尺度,有效緩解了離群值問題。為了保留量化后Mamba模型的選擇性能力,本文提出了高效選擇性重構(Efficient Selectivity Reconstruction,ESR)方法,解決了非線性量化函數帶來的并行化問題。本文在多種量化設置、模型規模,以及生成任務與零樣本任務中驗證了 Q-Mamba 的有效性。具體而言,在對Mamba2-2.7B進行了8比特量化權重和激活,及4比特量化狀態緩存的情況下,Q-Mamba降低了50%的內存占用,同時在零樣本任務中的平均準確率僅下降了2.13%。

17566259711.png

面向Mamba的訓練后量化框架


32.?RQT:面向多模型層的層次化殘差量化方法

RQT: Hierarchical Residual Quantization for Multi-Model Compression

作者:陳天奇、王培松、許偉翔、朱澤雨、程健

錄用類型:Findings Papers

增量壓縮(Delta compression)方法旨在高效地服務于多個分別針對特定任務和用戶需求微調的模型。這類方法將一個微調后的大語言模型(LLM)分解為基礎模型與對應的增量權重(delta weights),并通過低秩或低比特表示對增量權重進行壓縮,以降低存儲成本。然而,這些方法的效果對模型增量的數值幅度高度敏感,而該幅度又直接受到訓練數據規模的影響。為解決這一問題,本文提出了殘差量化樹(Residual Quantization Tree,RQT),這是一種分層量化框架,能夠在多個相似的微調模型之間自動共享低比特整數權重。RQT的構建采用兩階段貪心算法:第一階段自底向上地根據權重矩陣的相似性聚合模型;第二階段自頂向下地進行殘差量化,在該過程中,每個節點首先優化自身的量化參數,然后將殘差誤差進一步傳遞給子節點進行處理。本文在數學、代碼、對話和中文語言模型等多個微調模型上對RQT進行了評估。實驗結果表明,RQT在保持平均精度損失約為3%(與現有4比特后訓練量化方法相當)的同時,可將位寬降至約2比特。


17566259831.png

所提殘差量化樹方法(RQT)示意圖


33.?語言分組后再擴增:動態多語言專家模型

Group then Scale: Dynamic Mixture-of-Experts Multilingual Language Model

作者:李翀、鄧穎卓、張家俊、宗成慶

錄用類型:Findings Papers

在多語言領域,模型如果同時學習很多語言,其平均的多語言能力會下降,即出現了“多語言詛咒現象”。研究發現該現象出現的原因來自兩個方面:一是模型的參數量不夠,另一個是不相似語言之間存在較強的競爭關系。

為解決該問題,我們提出一種動態多語言專家模型結構,將語言分化引入混合專家結構中,在擴大參數量的同時,減少語言之間的競爭。我們首先采用單語語料來微調模型,獲得逐層參數偏差。偏差量大的層需要更多的參數來緩解并存儲語言特定的知識,被擴展為混合專家層。但其他層則被所有語言共享?;趨档淖兓?,語言之間的相似度也可以量化,并將相似的語言歸為同一組去微調一個專家模塊。

研究團隊在128種語言的設置下進行的分析,圖2展示了我們方法(DMoE)和其他方法在語言建模任務上的效果??梢园l現DMoE顯著減輕了“多語言詛咒”現象,并且優于基線方法平均1.1困惑度。這些提升主要來自于模型之前不涉及的語言和低資源語言,例如斯瓦希里語(sw)和維吾爾語(ug)。

17566259961.png

圖1. 動態多語言專家模型的訓練框架

17566261961.png

圖2. 不同方法在128種語言上的語言建模結果


34.?通過邏輯依據蒸餾在不損失通用能力的情況下提升 LLM 翻譯技能

Boosting LLM Translation Skills without General Ability Loss via Rationale Distillation

作者:武俊宏、趙陽、徐楊一帆、劉兵、宗成慶

錄用類型:Findings Papers

大型語言模型(LLMs)在眾多自然語言處理任務中表現出色,并且通過微調提升了其在機器翻譯(MT)中的表現。然而,傳統的微調方法常導致嚴重的遺忘現象,削弱了LLMs的廣泛一般能力,并帶來了潛在的安全風險。這些能力是通過專有且不可獲取的訓練數據開發而來的,使得簡單的數據重放方法無效。為解決這一問題,我們提出了一種新方法,稱為邏輯依據蒸餾。邏輯依據蒸餾利用LLMs強大的生成能力,為訓練數據生成解釋,然后通過“重放”這些邏輯依據來防止遺忘。這些邏輯依據將模型的內在知識與待學習的新任務相連接,作為自我蒸餾的目標來調節訓練過程。通過對參考譯文和自生成的邏輯依據進行聯合訓練,模型能夠在學習新翻譯技能的同時,保留在其他任務中的一般能力。這一方法提供了持續學習領域中使用邏輯依據的一種新視角,并有潛力成為一種通用持續學習方法在更廣泛的任務上取得效果。

17566262021.png

圖1.依據蒸餾方法的示意圖。該方法首先使用語言模型為訓練數據生成邏輯依據(左),隨后用邏輯依據和訓練數據一同微調模型,克服災難性遺忘。

17566262081.png

圖2. 依據蒸餾方法的效果示意圖,該方法在大幅提升翻譯性能(COMET)的同時,保持了模型在通用任務(MT-bench)上的性能。


36.?隱式跨語言獎勵機制驅動的多語言偏好對齊

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment

作者:楊文、武俊宏、王晨、宗成慶、張家俊

錄用類型:Findings Papers

近年來,隨著大語言模型(LLMs)的快速發展,如何有效提升多語言模型在全球范圍內的可用性成為研究熱點。其中,偏好對齊 (Preference Alignment)作為關鍵環節,旨在通過調整模型輸出內容的概率分布,使其更貼合人類的價值觀和行為偏好,從而提升交互體驗與安全性。然而,當前大多數偏好對齊研究集中于英語環境,多語言場景下的偏好對齊仍面臨諸多挑戰。一方面,非英語語種的高質量偏好數據稀缺;另一方面,基于傳統翻譯方法構建偏好數據可能引入語義偏差,影響對齊效果。

針對這一問題,本工作嘗試利用已有的英語對齊模型,通過隱式獎勵機制捕捉模型內部豐富的偏好知識,并通過迭代訓練的方式將偏好知識遷移至其他語言,從而減少對外部多語言數據的依賴。本工作的核心在于提出了一種無需翻譯、直接利用英語對齊模型生成多語言偏好標簽的方法——隱式跨語言獎勵機制,從而高效地實現多語言偏好對齊。

17566262141.png

圖1. 隱式跨語言獎勵方法流程概覽

表1. 在英語、西班牙語、俄語、德語、法語,本方法在X-ApacaEval基準上的結果以及其他方法、SoTA模型的結果

17566262201.png


37.?通過同步自我回顧OCR提升多模態大模型的文檔圖像翻譯能力

Improving MLLM’s Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency

作者:梁雨普、張亞萍、張志揚、陳致遠、趙陽、向露、宗成慶、周玉

錄用類型:Findings Papers

多模態大模型(MLLM)在文檔圖像任務中表現出色,特別是在光學字符識別(OCR)方面。然而,它們在文檔圖像翻譯(DIMT)任務中表現不佳,因為該任務同時涉及跨模態和跨語言的挑戰。此前通過在DIMT數據集上進行有監督微調(SFT)以增強DIMT能力的嘗試,往往會導致模型原有的單語能力遺忘。為應對這些挑戰,我們提出了一種新的微調范式,稱為“同步自我回顧(Synchronously Self-Reviewing,SSR)”,靈感來源于“雙語認知優勢”這一概念。具體而言,SSR會在生成翻譯文本之前引導模型先生成OCR文本,從而使模型在學習跨語言翻譯的同時,能夠利用其強大的單語OCR能力。實驗表明,所提出的SSR學習范式有助于緩解災難性遺忘,提升MLLM在OCR和DIMT任務上的泛化能力。

17566262271.png


38.?基于查詢響應與相關區域聚焦的全頁面復雜版面文檔圖像翻譯方法

A Query-Response Framework for Whole-Page Complex-Layout Document Image Translation with Relevant Regional Concentration

作者:張志揚、張亞萍、梁雨普、陳致遠、向露、趙陽、周玉、宗成慶

錄用類型:Findings Papers

文檔圖像翻譯(DIT)旨在將圖像中的文檔從源語言翻譯成目標語言,在文檔智能領域發揮重要作用。然而,現有方法通常依賴于傳統的編碼器-解碼器范式,在翻譯復雜版面文檔時嚴重缺乏對關鍵區域的專注力。

本研究提出了一種新穎的查詢響應文檔圖像翻譯框架(QRDIT),將DIT任務重新定義為多查詢的并行響應/翻譯過程。該框架明確地將注意力集中在最相關的文本區域上,以確保翻譯準確性。QRDIT包含兩個主要階段:查詢階段和響應階段。在查詢階段,系統首先提取文檔的多模態特征,然后通過序列標注識別每個查詢的前綴詞,并利用類似DETR的交叉注意力機制形成查詢嵌入。通過計算詞級相關性分數,自適應地聚集最相關的文本區域。在響應階段,采用動態門控聚合機制增強查詢特征中的文本語義,然后利用翻譯解碼器為每個查詢并行生成翻譯結果。

實驗結果表明,在三個基準數據集的四個翻譯方向上,QRDIT均取得了最先進的性能,在處理全頁面復雜版面文檔圖像翻譯任務時顯示出顯著的翻譯質量提升。

17566262341.png

QRDIT框架總覽圖:展示了查詢階段和響應階段的完整工作流程。


39.?不確定性揭示:接觸更多上下文示例能否減輕大型語言模型的不確定性?

Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?

作者:王亦菲、盛玉、李林靜、曾大軍

錄用類型:Findings Papers

最近在處理長序列方面的進展促進了長上下文中的上下文學習(Many-shot ICL)的探索。雖然現有的許多研究強調了額外上下文示例驅動的性能提升,但其對生成響應的可信度的影響仍然未被充分探討。本文通過研究增加樣本對預測不確定性(這是可信度的一個重要方面)的影響,填補了這一空白。我們首先系統性地量化了不同樣本數量的 ICL 不確定性,分析示例數量的影響。通過不確定性分解,我們引入了一種關于性能提升的新視角,重點關注認識不確定性(EU)。我們的結果顯示,額外示例通過注入任務特定知識來降低簡單和復雜任務中的總體不確定性,從而減少了 EU 并提升了性能。對于復雜任務,這些優勢僅在解決與較長輸入相關的增加噪聲和不確定性之后才會顯現。最后,我們探討了跨層的內部信心的演變,揭示了驅動不確定性降低的機制。

17566262411.png

簡單模式(左)和困難模式(右)的不確定性分解結果


40.?聆聽、觀察、學習感知:基于檢索增強的情感推理實現復合情感生成

Listen,Watch,and Learn to Feel: Retrieval- Augmented Emotion Reasoning for Compound Emotion Generation

作者:溫卓凡、連政、陳順、姚海亮、楊龍江、劉斌、陶建華

錄用類型:Findings Papers

使用多模態大語言模型(MLLMs)理解人類情感的能力,對于推動人機交互和多模態情感分析的發展至關重要。盡管基于心理學理論的人類標注為多模態情感任務提供了支撐,但情感感知的主觀性常常導致標注不一致,限制了當前模型的魯棒性。為應對這些挑戰,需要更精細的方法與評估框架。

本文提出了檢索增強情感推理(Retrieval-Augmented Emotion Reasoning,RAER)框架,這是一個可插拔模塊,用于增強多模態大模型處理復合型與上下文豐富情感任務的能力。為系統性評估模型表現,進一步設計了刺激老虎機(Stimulus-Armed Bandit,SAB)框架,用于衡量模型的情感推理能力。同時,構建了復合情感問答(Compound Emotion QA)數據集,這是一個由 AI 生成的多模態數據集,旨在強化 MLLMs 對情感的理解。實驗結果表明,RAER 在傳統基準測試與 SAB 評估中均表現出色,展示了其在提升多模態 AI 系統情感智能方面的潛力。

17566262471.png

圖1. RAER框架

17566262531.png

圖2. SAB實驗結果


41.?Know-MRI:面向大模型知識機理的綜合性解釋工具

Know-MRI: A?Knowledge Mechanisms Revealer&Interpreter?for Large Language Models

作者:劉佳翔,邢博軒,袁晨皓,張陳祥,吳迪,黃修勝,于海達,郎楚涵,曹鵬飛,趙軍,劉康

錄用類型:System Demonstrations Papers

隨著大型語言模型(LLMs)的不斷發展,提升其內部知識機制的可解釋性變得愈發緊迫。因此,許多解釋方法應運而生,試圖從不同角度揭示LLMs的知識機制。然而,當前的解釋方法在輸入數據格式和輸出結果形式上存在差異,整合這些方法的工具通常只能支持特定輸入的任務,極大地限制了其實用性。

為了解決這些問題,我們提出了一個開源工具——Knowledge Mechanisms Revealer & Interpreter(Know-MRI),旨在系統性地分析LLMs的知識機制。具體來說,我們開發了一個可擴展的核心模塊,能夠自動匹配不同的輸入數據與解釋方法,并整合解釋輸出。該工具使用戶能夠根據輸入自由選擇合適的解釋方法,從而更方便地從多個角度對模型的內部知識機制進行全面診斷。

17566262591.png

圖1. Know-MRI框架圖

17566262651.png

圖2. Know-MRI交互界面


42.?CiteLab—基于人機交互的引用生成工作流開發與診斷

CiteLab: Developing and Diagnosing LLM Citation Generation Workflows

作者:沈佳俊,周桐,陳玉博,劉康,趙軍

錄用類型:System Demonstrations Papers

我們注意到,目前利用大語言模型在問答任務中生成引用的方法,因缺乏統一框架來標準化和公平比較,導致了復現和創新上的困難。

為解決這一問題,我們推出了一個名為Citeflow的開源模塊化框架。它旨在促進引用生成方法的復現和新設計的實現。Citeflow具有高度的可擴展性,用戶可以通過其四大模塊和十四個組件來構建、評估引用生成流程,并更好地理解LLM生成的歸因內容。

同時,我們還開發了一個可視化的界面Citefix,與Citeflow緊密配合。它能幫助用戶輕松地進行案例研究,并對現有方法進行修改。通過這個界面,用戶可以根據不同場景開展由人機交互驅動的案例研究。Citeflow和Citefix共同整合在我們的工具包CiteLab中,我們通過一個真實的人機交互多輪改進過程,展示了該工具包在實現和修改引用生成流程方面的顯著效率。

17566262801.png

圖1. Citelab的模塊化設計(左)和部分工作流實現(右)

17566262871.png

圖2. Citelab的可視化交互界面


來源:中國科學院自動化研究所


熱點新聞

推薦產品

x
  • 在線反饋
1.我有以下需求:



2.詳細的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 欧美日韩a∨毛片一区| 国产欧美日韩不卡| 国精品在亚洲_欧美| 亚洲一区黄色| 一级毛片免费| 日韩欧美一区二区久久| 成人网久久| 欧美一区二区精品| 国产乱人视频免费播放| 高清国产美女一级a毛片录| 国产 日韩 欧美在线| 久久国产精品亚洲| 日韩av成人| 亚洲黄色影片| 2021久久精品国产99国产| 久久国产精品久久久久久| 中文字幕日韩亚洲| 亚洲酒色1314狠狠做| 免费a级黄色毛片| 欧美色欧美亚洲高清在线视频| 国产视频二区| 国产精品色| 看黄色的网址| 涩涩97在线观看视频| 精品一区二区三区水蜜桃| 国产123| 国产精品线在线精品国语| 久久成人国产| 久久精品综合视频| 麻豆一区| 男人综合网| 男女啪啪成人免费网站| 日本韩国欧美一区| 日韩欧美不卡片| 色中文字幕| 日韩欧美成人乱码一在线| 无需付费大片免费在线观看| 性做久久久久久网站| 亚洲欧美日本韩国| 亚洲乱码国产一区网址| 伊人222综合|