久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

ABB
關(guān)注中國(guó)自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
橫河電機(jī)25年9月
工業(yè)智能邊緣計(jì)算2025年會(huì)
2025工業(yè)安全大會(huì)
CAIAC 2025
OICT公益講堂
當(dāng)前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

資訊頻道

國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì)(ACL?2025)自動(dòng)化所入選成果速覽
  • 點(diǎn)擊數(shù):243     發(fā)布時(shí)間:2025-08-27 15:16:46
  • 分享到:
國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì)(Annual Meeting of the Association for Computational Linguistics,簡(jiǎn)稱ACL )是計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議,由國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)組織。第63屆ACL大會(huì)近期在奧地利維也納召開(kāi)。我們將分期對(duì)自動(dòng)化所的錄用研究成果進(jìn)行簡(jiǎn)要介紹,歡迎大家共同交流討論。
關(guān)鍵詞:

國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì)(Annual Meeting of the Association for Computational Linguistics,簡(jiǎn)稱ACL )是計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議,由國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)組織。第63屆ACL大會(huì)近期在奧地利維也納召開(kāi)。我們將分期對(duì)自動(dòng)化所的錄用研究成果進(jìn)行簡(jiǎn)要介紹,歡迎大家共同交流討論。


01.?重新思考提示策略在大語(yǔ)言模型測(cè)試時(shí)間拓展時(shí)的作用:一個(gè)基于概率論的視角

Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory

★ Outstanding Paper Award

作者:劉燁翔、李澤坤、方志、徐楠、赫然、譚鐵牛

錄用類型:Main Conference Papers

本研究探索了在Test-Time Scaling設(shè)置下何種提示策略最優(yōu),在6個(gè)大語(yǔ)言模型×8種提示策略×6個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,重點(diǎn)圍繞最基礎(chǔ)的多數(shù)投票測(cè)試時(shí)間拓展設(shè)置。研究發(fā)現(xiàn),pass@1 accuracy高的提示策略在Test-Time Scaling時(shí)并不一定始終最優(yōu),而在大部分情況下,簡(jiǎn)單的0-shot CoT會(huì)隨著Scale逐漸成為最優(yōu)策略,即使它的pass@1 accuracy并不高。

研究團(tuán)隊(duì)從概率理論的角度分析了這一現(xiàn)象的原因:

1. 定義了基于結(jié)果概率分布的新的問(wèn)題難度體系。簡(jiǎn)單和中等難度問(wèn)題隨著Scale性能單調(diào)不減,困難問(wèn)題則相反。CoT有更多的簡(jiǎn)單問(wèn)題和更少的困難問(wèn)題。

2. CoT的錯(cuò)誤答案概率分布更平坦,使其在增加采樣次數(shù)時(shí),測(cè)試時(shí)間拓展性能增加受到的影響更小,使得性能提升更快。

基于理論,研究提出了兩種能大幅提升測(cè)試時(shí)間拓展性能的方法:

1. 根據(jù)定義的問(wèn)題難度自適應(yīng)拓展。

2. 動(dòng)態(tài)選擇單個(gè)問(wèn)題的最佳提示策略。

兩者結(jié)合能更大幅提升性能,例如將LLaMA-3-8B-Instruct在MATH500上的準(zhǔn)確率從15.2%提升至61.0%。

17566248571.png

圖1. 每個(gè)模型和推理提示策略在測(cè)試數(shù)據(jù)集上的平均性能結(jié)果,CoT隨著采樣次數(shù)/輪數(shù)增加性能快速提升,在采樣次數(shù)/輪數(shù)足夠大時(shí)成為最優(yōu)策略。

17566248671.png

圖2. CoT有時(shí)在較小采樣次數(shù)下表現(xiàn)較差,而在較大采樣次數(shù)下表現(xiàn)較好的兩個(gè)原因。左圖:CoT有更多的簡(jiǎn)單問(wèn)題和更少的困難問(wèn)題,例如L2M的結(jié)果概率分布為{0.4(正確答案),0.5,0.1,0.0,0.0}(困難問(wèn)題),CoT的結(jié)果概率分布為{0.3(正確答案),0.2,0.2,0.2,0.1}(簡(jiǎn)單問(wèn)題),盡管L2M有更高的pass@1 accuracy(0.4>0.3),它的性能隨著測(cè)試時(shí)間拓展逐漸降低至0,而CoT則逐漸增加至100%。右圖:CoT有更平坦的錯(cuò)誤答案概率分布,使其多數(shù)投票得到正確答案的概率更快速增長(zhǎng)。


02.?傳染性越獄麻煩制造者在誠(chéng)實(shí)小鎮(zhèn)制造混亂

A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns

★?SAC Highlights Award

作者:門天逸、曹鵬飛、金卓然、陳玉博、劉康、趙軍

錄用類型:Main Conference Papers

隨著大語(yǔ)言模型的發(fā)展,它們作為智能體被廣泛應(yīng)用于各個(gè)領(lǐng)域。智能體的核心組件之一是記憶模塊,該模塊雖然存儲(chǔ)關(guān)鍵信息,但容易受到越獄攻擊。現(xiàn)有研究主要集中于單智能體攻擊和共享記憶攻擊,然而現(xiàn)實(shí)場(chǎng)景中往往存在獨(dú)立記憶架構(gòu)。本文提出"麻煩制造者在誠(chéng)實(shí)小鎮(zhèn)制造混亂"(TMCHT)任務(wù)框架,這是一個(gè)大規(guī)模、多智能體、多拓?fù)浣Y(jié)構(gòu)的文本攻擊評(píng)估框架。該框架要求一個(gè)攻擊者智能體嘗試誤導(dǎo)整個(gè)智能體社會(huì)。我們發(fā)現(xiàn)多智能體攻擊面臨的兩大挑戰(zhàn):(1)非完全圖結(jié)構(gòu),(2)大規(guī)模系統(tǒng)。我們將這些挑戰(zhàn)歸因于"毒性消失"現(xiàn)象。

為解決這些問(wèn)題,我們提出對(duì)抗性復(fù)制傳染越獄(ARCJ)方法:通過(guò)優(yōu)化檢索后綴增強(qiáng)毒性樣本的檢索概率,同時(shí)優(yōu)化復(fù)制后綴使毒性樣本具備傳染能力。實(shí)驗(yàn)證明我們的方法在TMCHT任務(wù)中具有顯著優(yōu)勢(shì),在線型結(jié)構(gòu)、星型結(jié)構(gòu)和一百個(gè)智能體場(chǎng)景分別實(shí)現(xiàn)23.51%、18.95%和52.93%的性能提升。該研究揭示了廣泛采用的多智能體架構(gòu)中潛在的傳染風(fēng)險(xiǎn)。

17566248811.png

圖1.(a) 攻擊記憶機(jī)制:注入記憶的毒性樣本比正常內(nèi)容更容易被檢索,導(dǎo)致誤導(dǎo)性響應(yīng)。(b) 多智能體攻擊場(chǎng)景:給定一個(gè)攻擊者和若干正常智能體的小鎮(zhèn)環(huán)境。經(jīng)過(guò)多輪交互后,攻擊者希望能誤導(dǎo)更多智能體。(c) 毒性消失現(xiàn)象:毒性樣本在多次傳播后毒性逐漸減弱,使其更難被檢索。因此,現(xiàn)有針對(duì)單智能體記憶的攻擊方法缺乏傳播能力。

17566248911.png

圖2.傳染越獄攻擊方法概覽。左側(cè)為本方法能夠緩解毒性消失現(xiàn)象,并在群體中實(shí)現(xiàn)更強(qiáng)攻擊效果。右側(cè)為方法細(xì)節(jié)示意圖:第一階段通過(guò)優(yōu)化檢索后綴,使毒性樣本更易被檢索到;第二階段優(yōu)化復(fù)制后綴以緩解毒性消失現(xiàn)象,使其具備毒性傳播能力。


03. 教會(huì)視覺(jué)語(yǔ)言模型提問(wèn):解決歧義性視覺(jué)問(wèn)題

Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

★ SAC Highlights Award

作者:簡(jiǎn)璞、于東磊、楊文、任爍、張家俊

錄用類型:Main Conference Papers

在視覺(jué)問(wèn)答(VQA)任務(wù)中,由于用戶表達(dá)習(xí)慣不同,常常會(huì)向視覺(jué)語(yǔ)言模型(VLMs)提出含糊不清的問(wèn)題。現(xiàn)有研究主要通過(guò)改寫(xiě)問(wèn)題來(lái)處理歧義,忽略了VLMs與用戶交互中本質(zhì)上的互動(dòng)特性,即歧義可通過(guò)用戶反饋加以澄清。然而,面向交互式澄清的研究仍面臨兩大挑戰(zhàn):(1)缺乏用于評(píng)估VLMs在互動(dòng)中消除歧義能力的基準(zhǔn);(2)現(xiàn)有VLMs訓(xùn)練目標(biāo)以回答為主,缺乏主動(dòng)提問(wèn)能力,難以發(fā)起澄清。

為解決上述問(wèn)題,我們提出了 ClearVQA 基準(zhǔn),涵蓋視覺(jué)問(wèn)答中三類常見(jiàn)歧義情形,并覆蓋多種VQA場(chǎng)景。此外,我們?cè)O(shè)計(jì)了一條自動(dòng)化流程,用于生成“歧義-澄清問(wèn)題”對(duì)。實(shí)驗(yàn)表明,基于自動(dòng)生成數(shù)據(jù)進(jìn)行訓(xùn)練后,VLMs能夠提出合理的澄清問(wèn)題,并在用戶反饋基礎(chǔ)上生成更準(zhǔn)確、具體的答案。

17566249841.png

圖1. ClearVQA基準(zhǔn)中強(qiáng)調(diào)的視覺(jué)問(wèn)句歧義問(wèn)題。(a) ClearVQA將歧義劃分為三類:指稱歧義、意圖不明確和拼寫(xiě)歧義。Q表示原始問(wèn)題,IQ為用戶的真實(shí)意圖問(wèn)題,ICQ為理想的澄清問(wèn)題,GT為標(biāo)準(zhǔn)答案。(b) 測(cè)試集實(shí)驗(yàn)結(jié)果顯示,與明確表達(dá)的IQ相比,現(xiàn)有VLMs在處理對(duì)應(yīng)的歧義問(wèn)題時(shí)表現(xiàn)不佳,導(dǎo)致VQA準(zhǔn)確率顯著下降。

17566249921.png

圖2. (a) 訓(xùn)練流程用于賦予模型交互式澄清能力;(b) 推理流程。ICQ 表示理想的澄清問(wèn)題,GT 表示真實(shí)答案,Q 表示用戶提出的問(wèn)題,NCQ 表示未能準(zhǔn)確反映用戶真實(shí)意圖的澄清問(wèn)題。


04.?HiDe-LLaVA:多模態(tài)大模型持續(xù)指令微調(diào)的分層解耦方法

HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

作者:郭海洋*、曾繁虎*、向子維、朱飛、王大寒、張煦堯、劉成林

錄用類型:Main Conference Papers

指令微調(diào)是一種廣泛用于提升預(yù)訓(xùn)練多模態(tài)大模型(MLLM)的方法,通過(guò)在精心挑選的任務(wù)特定數(shù)據(jù)集上進(jìn)行訓(xùn)練,使其更好地理解人類指令。然而,在實(shí)際應(yīng)用中,同時(shí)收集所有可能的指令數(shù)據(jù)集是不切實(shí)際的。因此,使MLLM具備持續(xù)指令微調(diào)能力對(duì)于保持其適應(yīng)性至關(guān)重要。然而,現(xiàn)有方法往往在內(nèi)存效率和性能提升之間進(jìn)行權(quán)衡,這會(huì)顯著降低整體效率。

本文提出了一種基于不同模型層在多樣化數(shù)據(jù)集上訓(xùn)練時(shí)中心核對(duì)齊(CKA)相似性變化的任務(wù)特定擴(kuò)展與任務(wù)通用融合框架。此外,我們分析了現(xiàn)有基準(zhǔn)測(cè)試中的信息泄露問(wèn)題,并提出了一個(gè)新的、更具挑戰(zhàn)性的基準(zhǔn)測(cè)試,以合理評(píng)估不同方法的性能。全面的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有最先進(jìn)方法相比,我們的方法在性能上取得了顯著提升。

論文鏈接

GitHub鏈接

17566250021.png

HiDe-LLaVA 框架示意圖。(a)在訓(xùn)練過(guò)程中,我們使用自回歸損失優(yōu)化 LoRA 模塊和投影層,而圖像-文本錨點(diǎn)則從 CLIP 的圖像和文本編碼器中提取。(b) 在推理階段,我們的方法對(duì)頂層 LoRA 采用類似于 MoE 的擴(kuò)展,并通過(guò)與先前學(xué)習(xí)的圖像和文本錨點(diǎn)進(jìn)行相似性匹配,動(dòng)態(tài)分配專家權(quán)重。對(duì)于剩余的層,通過(guò) LoRA 融合將跨任務(wù)的通用知識(shí)進(jìn)行有效整合。


05.?TokAlign:通過(guò)詞元對(duì)齊實(shí)現(xiàn)的高效詞表適應(yīng)方法

TokAlign: Efficient Vocabulary Adaptation via Token Alignment

作者:李翀、張家俊、宗成慶

錄用類型:Main Conference Papers

大模型的詞表通常在訓(xùn)練開(kāi)始階段就已經(jīng)確定,因此將其用于新的領(lǐng)域或語(yǔ)言時(shí),如果詞表的編碼效率較低,就會(huì)降低模型的推理速度。另一方面,不同大模型之間詞表的差異阻礙了模型之間深層次知識(shí)遷移,例如在詞元級(jí)別細(xì)粒度的知識(shí)蒸餾和模型集成方法就需要模型有相同的詞表。

為了解決以上問(wèn)題,我們提出了一種用于大模型的高效詞表替換方法TokAlign。該方法通過(guò)對(duì)齊新詞表與舊詞表的詞元,利用相似詞元的參數(shù)進(jìn)行初始化,并通過(guò)兩階段的新詞表適應(yīng)過(guò)程,快速恢復(fù)模型的初始性能表現(xiàn)。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):在給定替換的目標(biāo)詞典后,我們的方法使模型獲得了良好的初始化。TokAlign將初始困惑度從2.9e5降低到1.2e2,僅用四千步微調(diào)就恢復(fù)了原始性能,并且在13種語(yǔ)言上平均提高了29.2%的壓縮率。

使用我們的方法對(duì)齊不同大模型之間的詞表后,不同架構(gòu)的模型之間就可以進(jìn)行如詞元級(jí)別的細(xì)粒度知識(shí)蒸餾。實(shí)驗(yàn)發(fā)現(xiàn)詞元級(jí)別的知識(shí)蒸餾大幅提升了模型的性能,顯著超越了文本級(jí)別的粗粒度知識(shí)蒸餾方法。

17566250111.png

TokAlign通過(guò)在分詞后的詞元語(yǔ)料上訓(xùn)練詞元表征來(lái)對(duì)齊不同詞表的詞元


06.?基于源句追溯與關(guān)系分類的細(xì)粒度文本溯源任務(wù)

TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification

作者:朱軍楠、肖敏、王亦寧、翟飛飛、周玉、宗成慶

錄用類型:Main Conference Papers

隨著大模型在文本生成方面展現(xiàn)出卓越的流暢性和連貫性,其廣泛應(yīng)用也引發(fā)了對(duì)內(nèi)容可靠性和可問(wèn)責(zé)性的擔(dān)憂。在法律、醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域,準(zhǔn)確識(shí)別文本內(nèi)容的來(lái)源及其生成方式至關(guān)重要。為此,我們提出了文本溯源任務(wù),旨在將目標(biāo)文本的每個(gè)句子追溯到源文檔中的具體源句,并建立細(xì)粒度的關(guān)系分類。

區(qū)別于現(xiàn)有研究主要聚焦于單文檔或粗粒度引用識(shí)別,本文所提出的文本溯源任務(wù)專注于多文檔和長(zhǎng)文檔場(chǎng)景下的精確溯源。本文構(gòu)建的數(shù)據(jù)集基于三個(gè)公開(kāi)數(shù)據(jù)集,涵蓋11個(gè)多樣化場(chǎng)景、中英雙語(yǔ)以及不同長(zhǎng)度的源文本,通過(guò)三階段標(biāo)注流程確保數(shù)據(jù)質(zhì)量。該數(shù)據(jù)集將目標(biāo)句與源句間的關(guān)系細(xì)分為“引用”、“壓縮”、“推理”和“其他”四大類型,為理解文本生成的精細(xì)機(jī)制提供了重要基礎(chǔ)。實(shí)驗(yàn)評(píng)估了11個(gè)主流大模型在“直接提示”和“檢索增強(qiáng)”兩種范式下的性能。結(jié)果表明:“檢索增強(qiáng)”對(duì)所有模型均可以帶來(lái)顯著提升,大參數(shù)模型在復(fù)雜關(guān)系分類任務(wù)中表現(xiàn)更優(yōu)。盡管閉源模型整體領(lǐng)先,但開(kāi)源模型通過(guò)檢索增強(qiáng)可顯著縮小性能差距。值得注意的是,關(guān)系分類仍然是一個(gè)極具挑戰(zhàn)性的研究問(wèn)題。

17566250201.png

圖1. 文本溯源任務(wù)與相關(guān)任務(wù)的對(duì)比概覽圖(展示了文本溯源與引用文本生成、事實(shí)驗(yàn)證、基于知識(shí)的文本生成等相關(guān)任務(wù)的區(qū)別)

17566250321.png

圖2. 文本溯源數(shù)據(jù)集分布統(tǒng)計(jì)圖(數(shù)據(jù)集在任務(wù)類型、語(yǔ)言分布、輸入長(zhǎng)度等維度的詳細(xì)統(tǒng)計(jì))


07.?數(shù)學(xué)推理中過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型的高效精確訓(xùn)練數(shù)據(jù)構(gòu)建框架

An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning

作者:孫為、杜倩龍、崔福偉、張家俊

錄用類型:Main Conference Papers

提升大型語(yǔ)言模型(LLMs)的數(shù)學(xué)推理能力具有重大的科學(xué)和實(shí)踐意義。研究人員通常采用過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型(PRMs)來(lái)指導(dǎo)推理過(guò)程,從而有效提高模型的推理能力。然而,現(xiàn)有的過(guò)程監(jiān)督訓(xùn)練數(shù)據(jù)構(gòu)建方法,如人工標(biāo)注和逐步蒙特卡洛估計(jì),往往成本高昂或質(zhì)量不佳。為了解決這些挑戰(zhàn),本文引入了一個(gè)名為EpicPRM(高效、精確、廉價(jià))的框架,該框架根據(jù)每個(gè)中間推理步驟的量化貢獻(xiàn)進(jìn)行標(biāo)注,并使用一種自適應(yīng)二分搜索算法來(lái)提高標(biāo)注的精確度和效率。通過(guò)這種方法,我們高效地構(gòu)建了一個(gè)高質(zhì)量的過(guò)程監(jiān)督訓(xùn)練數(shù)據(jù)集,名為Epic50k,包含5萬(wàn)個(gè)已標(biāo)注的中間步驟。與其他公開(kāi)可用的數(shù)據(jù)集相比,使用Epic50k訓(xùn)練的PRM模型表現(xiàn)出顯著優(yōu)越的性能。

17566250411.png

圖1. 使用Epic50k訓(xùn)練的PRM的Best-of-N監(jiān)督效果與baseline方法的對(duì)比

17566250481.png

圖2. 使用Epic50k訓(xùn)練的PRM在PROCESSBENCH上與baseline方法的對(duì)比


08.?LADM:基于注意力依賴度量的大語(yǔ)言模型長(zhǎng)上下文訓(xùn)練數(shù)據(jù)篩選框架

LADM: Long-context Training Data Selection with Attention-based Dependency Measurement for LLMs

作者:陳江昊、武俊宏、徐楊一帆、張家俊

錄用類型:Main Conference Papers

隨著大語(yǔ)言模型上下文建模窗口的不斷擴(kuò)展,在預(yù)訓(xùn)練階段選擇高質(zhì)量的長(zhǎng)文本訓(xùn)練數(shù)據(jù)變得至關(guān)重要。然而,當(dāng)前長(zhǎng)上下文訓(xùn)練數(shù)據(jù)的質(zhì)量評(píng)估仍面臨挑戰(zhàn),現(xiàn)有方法均未能充分捕捉上下文內(nèi)部的全局依賴結(jié)構(gòu),亟需一種高效、精準(zhǔn)的數(shù)據(jù)選擇框架。為此,本文提出了一個(gè)基于注意力機(jī)制的依賴性度量 (LADM) 的長(zhǎng)上下文數(shù)據(jù)選擇框架,該框架能夠從大規(guī)模、多領(lǐng)域的預(yù)訓(xùn)練語(yǔ)料庫(kù)中高效地識(shí)別高質(zhì)量的長(zhǎng)上下文數(shù)據(jù)。LADM 利用注意力機(jī)制內(nèi)在的檢索能力來(lái)捕捉上下文依賴關(guān)系,從而確保對(duì)長(zhǎng)上下文數(shù)據(jù)進(jìn)行全面的質(zhì)量評(píng)估。實(shí)驗(yàn)結(jié)果在長(zhǎng)文本困惑度,長(zhǎng)文本合成任務(wù)和真實(shí)場(chǎng)景長(zhǎng)文本任務(wù)上驗(yàn)證了提出方法的優(yōu)越性。在同等規(guī)模的訓(xùn)練量下,LADM數(shù)據(jù)選擇方案顯著優(yōu)于各類基線方法。

17566250561.png

LADM整體框架


09.?基于多模態(tài)大模型知識(shí)繼承的單-多模態(tài)對(duì)齊文檔圖像翻譯

Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation

作者:梁雨普、張亞萍、張志揚(yáng)、趙陽(yáng)、向露、宗成慶、周玉

錄用類型:Main Conference Papers

文檔圖像翻譯(DIMT)旨在翻譯文檔圖像中的文本,是跨語(yǔ)言跨模態(tài)信息轉(zhuǎn)換的重要技術(shù),在實(shí)際應(yīng)用中面臨訓(xùn)練數(shù)據(jù)有限和跨模態(tài)信息融合不足的挑戰(zhàn)。傳統(tǒng)小模型方法,通常難以有效捕捉視覺(jué)與文本模態(tài)間的復(fù)雜關(guān)聯(lián),導(dǎo)致泛化能力受限。為此,我們提出一種M4Doc框架,創(chuàng)新性地通過(guò)單模態(tài)-多模態(tài)對(duì)齊機(jī)制解決這一難題。M4Doc的核心思想是將圖像編碼器與經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練的多模態(tài)大模型(MLLM)的多模態(tài)表示空間對(duì)齊,使輕量級(jí)翻譯模型能夠繼承豐富的視覺(jué)-文本關(guān)聯(lián)知識(shí)。這種設(shè)計(jì)使得模型在推理階段無(wú)需依賴MLLM即可保持高效計(jì)算,同時(shí)獲得顯著提升的翻譯性能。為驗(yàn)證方法的有效性,我們?cè)诳珙I(lǐng)域場(chǎng)景和復(fù)雜文檔布局條件下進(jìn)行了系統(tǒng)實(shí)驗(yàn),結(jié)果表明M4Doc不僅超越了現(xiàn)有方法的翻譯質(zhì)量,更展現(xiàn)出優(yōu)異的泛化能力。此外,本研究提出的對(duì)齊范式為其他視覺(jué)-語(yǔ)言任務(wù)提供了可遷移的技術(shù)路徑。

17566250651.png

M4Doc的模型結(jié)構(gòu)圖


10.MMDEND:樹(shù)突啟發(fā)的多分支多室并行序列建模中的峰值神經(jīng)元

MMDEND: Dendrite-Inspired Multi-Branch Multi-Compartment Parallel Spiking Neuron for Sequence Modeling

作者:王可心、侴雨宏、商迪、梅仕杰、張佳鴻、黃彥彬、姚滿、徐波、李國(guó)齊

錄用類型:Main Conference Papers

傳統(tǒng)脈沖神經(jīng)元(Vanilla spiking neurons)將具有樹(shù)突、胞體和突觸的復(fù)雜生物神經(jīng)元簡(jiǎn)化為單一胞體隔室。由于性能和訓(xùn)練效率的限制,這類神經(jīng)元在建模長(zhǎng)序列時(shí)面臨重大挑戰(zhàn)。性能方面,過(guò)度簡(jiǎn)化的脈沖神經(jīng)元?jiǎng)恿W(xué)忽略了長(zhǎng)期時(shí)間依賴性;膜電位的長(zhǎng)尾分布和二元激活的離散化誤差進(jìn)一步限制了其長(zhǎng)序列建模能力。效率方面,脈沖神經(jīng)元的串行機(jī)制導(dǎo)致長(zhǎng)序列訓(xùn)練耗時(shí)過(guò)長(zhǎng)。雖然并行脈沖神經(jīng)元是高效解決方案,但其參數(shù)量通常與隱藏維度或序列長(zhǎng)度綁定,使得現(xiàn)有并行結(jié)構(gòu)難以適配大型架構(gòu)。為此,我們提出MMDEND:一種多分支多隔室并行脈沖樹(shù)突神經(jīng)元。其比例可調(diào)的多分支多隔室結(jié)構(gòu)能捕捉長(zhǎng)期時(shí)間依賴性,同時(shí)引入的縮放-平移整數(shù)發(fā)放(SSF)機(jī)制可擬合長(zhǎng)尾膜電位分布,在保持效率的同時(shí)減少離散化誤差。與并行神經(jīng)元相比,MMDEND以更少參數(shù)和更低能耗實(shí)現(xiàn)了更優(yōu)的長(zhǎng)序列建模能力??梢暬Y(jié)果也證實(shí)SSF機(jī)制能有效擬合長(zhǎng)尾分布。

17566250721.png

圖. Dendritic Neuron Modeling

表.?Comparison of Performance on General Sequential Tasks

17566250781.png


11.?揭示知識(shí)編輯的欺騙性:表面編輯的機(jī)制性分析

Revealing the Deceptiveness of Knowledge Editing: A Mechanistic Analysis of Superficial Editing

作者:謝甲寬、曹鵬飛、陳玉博、劉康、趙軍

錄用類型:Main Conference Papers

知識(shí)編輯技術(shù)旨在高效更新大語(yǔ)言模型中的知識(shí),然而現(xiàn)有方法往往僅關(guān)注表面性能指標(biāo),忽視了編輯的魯棒性與可靠性。本文首次系統(tǒng)地定義了表面編輯問(wèn)題,揭示了當(dāng)前主流知識(shí)編輯算法存在的關(guān)鍵性缺陷:盡管模型在標(biāo)準(zhǔn)測(cè)試提示下能正確回答更新后的知識(shí),但在添加特定上下文攻擊前綴后,模型會(huì)回退至原有知識(shí),表明編輯操作并未真正修正模型內(nèi)部的知識(shí)表征。通過(guò)評(píng)估實(shí)驗(yàn),我們發(fā)現(xiàn)現(xiàn)有編輯算法在傳統(tǒng)性能指標(biāo)上表現(xiàn)優(yōu)異,但普遍存在嚴(yán)重的表面編輯現(xiàn)象。為探究其成因,我們深入剖析了模型內(nèi)部機(jī)制,發(fā)現(xiàn):(1)淺層中主語(yǔ)位置新知識(shí)的積累會(huì)受抑制性干擾;(2)深層中的特定注意力頭傾向于向序列末端注入舊知識(shí)相關(guān)信息,奇異值分解進(jìn)一步表明,某些左奇異向量對(duì)表面編輯現(xiàn)象具有因果性影響。為驗(yàn)證結(jié)論的普適性,我們?cè)诒砻孢z忘任務(wù)中復(fù)現(xiàn)了相同機(jī)制,證實(shí)了分析方法的泛化能力。

17566250851.png

表面編輯示例。當(dāng)輸入標(biāo)準(zhǔn)查詢(查詢1)時(shí),編輯后的模型能正確輸出目標(biāo)知識(shí);當(dāng)輸入含攻擊前綴的查詢(查詢2)時(shí),模型會(huì)重新生成原有知識(shí),表明知識(shí)更新僅停留在表層。


12.?神經(jīng)不兼容性:大語(yǔ)言模型中跨規(guī)模參數(shù)化知識(shí)遷移難以逾越

Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models

作者:譚宇喬、何世柱、劉康、趙軍

錄用類型:Main Conference Papers

大語(yǔ)言模型可訪問(wèn)的參數(shù)編碼了廣泛的知識(shí),這些知識(shí)可以被分析、定位和遷移。一個(gè)關(guān)鍵的研究挑戰(zhàn)是超越傳統(tǒng)基于符號(hào)語(yǔ)言的知識(shí)遷移范式,實(shí)現(xiàn)真正的參數(shù)化知識(shí)遷移。本文證明了在參數(shù)空間中的對(duì)齊是實(shí)現(xiàn)成功跨規(guī)模參數(shù)化知識(shí)遷移的基本前提。因此,我們首次定義此前的參數(shù)知識(shí)遷移為后對(duì)齊參數(shù)化知識(shí)遷移范式。為了減少對(duì)齊的成本,我們引入了一種新的預(yù)對(duì)齊參數(shù)化知識(shí)遷移范式,并提出了一種名為L(zhǎng)aTen(定位再對(duì)齊)的解決方案,該方法僅通過(guò)幾個(gè)訓(xùn)練步驟即可對(duì)不同規(guī)模大語(yǔ)言模型的參數(shù)空間進(jìn)行對(duì)齊,無(wú)需后續(xù)訓(xùn)練。

在四個(gè)基準(zhǔn)上的綜合實(shí)驗(yàn)表明,所有參數(shù)知識(shí)遷移方法在實(shí)現(xiàn)一致穩(wěn)定的遷移方面都面臨挑戰(zhàn)。我們將這一現(xiàn)象歸因?yàn)樯窠?jīng)不兼容性,即不同規(guī)模大語(yǔ)言模型之間的行為邏輯和參數(shù)結(jié)構(gòu)的本質(zhì)差異,這對(duì)實(shí)現(xiàn)有效的參數(shù)知識(shí)遷移構(gòu)成了根本挑戰(zhàn)。這些發(fā)現(xiàn)為大語(yǔ)言模型的參數(shù)化架構(gòu)提供了新的見(jiàn)解,并為未來(lái)關(guān)于高效PKT的研究指明了有前景的方向。

17566250931.png

參數(shù)化知識(shí)遷移和基于語(yǔ)言的知識(shí)遷移的對(duì)比示意圖

論文鏈接

代碼鏈接


13.?Agent-RewardBench:面向真實(shí)世界多模態(tài)智能體的感知、規(guī)劃與安全統(tǒng)一獎(jiǎng)勵(lì)建模基準(zhǔn)

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception,?Planning,?and Safety in Real-World Multimodal Agents

作者:門天逸,金卓然,曹鵬飛,陳玉博,劉康,趙軍

錄用類型:Main Conference Papers

隨著多模態(tài)大語(yǔ)言模型的發(fā)展,多模態(tài)智能體在網(wǎng)頁(yè)導(dǎo)航、具身智能等現(xiàn)實(shí)任務(wù)中展現(xiàn)出巨大潛力。然而,由于缺乏外部反饋機(jī)制,這些智能體在自我修正和泛化能力方面仍存在明顯局限。采用獎(jiǎng)勵(lì)模型作為外部反饋是一種可行的方案,但目前缺乏針對(duì)智能體的獎(jiǎng)勵(lì)模型選擇標(biāo)準(zhǔn),急需構(gòu)建面向智能體的獎(jiǎng)勵(lì)評(píng)估基準(zhǔn)。為此,我們提出Agent-RewardBench基準(zhǔn)框架,其具備三大核心特征:(1)多維度真實(shí)場(chǎng)景獎(jiǎng)勵(lì)建模評(píng)估,涵蓋感知、規(guī)劃與安全三大維度,包含七種典型應(yīng)用場(chǎng)景;(2)步驟級(jí)獎(jiǎng)勵(lì)評(píng)估,支持對(duì)任務(wù)執(zhí)行過(guò)程中每個(gè)獨(dú)立步驟的細(xì)粒度能力評(píng)估;(3)難度適配的高質(zhì)量數(shù)據(jù),從十種不同模型中采樣并精選樣本,通過(guò)難度控制保證任務(wù)具有挑戰(zhàn)性,并經(jīng)過(guò)人工核驗(yàn)確保數(shù)據(jù)可靠性。實(shí)驗(yàn)表明,即使是當(dāng)前最先進(jìn)的多模態(tài)模型也表現(xiàn)欠佳,這凸顯了開(kāi)展智能體獎(jiǎng)勵(lì)建模專項(xiàng)訓(xùn)練的必要性。

17566251001.png

圖1. 監(jiān)督微調(diào)、獎(jiǎng)勵(lì)引導(dǎo)的訓(xùn)練及獎(jiǎng)勵(lì)引導(dǎo)的搜索方法的示意圖

17566251091.png

圖2. Agent-RewardBench示意圖。該框架用于評(píng)估智能體在感知、規(guī)劃與安全三個(gè)維度的獎(jiǎng)勵(lì)建模能力。


14.?基于捷徑神經(jīng)元分析構(gòu)建大語(yǔ)言模型的可信評(píng)估

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

作者:朱克建,涂尚卿,金卓然,侯磊,李涓子,趙軍

錄用類型:Main Conference Papers

隨著大語(yǔ)言模型技術(shù)發(fā)展,評(píng)估其真實(shí)能力的可靠性問(wèn)題也日益凸顯。當(dāng)前,模型評(píng)估主要依賴于開(kāi)源的評(píng)測(cè)基準(zhǔn)。但這極易受到“數(shù)據(jù)污染”的影響,即模型在訓(xùn)練階段可能已經(jīng)接觸過(guò)評(píng)測(cè)數(shù)據(jù),從而在測(cè)試中取得高于真實(shí)水平的分?jǐn)?shù),嚴(yán)重影響了評(píng)估的公平性與可信度。為應(yīng)對(duì)這一挑戰(zhàn),以往的工作重點(diǎn)關(guān)注構(gòu)建定期更新的評(píng)測(cè)基準(zhǔn)。但這類方法成本高且周期長(zhǎng)。對(duì)此,我們提出了一種全新的思路,從模型內(nèi)部機(jī)制出發(fā),分析和抑制模型在訓(xùn)練測(cè)試集時(shí)帶來(lái)的解題捷徑。我們認(rèn)為,污染模型表現(xiàn)高于真實(shí)水平,是由于其在訓(xùn)練中學(xué)習(xí)到了捷徑解法。本研究首次從神經(jīng)元出發(fā),系統(tǒng)揭示了模型內(nèi)部“走捷徑”的機(jī)制。我們提出通過(guò)對(duì)比與因果分析相結(jié)合的方式,定位了污染模型種的捷徑神經(jīng)元。在此基礎(chǔ)上,我們進(jìn)一步提出捷徑神經(jīng)元修補(bǔ)方法,有效抑制模型走捷徑推理。實(shí)驗(yàn)顯示,經(jīng)修補(bǔ)后的污染模型在對(duì)應(yīng)數(shù)據(jù)泄露的評(píng)測(cè)基準(zhǔn)上準(zhǔn)確率顯著下降,且更接近其真實(shí)未污染時(shí)的表現(xiàn)。

17566251161.png

圖1. 一個(gè)展示我們方法的核心原理的示例:我們通過(guò)抑制模型在被污染區(qū)域依賴捷徑生成答案,來(lái)恢復(fù)模型的真實(shí)能力。

17566251221.png

圖2:我們方法的整體流程圖。我們通過(guò)神經(jīng)元分析,識(shí)別模型中可能存在捷徑推理的區(qū)域。具體而言,我們計(jì)算對(duì)比分?jǐn)?shù)與因果分?jǐn)?shù)以定位捷徑神經(jīng)元:對(duì)比分?jǐn)?shù)用于發(fā)現(xiàn)污染模型與未污染模型在參數(shù)激活上的最大差異區(qū)域;因果分?jǐn)?shù)則通過(guò)神經(jīng)元修補(bǔ)分析,評(píng)估其對(duì)模型表現(xiàn)的因果影響。隨后,我們利用所定位的捷徑神經(jīng)元,對(duì)待測(cè)模型進(jìn)行修補(bǔ),從而實(shí)現(xiàn)更可信的評(píng)估結(jié)果。


15.?從個(gè)性化和主動(dòng)性角度評(píng)估個(gè)性化工具增強(qiáng)大語(yǔ)言模型

Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity

作者:郝煜樸,曹鵬飛,金卓然,廖桓萱,陳玉博,劉康,趙軍

錄用類型:Main Conference Papers

個(gè)性化的工具調(diào)用對(duì)于使大語(yǔ)言模型(LLMs)在與各種工具交互的場(chǎng)景中更好地對(duì)齊用戶偏好至關(guān)重要。然而,現(xiàn)有的大多數(shù)評(píng)測(cè)基準(zhǔn)側(cè)重于文本生成的個(gè)性化,或者專注于工具的直接調(diào)用,往往未能同時(shí)兼顧這兩方面。在本研究中,我們提出了一個(gè)全新的評(píng)測(cè)基準(zhǔn)ETAPP,用于評(píng)估個(gè)性化的工具使用能力。我們構(gòu)建了一個(gè)沙箱環(huán)境,并整理了一個(gè)涵蓋多樣化用戶畫(huà)像的、包含800個(gè)測(cè)試樣例的綜合性數(shù)據(jù)集。為了提高評(píng)估的準(zhǔn)確性,我們提出了一種基于關(guān)鍵點(diǎn)的大語(yǔ)言模型評(píng)估方法。該方法通過(guò)為每個(gè)測(cè)試樣例人工標(biāo)注關(guān)鍵點(diǎn),并將其作為參考提供給用于評(píng)估的大模型,從而緩解了因?yàn)橛纱笳Z(yǔ)言模型擔(dān)任評(píng)審者(LLM-as-a-judge)的系統(tǒng)中可能存在的偏差問(wèn)題。此外,我們對(duì)多個(gè)優(yōu)秀的大語(yǔ)言模型進(jìn)行了系統(tǒng)評(píng)估,并提供了深入的分析。同時(shí),我們還探討了不同的工具調(diào)用策略對(duì)大語(yǔ)言模型個(gè)性化表現(xiàn)的影響,以及在該任務(wù)中進(jìn)行微調(diào)的實(shí)驗(yàn)效果。我們的研究還驗(yàn)證了偏好設(shè)定機(jī)制和基于關(guān)鍵點(diǎn)的評(píng)估方法的有效性。我們的研究成果為提升個(gè)性化大語(yǔ)言模型智能體的能力提供了新的見(jiàn)解。

17566251311.png


16.?破解事實(shí)知識(shí):大語(yǔ)言模型中簡(jiǎn)并知識(shí)神經(jīng)元的全面分析

Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models

作者:陳宇恒、曹鵬飛、陳玉博、王一寧、劉升平、劉康、趙軍

錄用類型:Main Conference Papers

知識(shí)神經(jīng)元理論為理解大語(yǔ)言模型(LLMs)中事實(shí)性知識(shí)的作用機(jī)制提供了關(guān)鍵路徑,該理論認(rèn)為事實(shí)存儲(chǔ)于多層感知機(jī)神經(jīng)元中。本文進(jìn)一步探索了簡(jiǎn)并知識(shí)神經(jīng)元(Degenerate Knowledge Neurons,DKNs)——即不同神經(jīng)元集合可存儲(chǔ)相同事實(shí),但不同于簡(jiǎn)單冗余,這些神經(jīng)元同時(shí)參與存儲(chǔ)其他不同事實(shí)。盡管此概念具有新穎性和獨(dú)特屬性,卻尚未被準(zhǔn)確定義和系統(tǒng)研究。

我們的核心貢獻(xiàn)包括:

1. 開(kāi)創(chuàng)性結(jié)構(gòu)分析: 通過(guò)解析神經(jīng)元權(quán)重連接模式,首次從功能與結(jié)構(gòu)雙重視角對(duì)DKNs進(jìn)行系統(tǒng)性定義。

2. 精準(zhǔn)識(shí)別方法: 基于上述定義提出神經(jīng)元拓?fù)渚垲悾∟euronal Topology Clustering)方法,顯著提升DKNs的識(shí)別準(zhǔn)確率。

3. 實(shí)踐應(yīng)用驗(yàn)證: 在兩方面證明DKNs的應(yīng)用價(jià)值:指導(dǎo)LLMs高效學(xué)習(xí)新知識(shí);揭示其對(duì)輸入錯(cuò)誤的抗干擾魯棒性機(jī)制。

本研究為深入解析大語(yǔ)言模型的知識(shí)存儲(chǔ)冗余性與魯棒性提供了理論工具與方法論基礎(chǔ)。

17566251381.png


17.?知識(shí)顯微鏡:特征——優(yōu)于神經(jīng)元的分析透鏡

The Knowledge Microscope: Features as Better Analytical Lenses than Neurons

作者:陳宇恒、曹鵬飛、劉康、趙軍

錄用類型:Main Conference Papers

先前的研究主要利用多層感知機(jī)(MLP)神經(jīng)元作為分析單元,以理解語(yǔ)言模型(LMs)中事實(shí)性知識(shí)的作用機(jī)制。然而,神經(jīng)元存在多義性(polysemanticity)問(wèn)題,導(dǎo)致其知識(shí)表達(dá)能力受限且可解釋性較差。

在本研究中,我們首先通過(guò)初步實(shí)驗(yàn)驗(yàn)證了稀疏自編碼器(Sparse Autoencoders,SAE)能夠有效地將神經(jīng)元分解為特征(features),這些特征可作為替代的分析單元。基于此,我們的核心發(fā)現(xiàn)揭示了特征相較于神經(jīng)元的三大關(guān)鍵優(yōu)勢(shì):

1. 更強(qiáng)的影響與更優(yōu)的可解釋性: 特征對(duì)知識(shí)表達(dá)具有更強(qiáng)的影響力,并展現(xiàn)出更優(yōu)越的可解釋性。

2. 增強(qiáng)的單義性: 特征表現(xiàn)出更強(qiáng)的單義性(monosemanticity),在表達(dá)相關(guān)事實(shí)與不相關(guān)事實(shí)時(shí)呈現(xiàn)出明顯不同的激活模式。

3. 更好的隱私保護(hù): 特征能實(shí)現(xiàn)比神經(jīng)元更佳的隱私保護(hù)效果。我們提出的特征擦除(FeatureErase) 方法,在從語(yǔ)言模型中擦除隱私敏感信息方面,顯著優(yōu)于現(xiàn)有的基于神經(jīng)元的方案。

這項(xiàng)研究表明,特征作為更精細(xì)的分析單元,為理解和操控語(yǔ)言模型中的知識(shí)提供了更清晰、更有效的途徑。

17566251441.png


18.?EAC-MoE:基于專家選擇機(jī)制的混合專家大語(yǔ)言模型壓縮方法

EAC-MoE: Expert-Selection Aware Compressor for Mixture-of-Experts Large Language Models

作者:陳遠(yuǎn)騰、邵遠(yuǎn)天、王培松、程健

錄用類型:Main Conference Papers

混合專家大語(yǔ)言模型(MoE-LLMs)通過(guò)引入專家路由機(jī)制,有效降低了模型在訓(xùn)練和推理過(guò)程中的激活參數(shù)量,從而展現(xiàn)出在高效計(jì)算與可擴(kuò)展網(wǎng)絡(luò)容量方面的巨大潛力。然而,當(dāng)前的MoE-LLMs在實(shí)際部署與推理中仍面臨兩個(gè)主要挑戰(zhàn):一是總參數(shù)量較大,二是推理速度明顯低于具有相同激活參數(shù)量的密集型大語(yǔ)言模型(Dense-LLMs)。為應(yīng)對(duì)上述問(wèn)題,本文針對(duì)MoE-LLMs的核心:專家選擇機(jī)制,提出了一種結(jié)合靜態(tài)量化與動(dòng)態(tài)專家剪枝的混合壓縮方法。在靜態(tài)量化方面,針對(duì)量化誤差導(dǎo)致的專家選擇偏移問(wèn)題,本文提出了結(jié)合專家路由校準(zhǔn)的逐層量化方法,有效提升了量化后MoE模型的專家選擇準(zhǔn)確率。在動(dòng)態(tài)專家剪枝方面,本文基于專家選擇頻率,動(dòng)態(tài)跳過(guò)對(duì)當(dāng)前任務(wù)重要性較低的專家推理,從而顯著提高推理效率。通過(guò)將靜態(tài)量化與動(dòng)態(tài)專家剪枝有機(jī)結(jié)合,EAC-MoE能在保持較小準(zhǔn)確率損失的前提下,顯著降低MoE-LLMs實(shí)際部署的顯存需求并提高推理速度。本文方法在多個(gè)主流MoE模型和數(shù)據(jù)集上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明其具有良好的有效性。

17566251521.png

所提EAC-MoE方法在減少顯存消耗和加快推理方面的表現(xiàn)


19.?借助視覺(jué)感知注意力頭散度揭示大型視覺(jué)語(yǔ)言模型中的幻覺(jué)成因

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

作者:賀靖涵、朱寬、郭海云、方俊峰、花政林、賈育衡、唐明、蔡達(dá)成、王金橋

錄用類型:Main Conference Papers

盡管大型視覺(jué)語(yǔ)言模型實(shí)現(xiàn)了先進(jìn)的多模態(tài)推理能力,但其仍存在嚴(yán)重的“幻覺(jué)”問(wèn)題,即生成的文本與視覺(jué)內(nèi)容不符,影響準(zhǔn)確性與可靠性。現(xiàn)有方法多聚焦于生成階段的對(duì)齊訓(xùn)練或解碼優(yōu)化,未能深入探究幻覺(jué)的內(nèi)在成因。本研究從模型內(nèi)部機(jī)制出發(fā),重點(diǎn)關(guān)注多頭注意力模塊,提出視覺(jué)感知注意力頭散度(VHD)這一指標(biāo),量化注意力頭對(duì)視覺(jué)上下文的敏感程度。研究發(fā)現(xiàn),盡管存在對(duì)視覺(jué)信息敏感的注意力頭,但模型過(guò)度依賴語(yǔ)言先驗(yàn)?zāi)J饺允腔糜X(jué)的主要誘因?;诖?,作者提出視覺(jué)感知注意力頭強(qiáng)化(VHR)方法,無(wú)需額外訓(xùn)練即可通過(guò)增強(qiáng)視覺(jué)敏感注意力頭的作用來(lái)抑制幻覺(jué)。實(shí)驗(yàn)表明,VHR在減少幻覺(jué)方面優(yōu)于現(xiàn)有技術(shù),且?guī)缀醪辉黾訒r(shí)間開(kāi)銷,兼具高效性與性能優(yōu)勢(shì)。

17566252441.png

圖1.大型視覺(jué)語(yǔ)言模型的幻覺(jué)與語(yǔ)言偏好之間的關(guān)聯(lián)

17566252501.png

圖2. 本文提出的VHD指標(biāo)及VHR方法的示意圖


20.?先生成,后采樣:利用大語(yǔ)言模型增強(qiáng)和強(qiáng)化采樣的虛假新聞檢測(cè)方法

Generate First,Then Sample: Enhancing Fake News Detection with LLM-Augmented Reinforced Sampling

作者:童昭、谷逸夢(mèng)、劉會(huì)東、劉強(qiáng)、吳書(shū)、石海超、張曉宇

錄用類型:Main Conference Papers

當(dāng)前假新聞檢測(cè)方法(如基于深度學(xué)習(xí)的語(yǔ)義建模和融合社交上下文的方法)面臨兩大挑戰(zhàn):一是模型對(duì)數(shù)據(jù)分布敏感,假新聞識(shí)別性能顯著低于真實(shí)新聞(差距超過(guò)20%);二是在標(biāo)注數(shù)據(jù)有限時(shí)泛化能力不足。為此,本文提出GSFND?(Generate first and then Sample for Fake News Detection)框架,通過(guò)生成增強(qiáng)與動(dòng)態(tài)采樣機(jī)制提升檢測(cè)性能。該框架首先利用大語(yǔ)言模型生成改寫(xiě)、擴(kuò)展和偽裝三種風(fēng)格的假新聞,豐富訓(xùn)練數(shù)據(jù)的多樣性;進(jìn)而設(shè)計(jì)強(qiáng)化學(xué)習(xí)策略,動(dòng)態(tài)優(yōu)化訓(xùn)練過(guò)程中真實(shí)新聞與假新聞的采樣比例。實(shí)驗(yàn)結(jié)果表明,GSFND在GossipCop和Weibo21基準(zhǔn)數(shù)據(jù)集上分別實(shí)現(xiàn)了24.02%和11.06%的假新聞F1值提升,增強(qiáng)了模型對(duì)不同平臺(tái)數(shù)據(jù)分布的適應(yīng)能力。

17566252561.png

圖. GSFND的方法圖,首先利用Prompt結(jié)合虛假新聞利用大語(yǔ)言模型生成多樣性 虛假新聞,然后再利用強(qiáng)化學(xué)習(xí)對(duì)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)采樣。

表.GSFND方法與現(xiàn)有方法的實(shí)驗(yàn)結(jié)果對(duì)比

17566252641.png


21.?AutoGUI:賦能數(shù)字智能體的大規(guī)模自動(dòng)化功能語(yǔ)義標(biāo)注框架

AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs

作者:李鴻鑫*、陳競(jìng)帆*、蘇靖然*、陳韞韜、李青、張兆翔

錄用類型:Main Conference Papers

視覺(jué)語(yǔ)言模型(VLMs)在用戶界面(UI)理解領(lǐng)域潛力巨大,但現(xiàn)有數(shù)據(jù)集要么規(guī)模有限,要么缺乏對(duì)GUI元素上下文功能的詳細(xì)描述(例如,區(qū)分視覺(jué)相似的“搜索”與“縮放”圖標(biāo)),嚴(yán)重制約了VLMs的細(xì)粒度元素定位(Grounding)能力。

本研究提出AutoGUI創(chuàng)新框架(項(xiàng)目主頁(yè):https://autogui-project.github.io/),首次實(shí)現(xiàn)大規(guī)模、高質(zhì)量的GUI元素功能語(yǔ)義自動(dòng)標(biāo)注。核心在于:1)模擬交互軌跡,捕獲元素交互前后的UI狀態(tài)變化;2)利用開(kāi)源LLM(如Llama-3-70B)作為推理引擎,根據(jù)狀態(tài)變化自動(dòng)生成元素的功能描述;3)獨(dú)創(chuàng)LLM輔助拒絕與驗(yàn)證機(jī)制:通過(guò)可預(yù)測(cè)性評(píng)分過(guò)濾無(wú)效樣本(如加載失敗頁(yè)),并采用多LLM交叉驗(yàn)證(Llama-3 + Mistral)確保標(biāo)注正確性,最終達(dá)到96.7%的高準(zhǔn)確率,媲美專業(yè)標(biāo)注員。

本研究提供了一個(gè)高質(zhì)量數(shù)據(jù)集AutoGUI-704k,涵蓋Web與移動(dòng)端,提供704K個(gè)GUI元素功能標(biāo)注,規(guī)模與語(yǔ)義豐富度顯著超越前人工作。該數(shù)據(jù)集可用于顯著提升各類VLM的UI定位能力:基于AutoGUI-704k微調(diào)的VLMs(如Qwen2-VL-7B)在多個(gè)GUI元素定位基準(zhǔn)(FuncPred,ScreenSpot,MOTIF,VWB)上取得顯著提升,并展現(xiàn)出明確的規(guī)模效應(yīng)——數(shù)據(jù)量越大,性能越優(yōu)。多個(gè)消融實(shí)驗(yàn)驗(yàn)證了功能語(yǔ)義標(biāo)注的優(yōu)越性:基于交互推斷的功能描述作為監(jiān)督信號(hào),顯著優(yōu)于直接使用HTML代碼或簡(jiǎn)短意圖描述。該數(shù)據(jù)集也能賦能下游智能體任務(wù):初步實(shí)驗(yàn)表明,增強(qiáng)定位能力的VLMs可有效提升GUI智能體任務(wù)(如AITW)的步驟準(zhǔn)確率。

AutoGUI為解決UI理解的數(shù)據(jù)稀缺問(wèn)題提供了高效、可擴(kuò)展的自動(dòng)化方案,為構(gòu)建更智能的GUI交互智能體奠定了堅(jiān)實(shí)基礎(chǔ)。

17566252801.png

圖1. AutoGUI全自動(dòng)數(shù)字界面元素標(biāo)注流程

17566252901.png

圖2. 經(jīng)過(guò)AutoGUI數(shù)據(jù)訓(xùn)練的VLM可以輔助GPT-4o任務(wù)規(guī)劃器精準(zhǔn)定位具體要交互的元素。


23.?基于對(duì)比激活引導(dǎo)的個(gè)性化文本生成

Personalized Text Generation with Contrastive Activation Steering

作者:張景昊、劉禹廷、王文杰、劉強(qiáng)、吳書(shū)、王亮、Tat-Seng Chua

錄用類型:Main Conference Papers

現(xiàn)有個(gè)性化文本生成方法(如檢索增強(qiáng)生成 RAG 和參數(shù)高效微調(diào) PEFT)存在內(nèi)容與風(fēng)格糾纏、可擴(kuò)展性差(檢索延遲或存儲(chǔ)需求高)等問(wèn)題。為此,本文提出 StyleVector 框架,無(wú)需訓(xùn)練即可實(shí)現(xiàn)個(gè)性化生成。該框架通過(guò)對(duì)比用戶真實(shí)響應(yīng)與模型生成的風(fēng)格無(wú)關(guān)響應(yīng),在大語(yǔ)言模型激活空間中提取代表用戶風(fēng)格的 “風(fēng)格向量”,并在推理時(shí)通過(guò)線性干預(yù)引導(dǎo)生成。實(shí)驗(yàn)表明,StyleVector 在短文本(LaMP)和長(zhǎng)文本(LongLaMP)基準(zhǔn)上實(shí)現(xiàn) 8% 的相對(duì)性能提升,存儲(chǔ)需求較 PEFT 減少 1700 倍,有效平衡了個(gè)性化效果與效率。?

17566252971.png

圖 1. StyleVector 框架整體流程,包括風(fēng)格無(wú)關(guān)響應(yīng)生成、風(fēng)格向量提取和激活引導(dǎo)生成三個(gè)階段。

17566253031.png

圖2. 新聞標(biāo)題生成任務(wù)中的案例研究,展示風(fēng)格向量對(duì)個(gè)性化生成的引導(dǎo)效果及與基線方法的對(duì)比。


24.?LongDocURL:集成理解、推理和定位的多模態(tài)長(zhǎng)文檔基準(zhǔn)

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding,Reasoning,and Locating

作者:鄧超*、袁嘉樂(lè)*、不皮、王培杰、李忠志、徐健、李曉輝、高原、宋俊、鄭波、劉成林

錄用類型:Main Conference Papers

現(xiàn)有視覺(jué)大語(yǔ)言模型(LVLMs)在單頁(yè)文檔上的綜合表現(xiàn)已逼近極限(Qwen2-VL在DocVQA上刷點(diǎn)95分以上)。然而,真實(shí)世界的文檔往往以多頁(yè)甚至長(zhǎng)文檔形式出現(xiàn),文檔元素更復(fù)雜,上下文更長(zhǎng)。我們認(rèn)為,有必要建立一個(gè)更全面、更細(xì)粒度的長(zhǎng)文檔理解基準(zhǔn)??紤]到擴(kuò)展的上下文長(zhǎng)度,以及文檔頁(yè)與頁(yè)之間的連續(xù)性和層次性,現(xiàn)有LVLMs將迎來(lái)新的挑戰(zhàn)。

研究瞄準(zhǔn)長(zhǎng)文檔場(chǎng)景,首先定義了三個(gè)主任務(wù)類別:長(zhǎng)文檔理解(Long Document Understanding)、數(shù)值推理(Numerical Reasoning)和跨元素定位(Cross-element Locating),然后提出了一個(gè)綜合基準(zhǔn)——LongDocURL——集成了上述三個(gè)主任務(wù),并包含 20 個(gè)細(xì)分子任務(wù)。之后,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)半自動(dòng)化流程,收集了2325個(gè)高質(zhì)量的問(wèn)答對(duì),涵蓋396個(gè)PDF文檔和超過(guò)33000頁(yè)的文檔,大大優(yōu)于現(xiàn)有基準(zhǔn)。最后,團(tuán)隊(duì)對(duì)26種不同配置的開(kāi)源和閉源模型進(jìn)行了全面的評(píng)估實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果中,最強(qiáng)模型GPT-4o僅得分64.5,其余模型均未及格。這表明,我們的基準(zhǔn)對(duì)現(xiàn)有LVLMs是富有挑戰(zhàn)性的。

17566253121.png

任務(wù)分類體系。內(nèi)環(huán):按主要任務(wù)類別(理解、推理和定位)劃分。中環(huán):按答案證據(jù)頁(yè)數(shù)(單頁(yè)、多頁(yè))和證據(jù)元素類型數(shù)量(跨元素)劃分。外環(huán):按證據(jù)元素類型(文本、布局、表格、圖像)劃分。



25.?基于V-information增強(qiáng)上下文知識(shí)的利用

Exploiting Contextual Knowledge in LLMs through ??V-usable Information based Layer Enhancement

作者:袁曉薇、楊朝、黃子揚(yáng)、王業(yè)全、樊思琪、鞠一鳴、趙軍、劉康

錄用類型:Main Conference Papers

大語(yǔ)言模型(LLMs)在各種任務(wù)中展現(xiàn)出了卓越的能力,但它們?cè)谏膳c上下文忠實(shí)度相符且能恰當(dāng)反映上下文知識(shí)的內(nèi)容時(shí),往往面臨困難。盡管現(xiàn)有方法側(cè)重于改進(jìn)解碼策略,但它們?nèi)鄙賹?duì)于上下文信息在大語(yǔ)言模型內(nèi)部狀態(tài)處理機(jī)制的探尋,大語(yǔ)言模型在充分利用上下文知識(shí)的能力方面仍然存在局限。在本文中,我們提出了上下文感知層增強(qiáng)(CaLE)這一新穎的干預(yù)方法,它能增強(qiáng)大語(yǔ)言模型內(nèi)部表征中對(duì)上下文知識(shí)的利用。通過(guò)采用V-usable information分析,CaLE策略性地在最優(yōu)層放大上下文信息的特征,從而豐富最后一層的表征。我們的實(shí)驗(yàn)表明,CaLE有效地提高了問(wèn)答任務(wù)中與上下文忠實(shí)度相符的生成能力,尤其是在涉及未知或相互沖突的上下文知識(shí)的場(chǎng)景中。?

17566253201.png

圖1. CaLE方法示意圖

17566253281.png

圖2. V-usable information在不同模型上的變化


26.?邁向更優(yōu)的思維鏈:對(duì)有效性與忠實(shí)性的反思

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness

作者:李嘉淳、曹鵬飛、陳玉博、劉康、趙軍

錄用類型:Findings Papers

思維鏈(Chain-of-thought,CoT)提示在不同的推理任務(wù)中表現(xiàn)不一。已有研究嘗試對(duì)其進(jìn)行評(píng)估,但未能深入分析影響思維鏈表現(xiàn)的具體模式。本文從“有效性”(effectiveness)與“忠實(shí)性”(faithfulness)兩個(gè)角度出發(fā),對(duì)CoT的性能展開(kāi)研究。

在有效性方面,我們識(shí)別了若干關(guān)鍵因素,這些因素對(duì)CoT在提升任務(wù)表現(xiàn)方面的效果具有顯著影響,包括問(wèn)題難度、信息增益以及信息流動(dòng)。在忠實(shí)性方面,我們通過(guò)對(duì)問(wèn)題、CoT和答案三者之間的信息交互進(jìn)行聯(lián)合分析,揭示了CoT不忠實(shí)的問(wèn)題。研究發(fā)現(xiàn),大型語(yǔ)言模型(LLM)在預(yù)測(cè)答案時(shí),可能會(huì)從問(wèn)題中回憶起CoT中缺失但正確的信息,從而引發(fā)忠實(shí)性偏差。為緩解這一問(wèn)題,我們提出了一種新穎的算法,通過(guò)從問(wèn)題中回調(diào)更多信息以增強(qiáng)CoT生成過(guò)程,并基于信息增益對(duì)CoT進(jìn)行評(píng)估。大量實(shí)驗(yàn)結(jié)果表明,我們的方法在提升CoT的忠實(shí)性和有效性方面均取得了顯著成效。

17566253351.png

圖1. 不同模型和數(shù)據(jù)集下的CoT性能提升

17566253431.png

圖2. 本文方法的主要流程圖


27.?RAG-RewardBench:面向偏好對(duì)齊的檢索增強(qiáng)生成獎(jiǎng)勵(lì)模型基準(zhǔn)

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

作者:金卓然,苑紅榜,門天逸,曹鵬飛,陳玉博,劉康,趙軍

錄用類型:Findings Papers

在檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)系統(tǒng)中,大模型通過(guò)結(jié)合外部檢索文檔,有效緩解其在知識(shí)時(shí)效性和長(zhǎng)尾知識(shí)覆蓋方面的不足。然而,傳統(tǒng)RAG方法多側(cè)重于提升事實(shí)準(zhǔn)確性,往往忽視了對(duì)人類偏好的對(duì)齊,從而可能生成冗長(zhǎng)、偏題甚至潛在有害的內(nèi)容。為了使RAG系統(tǒng)更加有用且無(wú)害,偏好對(duì)齊成為關(guān)鍵環(huán)節(jié),其中獎(jiǎng)勵(lì)模型作為人類價(jià)值觀的代理,承擔(dān)著評(píng)估生成結(jié)果是否滿足用戶在實(shí)用性、安全性和準(zhǔn)確性等方面偏好的核心職責(zé)。

獎(jiǎng)勵(lì)模型在偏好對(duì)齊中的重要性日益凸顯,但當(dāng)前RAG場(chǎng)景下缺乏針對(duì)性強(qiáng)、系統(tǒng)性好的評(píng)估基準(zhǔn),導(dǎo)致獎(jiǎng)勵(lì)模型的選擇與訓(xùn)練面臨較大挑戰(zhàn)。為此,我們提出RAG-RewardBench,這是首個(gè)專為RAG設(shè)計(jì)的獎(jiǎng)勵(lì)模型評(píng)估基準(zhǔn),系統(tǒng)性地支持RAG中的偏好對(duì)齊研究。該基準(zhǔn)從三個(gè)關(guān)鍵維度出發(fā):(1)精心設(shè)計(jì)四類具有挑戰(zhàn)性的RAG特有偏好場(chǎng)景,包括多跳推理、細(xì)粒度引用、恰當(dāng)拒答以及沖突魯棒性;(2)涵蓋18個(gè)真實(shí)數(shù)據(jù)集、6種主流檢索器與24個(gè)代表性RAG模型,確保任務(wù)覆蓋廣泛且評(píng)價(jià)結(jié)果具代表性;(3)引入多種強(qiáng)大的商業(yè)模型,構(gòu)建LLM-as-a-judge體系,實(shí)現(xiàn)高效且一致的偏好標(biāo)注。RAG-RewardBench不僅揭示了當(dāng)前獎(jiǎng)勵(lì)模型在RAG場(chǎng)景中的性能短板,也進(jìn)一步凸顯了RAG系統(tǒng)向偏好對(duì)齊訓(xùn)練范式轉(zhuǎn)型的迫切性與重要性。

17566253511.png

RAG-RewardBench框架圖


28.?Search-in-Context: 結(jié)合蒙特卡洛樹(shù)搜索與動(dòng)態(tài)KV檢索的高效長(zhǎng)上下文多跳問(wèn)答方法

Search-in-Context: Efficient Multi-Hop QA over Long Contexts via Monte Carlo Tree Search with Dynamic KV Retrieval

作者:陳佳倍、劉廣、何世柱、羅坤、徐遙、趙軍、劉康

錄用類型:Findings Papers

近年來(lái),大型語(yǔ)言模型(LLM)在數(shù)學(xué)問(wèn)題求解、代碼生成等復(fù)雜推理任務(wù)上展現(xiàn)了卓越的能力。然而,面向長(zhǎng)上下文的多跳問(wèn)答(MHQA)仍然是一個(gè)重大挑戰(zhàn),該任務(wù)既需要強(qiáng)大的知識(shí)密集型推理能力,也需要對(duì)長(zhǎng)文檔進(jìn)行高效處理。現(xiàn)有方法往往難以平衡這些需求:它們要么忽略了顯式的推理過(guò)程,要么因在長(zhǎng)上下文上采用全局注意力機(jī)制而產(chǎn)生高昂的計(jì)算成本。

為解決這一問(wèn)題,我們提出了一種名為 “Search-in-Context” (SIC)的新型框架。該框架將蒙特卡洛樹(shù)搜索(MCTS)與動(dòng)態(tài)鍵值(KV)檢索相結(jié)合,以實(shí)現(xiàn)迭代式的、上下文感知的推理過(guò)程。在每個(gè)推理步驟中,SIC 能動(dòng)態(tài)地檢索出關(guān)鍵的 KV 緩存對(duì),優(yōu)先關(guān)注最相關(guān)的證據(jù)片段,從而有效緩解了“中間信息丟失”(lost in the middle)問(wèn)題。此外,本文還引入了一個(gè)在自動(dòng)標(biāo)注數(shù)據(jù)上訓(xùn)練的“過(guò)程獎(jiǎng)勵(lì)模型”(PRM)。該模型通過(guò)提供分步獎(jiǎng)勵(lì)來(lái)指導(dǎo) MCTS 的搜索過(guò)程,在無(wú)需人工標(biāo)注的情況下,促進(jìn)了高質(zhì)量推理路徑的生成。

我們?cè)谌齻€(gè)長(zhǎng)上下文多跳問(wèn)答基準(zhǔn)(HotpotQA、2WikiMultihopQA、MuSiQue)以及一個(gè)反事實(shí)多跳數(shù)據(jù)集(CofCA)上進(jìn)行的實(shí)驗(yàn)證明了 SIC 框架的優(yōu)越性。它在取得當(dāng)前最佳性能的同時(shí),也顯著降低了計(jì)算開(kāi)銷。

17566257201.png

SIC框架示意圖


29.?通過(guò)自歸納和相關(guān)性重評(píng)估改進(jìn)規(guī)則的檢索和推理

Improve Rule Retrieval and Reasoning with Self-Induction and Relevance ReEstimate

作者:黃子揚(yáng)、孫望濤、趙軍、劉康

錄用類型:Findings Papers

本論文系統(tǒng)地解決了規(guī)則檢索的挑戰(zhàn),這是一個(gè)在推理任務(wù)中至關(guān)重要但未被充分探索的領(lǐng)域。研究者指出,傳統(tǒng)的檢索方法(如稀疏或密集檢索器)在直接搜索相關(guān)規(guī)則時(shí),往往準(zhǔn)確率較低。這主要是因?yàn)椴樵冎械木唧w事實(shí)與規(guī)則中包含變量和謂詞的抽象表示之間存在顯著的語(yǔ)義鴻溝,這種不匹配導(dǎo)致了次優(yōu)的檢索質(zhì)量。為了克服這些挑戰(zhàn),論文提出了兩種新方法:自歸納增強(qiáng)檢索(SIAR)和規(guī)則相關(guān)性重新評(píng)估(Rule Relevance ReEstimate,R3)。SIAR 利用大型語(yǔ)言模型的歸納能力,通過(guò)抽象查詢中的基礎(chǔ)知識(shí)和邏輯結(jié)構(gòu)來(lái)生成潛在的推理規(guī)則。這些生成的規(guī)則隨后被用于增強(qiáng)查詢,從而提高檢索效率。SIAR 的核心思想是將查詢盡可能地投影到規(guī)則語(yǔ)義空間中,使其能更好地匹配具有相似底層邏輯的規(guī)則。在此基礎(chǔ)上,作者引入了 R3方法,它通過(guò)評(píng)估檢索到的規(guī)則所包含的抽象知識(shí)是否可以被實(shí)例化以與查詢中的事實(shí)對(duì)齊,以及其對(duì)推理的幫助程度,來(lái)重新評(píng)估規(guī)則的相關(guān)性。實(shí)驗(yàn)結(jié)果顯示,與直接檢索相比,SIAR 顯著提高了檢索和推理性能。此外,結(jié)合 SIAR 的R3進(jìn)一步增強(qiáng)了性能,證明了 LLMs 可以可靠地評(píng)估查詢和規(guī)則之間的相關(guān)性,從而提升了規(guī)則檢索的質(zhì)量。

17566257391.png

規(guī)則推理的特點(diǎn)與挑戰(zhàn)


30.?通過(guò)可信引用透明化模型對(duì)內(nèi)外部知識(shí)的利用

Transparentize the Internal?and External Knowledge Utilization in LLMs with Trustworthy Citation

作者:沈佳俊,周桐,陳玉博,丘德來(lái),劉升平,劉康,趙軍

錄用類型:Findings Papers

盡管檢索增強(qiáng)生成和引用生成能在一定程度上緩解大模型的幻覺(jué)問(wèn)題,但我們發(fā)現(xiàn)模型如何利用其內(nèi)部知識(shí)依然不透明,其回答的可信度也因此存疑。

為了解決這個(gè)問(wèn)題,我們提出了“內(nèi)外知識(shí)增強(qiáng)引用生成”任務(wù)。該任務(wù)要求模型在生成引用時(shí),同時(shí)考慮外部與內(nèi)部知識(shí),并提供可靠的參考文獻(xiàn)。為此,我們?cè)O(shè)計(jì)了五項(xiàng)評(píng)估指標(biāo),從回答的幫助性、引用忠實(shí)度和可信度三個(gè)維度進(jìn)行考量。

我們引入了名為RAEL(理性歸因生成)的任務(wù)范式,并設(shè)計(jì)了INTRALIGN(可解釋、可信對(duì)齊)方法,包含一套獨(dú)特的數(shù)據(jù)生成流程和一個(gè)對(duì)齊算法。實(shí)驗(yàn)結(jié)果表明,我們的方法在跨場(chǎng)景性能上優(yōu)于其他基線。進(jìn)一步的擴(kuò)展實(shí)驗(yàn)還揭示,檢索質(zhì)量、問(wèn)題類型和模型本身的知識(shí)儲(chǔ)備對(duì)引用生成的可信度有著顯著影響。

17566259581.png

圖1. 內(nèi)外知識(shí)增強(qiáng)引用生成任務(wù)的五個(gè)指標(biāo)

17566259651.png

圖2. INTRALIGN(可解釋、可信對(duì)齊)的流程實(shí)現(xiàn)


31.?Q-Mamba: 基于訓(xùn)練后量化的高效Mamba模型

Q-Mamba: Towards more efficient Mamba models via post-training quantization

作者:陳天奇、陳遠(yuǎn)騰、王培松、許偉翔、朱澤雨、程健

錄用類型:Findings Papers

近期Mamba在語(yǔ)言理解任務(wù)中展現(xiàn)出潛力,逐漸成為 Transformer架構(gòu)的有力競(jìng)爭(zhēng)者。然而,本文研究表明,Mamba架構(gòu)在效率方面仍可通過(guò)量化方法進(jìn)行優(yōu)化,即對(duì)線性層以及狀態(tài)緩存(state caches)量化減少內(nèi)存開(kāi)銷和加速推理。通過(guò)理論分析狀態(tài)中離群值的成因,本文提出解耦尺度量化(Decoupled Scale Quantization,DSQ)方法,通過(guò)在狀態(tài)維度和通道維度分別應(yīng)用獨(dú)立的量化尺度,有效緩解了離群值問(wèn)題。為了保留量化后Mamba模型的選擇性能力,本文提出了高效選擇性重構(gòu)(Efficient Selectivity Reconstruction,ESR)方法,解決了非線性量化函數(shù)帶來(lái)的并行化問(wèn)題。本文在多種量化設(shè)置、模型規(guī)模,以及生成任務(wù)與零樣本任務(wù)中驗(yàn)證了 Q-Mamba 的有效性。具體而言,在對(duì)Mamba2-2.7B進(jìn)行了8比特量化權(quán)重和激活,及4比特量化狀態(tài)緩存的情況下,Q-Mamba降低了50%的內(nèi)存占用,同時(shí)在零樣本任務(wù)中的平均準(zhǔn)確率僅下降了2.13%。

17566259711.png

面向Mamba的訓(xùn)練后量化框架


32.?RQT:面向多模型層的層次化殘差量化方法

RQT: Hierarchical Residual Quantization for Multi-Model Compression

作者:陳天奇、王培松、許偉翔、朱澤雨、程健

錄用類型:Findings Papers

增量壓縮(Delta compression)方法旨在高效地服務(wù)于多個(gè)分別針對(duì)特定任務(wù)和用戶需求微調(diào)的模型。這類方法將一個(gè)微調(diào)后的大語(yǔ)言模型(LLM)分解為基礎(chǔ)模型與對(duì)應(yīng)的增量權(quán)重(delta weights),并通過(guò)低秩或低比特表示對(duì)增量權(quán)重進(jìn)行壓縮,以降低存儲(chǔ)成本。然而,這些方法的效果對(duì)模型增量的數(shù)值幅度高度敏感,而該幅度又直接受到訓(xùn)練數(shù)據(jù)規(guī)模的影響。為解決這一問(wèn)題,本文提出了殘差量化樹(shù)(Residual Quantization Tree,RQT),這是一種分層量化框架,能夠在多個(gè)相似的微調(diào)模型之間自動(dòng)共享低比特整數(shù)權(quán)重。RQT的構(gòu)建采用兩階段貪心算法:第一階段自底向上地根據(jù)權(quán)重矩陣的相似性聚合模型;第二階段自頂向下地進(jìn)行殘差量化,在該過(guò)程中,每個(gè)節(jié)點(diǎn)首先優(yōu)化自身的量化參數(shù),然后將殘差誤差進(jìn)一步傳遞給子節(jié)點(diǎn)進(jìn)行處理。本文在數(shù)學(xué)、代碼、對(duì)話和中文語(yǔ)言模型等多個(gè)微調(diào)模型上對(duì)RQT進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,RQT在保持平均精度損失約為3%(與現(xiàn)有4比特后訓(xùn)練量化方法相當(dāng))的同時(shí),可將位寬降至約2比特。


17566259831.png

所提殘差量化樹(shù)方法(RQT)示意圖


33.?語(yǔ)言分組后再擴(kuò)增:動(dòng)態(tài)多語(yǔ)言專家模型

Group then Scale: Dynamic Mixture-of-Experts Multilingual Language Model

作者:李翀、鄧穎卓、張家俊、宗成慶

錄用類型:Findings Papers

在多語(yǔ)言領(lǐng)域,模型如果同時(shí)學(xué)習(xí)很多語(yǔ)言,其平均的多語(yǔ)言能力會(huì)下降,即出現(xiàn)了“多語(yǔ)言詛咒現(xiàn)象”。研究發(fā)現(xiàn)該現(xiàn)象出現(xiàn)的原因來(lái)自兩個(gè)方面:一是模型的參數(shù)量不夠,另一個(gè)是不相似語(yǔ)言之間存在較強(qiáng)的競(jìng)爭(zhēng)關(guān)系。

為解決該問(wèn)題,我們提出一種動(dòng)態(tài)多語(yǔ)言專家模型結(jié)構(gòu),將語(yǔ)言分化引入混合專家結(jié)構(gòu)中,在擴(kuò)大參數(shù)量的同時(shí),減少語(yǔ)言之間的競(jìng)爭(zhēng)。我們首先采用單語(yǔ)語(yǔ)料來(lái)微調(diào)模型,獲得逐層參數(shù)偏差。偏差量大的層需要更多的參數(shù)來(lái)緩解并存儲(chǔ)語(yǔ)言特定的知識(shí),被擴(kuò)展為混合專家層。但其他層則被所有語(yǔ)言共享?;趨?shù)的變化量,語(yǔ)言之間的相似度也可以量化,并將相似的語(yǔ)言歸為同一組去微調(diào)一個(gè)專家模塊。

研究團(tuán)隊(duì)在128種語(yǔ)言的設(shè)置下進(jìn)行的分析,圖2展示了我們方法(DMoE)和其他方法在語(yǔ)言建模任務(wù)上的效果??梢园l(fā)現(xiàn)DMoE顯著減輕了“多語(yǔ)言詛咒”現(xiàn)象,并且優(yōu)于基線方法平均1.1困惑度。這些提升主要來(lái)自于模型之前不涉及的語(yǔ)言和低資源語(yǔ)言,例如斯瓦希里語(yǔ)(sw)和維吾爾語(yǔ)(ug)。

17566259961.png

圖1. 動(dòng)態(tài)多語(yǔ)言專家模型的訓(xùn)練框架

17566261961.png

圖2. 不同方法在128種語(yǔ)言上的語(yǔ)言建模結(jié)果


34.?通過(guò)邏輯依據(jù)蒸餾在不損失通用能力的情況下提升 LLM 翻譯技能

Boosting LLM Translation Skills without General Ability Loss via Rationale Distillation

作者:武俊宏、趙陽(yáng)、徐楊一帆、劉兵、宗成慶

錄用類型:Findings Papers

大型語(yǔ)言模型(LLMs)在眾多自然語(yǔ)言處理任務(wù)中表現(xiàn)出色,并且通過(guò)微調(diào)提升了其在機(jī)器翻譯(MT)中的表現(xiàn)。然而,傳統(tǒng)的微調(diào)方法常導(dǎo)致嚴(yán)重的遺忘現(xiàn)象,削弱了LLMs的廣泛一般能力,并帶來(lái)了潛在的安全風(fēng)險(xiǎn)。這些能力是通過(guò)專有且不可獲取的訓(xùn)練數(shù)據(jù)開(kāi)發(fā)而來(lái)的,使得簡(jiǎn)單的數(shù)據(jù)重放方法無(wú)效。為解決這一問(wèn)題,我們提出了一種新方法,稱為邏輯依據(jù)蒸餾。邏輯依據(jù)蒸餾利用LLMs強(qiáng)大的生成能力,為訓(xùn)練數(shù)據(jù)生成解釋,然后通過(guò)“重放”這些邏輯依據(jù)來(lái)防止遺忘。這些邏輯依據(jù)將模型的內(nèi)在知識(shí)與待學(xué)習(xí)的新任務(wù)相連接,作為自我蒸餾的目標(biāo)來(lái)調(diào)節(jié)訓(xùn)練過(guò)程。通過(guò)對(duì)參考譯文和自生成的邏輯依據(jù)進(jìn)行聯(lián)合訓(xùn)練,模型能夠在學(xué)習(xí)新翻譯技能的同時(shí),保留在其他任務(wù)中的一般能力。這一方法提供了持續(xù)學(xué)習(xí)領(lǐng)域中使用邏輯依據(jù)的一種新視角,并有潛力成為一種通用持續(xù)學(xué)習(xí)方法在更廣泛的任務(wù)上取得效果。

17566262021.png

圖1.依據(jù)蒸餾方法的示意圖。該方法首先使用語(yǔ)言模型為訓(xùn)練數(shù)據(jù)生成邏輯依據(jù)(左),隨后用邏輯依據(jù)和訓(xùn)練數(shù)據(jù)一同微調(diào)模型,克服災(zāi)難性遺忘。

17566262081.png

圖2. 依據(jù)蒸餾方法的效果示意圖,該方法在大幅提升翻譯性能(COMET)的同時(shí),保持了模型在通用任務(wù)(MT-bench)上的性能。


36.?隱式跨語(yǔ)言獎(jiǎng)勵(lì)機(jī)制驅(qū)動(dòng)的多語(yǔ)言偏好對(duì)齊

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment

作者:楊文、武俊宏、王晨、宗成慶、張家俊

錄用類型:Findings Papers

近年來(lái),隨著大語(yǔ)言模型(LLMs)的快速發(fā)展,如何有效提升多語(yǔ)言模型在全球范圍內(nèi)的可用性成為研究熱點(diǎn)。其中,偏好對(duì)齊 (Preference Alignment)作為關(guān)鍵環(huán)節(jié),旨在通過(guò)調(diào)整模型輸出內(nèi)容的概率分布,使其更貼合人類的價(jià)值觀和行為偏好,從而提升交互體驗(yàn)與安全性。然而,當(dāng)前大多數(shù)偏好對(duì)齊研究集中于英語(yǔ)環(huán)境,多語(yǔ)言場(chǎng)景下的偏好對(duì)齊仍面臨諸多挑戰(zhàn)。一方面,非英語(yǔ)語(yǔ)種的高質(zhì)量偏好數(shù)據(jù)稀缺;另一方面,基于傳統(tǒng)翻譯方法構(gòu)建偏好數(shù)據(jù)可能引入語(yǔ)義偏差,影響對(duì)齊效果。

針對(duì)這一問(wèn)題,本工作嘗試?yán)靡延械挠⒄Z(yǔ)對(duì)齊模型,通過(guò)隱式獎(jiǎng)勵(lì)機(jī)制捕捉模型內(nèi)部豐富的偏好知識(shí),并通過(guò)迭代訓(xùn)練的方式將偏好知識(shí)遷移至其他語(yǔ)言,從而減少對(duì)外部多語(yǔ)言數(shù)據(jù)的依賴。本工作的核心在于提出了一種無(wú)需翻譯、直接利用英語(yǔ)對(duì)齊模型生成多語(yǔ)言偏好標(biāo)簽的方法——隱式跨語(yǔ)言獎(jiǎng)勵(lì)機(jī)制,從而高效地實(shí)現(xiàn)多語(yǔ)言偏好對(duì)齊。

17566262141.png

圖1. 隱式跨語(yǔ)言獎(jiǎng)勵(lì)方法流程概覽

表1. 在英語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、德語(yǔ)、法語(yǔ),本方法在X-ApacaEval基準(zhǔn)上的結(jié)果以及其他方法、SoTA模型的結(jié)果

17566262201.png


37.?通過(guò)同步自我回顧OCR提升多模態(tài)大模型的文檔圖像翻譯能力

Improving MLLM’s Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency

作者:梁雨普、張亞萍、張志揚(yáng)、陳致遠(yuǎn)、趙陽(yáng)、向露、宗成慶、周玉

錄用類型:Findings Papers

多模態(tài)大模型(MLLM)在文檔圖像任務(wù)中表現(xiàn)出色,特別是在光學(xué)字符識(shí)別(OCR)方面。然而,它們?cè)谖臋n圖像翻譯(DIMT)任務(wù)中表現(xiàn)不佳,因?yàn)樵撊蝿?wù)同時(shí)涉及跨模態(tài)和跨語(yǔ)言的挑戰(zhàn)。此前通過(guò)在DIMT數(shù)據(jù)集上進(jìn)行有監(jiān)督微調(diào)(SFT)以增強(qiáng)DIMT能力的嘗試,往往會(huì)導(dǎo)致模型原有的單語(yǔ)能力遺忘。為應(yīng)對(duì)這些挑戰(zhàn),我們提出了一種新的微調(diào)范式,稱為“同步自我回顧(Synchronously Self-Reviewing,SSR)”,靈感來(lái)源于“雙語(yǔ)認(rèn)知優(yōu)勢(shì)”這一概念。具體而言,SSR會(huì)在生成翻譯文本之前引導(dǎo)模型先生成OCR文本,從而使模型在學(xué)習(xí)跨語(yǔ)言翻譯的同時(shí),能夠利用其強(qiáng)大的單語(yǔ)OCR能力。實(shí)驗(yàn)表明,所提出的SSR學(xué)習(xí)范式有助于緩解災(zāi)難性遺忘,提升MLLM在OCR和DIMT任務(wù)上的泛化能力。

17566262271.png


38.?基于查詢響應(yīng)與相關(guān)區(qū)域聚焦的全頁(yè)面復(fù)雜版面文檔圖像翻譯方法

A Query-Response Framework for Whole-Page Complex-Layout Document Image Translation with Relevant Regional Concentration

作者:張志揚(yáng)、張亞萍、梁雨普、陳致遠(yuǎn)、向露、趙陽(yáng)、周玉、宗成慶

錄用類型:Findings Papers

文檔圖像翻譯(DIT)旨在將圖像中的文檔從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言,在文檔智能領(lǐng)域發(fā)揮重要作用。然而,現(xiàn)有方法通常依賴于傳統(tǒng)的編碼器-解碼器范式,在翻譯復(fù)雜版面文檔時(shí)嚴(yán)重缺乏對(duì)關(guān)鍵區(qū)域的專注力。

本研究提出了一種新穎的查詢響應(yīng)文檔圖像翻譯框架(QRDIT),將DIT任務(wù)重新定義為多查詢的并行響應(yīng)/翻譯過(guò)程。該框架明確地將注意力集中在最相關(guān)的文本區(qū)域上,以確保翻譯準(zhǔn)確性。QRDIT包含兩個(gè)主要階段:查詢階段和響應(yīng)階段。在查詢階段,系統(tǒng)首先提取文檔的多模態(tài)特征,然后通過(guò)序列標(biāo)注識(shí)別每個(gè)查詢的前綴詞,并利用類似DETR的交叉注意力機(jī)制形成查詢嵌入。通過(guò)計(jì)算詞級(jí)相關(guān)性分?jǐn)?shù),自適應(yīng)地聚集最相關(guān)的文本區(qū)域。在響應(yīng)階段,采用動(dòng)態(tài)門控聚合機(jī)制增強(qiáng)查詢特征中的文本語(yǔ)義,然后利用翻譯解碼器為每個(gè)查詢并行生成翻譯結(jié)果。

實(shí)驗(yàn)結(jié)果表明,在三個(gè)基準(zhǔn)數(shù)據(jù)集的四個(gè)翻譯方向上,QRDIT均取得了最先進(jìn)的性能,在處理全頁(yè)面復(fù)雜版面文檔圖像翻譯任務(wù)時(shí)顯示出顯著的翻譯質(zhì)量提升。

17566262341.png

QRDIT框架總覽圖:展示了查詢階段和響應(yīng)階段的完整工作流程。


39.?不確定性揭示:接觸更多上下文示例能否減輕大型語(yǔ)言模型的不確定性?

Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?

作者:王亦菲、盛玉、李林靜、曾大軍

錄用類型:Findings Papers

最近在處理長(zhǎng)序列方面的進(jìn)展促進(jìn)了長(zhǎng)上下文中的上下文學(xué)習(xí)(Many-shot ICL)的探索。雖然現(xiàn)有的許多研究強(qiáng)調(diào)了額外上下文示例驅(qū)動(dòng)的性能提升,但其對(duì)生成響應(yīng)的可信度的影響仍然未被充分探討。本文通過(guò)研究增加樣本對(duì)預(yù)測(cè)不確定性(這是可信度的一個(gè)重要方面)的影響,填補(bǔ)了這一空白。我們首先系統(tǒng)性地量化了不同樣本數(shù)量的 ICL 不確定性,分析示例數(shù)量的影響。通過(guò)不確定性分解,我們引入了一種關(guān)于性能提升的新視角,重點(diǎn)關(guān)注認(rèn)識(shí)不確定性(EU)。我們的結(jié)果顯示,額外示例通過(guò)注入任務(wù)特定知識(shí)來(lái)降低簡(jiǎn)單和復(fù)雜任務(wù)中的總體不確定性,從而減少了 EU 并提升了性能。對(duì)于復(fù)雜任務(wù),這些優(yōu)勢(shì)僅在解決與較長(zhǎng)輸入相關(guān)的增加噪聲和不確定性之后才會(huì)顯現(xiàn)。最后,我們探討了跨層的內(nèi)部信心的演變,揭示了驅(qū)動(dòng)不確定性降低的機(jī)制。

17566262411.png

簡(jiǎn)單模式(左)和困難模式(右)的不確定性分解結(jié)果


40.?聆聽(tīng)、觀察、學(xué)習(xí)感知:基于檢索增強(qiáng)的情感推理實(shí)現(xiàn)復(fù)合情感生成

Listen,Watch,and Learn to Feel: Retrieval- Augmented Emotion Reasoning for Compound Emotion Generation

作者:溫卓凡、連政、陳順、姚海亮、楊龍江、劉斌、陶建華

錄用類型:Findings Papers

使用多模態(tài)大語(yǔ)言模型(MLLMs)理解人類情感的能力,對(duì)于推動(dòng)人機(jī)交互和多模態(tài)情感分析的發(fā)展至關(guān)重要。盡管基于心理學(xué)理論的人類標(biāo)注為多模態(tài)情感任務(wù)提供了支撐,但情感感知的主觀性常常導(dǎo)致標(biāo)注不一致,限制了當(dāng)前模型的魯棒性。為應(yīng)對(duì)這些挑戰(zhàn),需要更精細(xì)的方法與評(píng)估框架。

本文提出了檢索增強(qiáng)情感推理(Retrieval-Augmented Emotion Reasoning,RAER)框架,這是一個(gè)可插拔模塊,用于增強(qiáng)多模態(tài)大模型處理復(fù)合型與上下文豐富情感任務(wù)的能力。為系統(tǒng)性評(píng)估模型表現(xiàn),進(jìn)一步設(shè)計(jì)了刺激老虎機(jī)(Stimulus-Armed Bandit,SAB)框架,用于衡量模型的情感推理能力。同時(shí),構(gòu)建了復(fù)合情感問(wèn)答(Compound Emotion QA)數(shù)據(jù)集,這是一個(gè)由 AI 生成的多模態(tài)數(shù)據(jù)集,旨在強(qiáng)化 MLLMs 對(duì)情感的理解。實(shí)驗(yàn)結(jié)果表明,RAER 在傳統(tǒng)基準(zhǔn)測(cè)試與 SAB 評(píng)估中均表現(xiàn)出色,展示了其在提升多模態(tài) AI 系統(tǒng)情感智能方面的潛力。

17566262471.png

圖1. RAER框架

17566262531.png

圖2. SAB實(shí)驗(yàn)結(jié)果


41.?Know-MRI:面向大模型知識(shí)機(jī)理的綜合性解釋工具

Know-MRI: A?Knowledge Mechanisms Revealer&Interpreter?for Large Language Models

作者:劉佳翔,邢博軒,袁晨皓,張陳祥,吳迪,黃修勝,于海達(dá),郎楚涵,曹鵬飛,趙軍,劉康

錄用類型:System Demonstrations Papers

隨著大型語(yǔ)言模型(LLMs)的不斷發(fā)展,提升其內(nèi)部知識(shí)機(jī)制的可解釋性變得愈發(fā)緊迫。因此,許多解釋方法應(yīng)運(yùn)而生,試圖從不同角度揭示LLMs的知識(shí)機(jī)制。然而,當(dāng)前的解釋方法在輸入數(shù)據(jù)格式和輸出結(jié)果形式上存在差異,整合這些方法的工具通常只能支持特定輸入的任務(wù),極大地限制了其實(shí)用性。

為了解決這些問(wèn)題,我們提出了一個(gè)開(kāi)源工具——Knowledge Mechanisms Revealer & Interpreter(Know-MRI),旨在系統(tǒng)性地分析LLMs的知識(shí)機(jī)制。具體來(lái)說(shuō),我們開(kāi)發(fā)了一個(gè)可擴(kuò)展的核心模塊,能夠自動(dòng)匹配不同的輸入數(shù)據(jù)與解釋方法,并整合解釋輸出。該工具使用戶能夠根據(jù)輸入自由選擇合適的解釋方法,從而更方便地從多個(gè)角度對(duì)模型的內(nèi)部知識(shí)機(jī)制進(jìn)行全面診斷。

17566262591.png

圖1. Know-MRI框架圖

17566262651.png

圖2. Know-MRI交互界面


42.?CiteLab—基于人機(jī)交互的引用生成工作流開(kāi)發(fā)與診斷

CiteLab: Developing and Diagnosing LLM Citation Generation Workflows

作者:沈佳俊,周桐,陳玉博,劉康,趙軍

錄用類型:System Demonstrations Papers

我們注意到,目前利用大語(yǔ)言模型在問(wèn)答任務(wù)中生成引用的方法,因缺乏統(tǒng)一框架來(lái)標(biāo)準(zhǔn)化和公平比較,導(dǎo)致了復(fù)現(xiàn)和創(chuàng)新上的困難。

為解決這一問(wèn)題,我們推出了一個(gè)名為Citeflow的開(kāi)源模塊化框架。它旨在促進(jìn)引用生成方法的復(fù)現(xiàn)和新設(shè)計(jì)的實(shí)現(xiàn)。Citeflow具有高度的可擴(kuò)展性,用戶可以通過(guò)其四大模塊和十四個(gè)組件來(lái)構(gòu)建、評(píng)估引用生成流程,并更好地理解LLM生成的歸因內(nèi)容。

同時(shí),我們還開(kāi)發(fā)了一個(gè)可視化的界面Citefix,與Citeflow緊密配合。它能幫助用戶輕松地進(jìn)行案例研究,并對(duì)現(xiàn)有方法進(jìn)行修改。通過(guò)這個(gè)界面,用戶可以根據(jù)不同場(chǎng)景開(kāi)展由人機(jī)交互驅(qū)動(dòng)的案例研究。Citeflow和Citefix共同整合在我們的工具包CiteLab中,我們通過(guò)一個(gè)真實(shí)的人機(jī)交互多輪改進(jìn)過(guò)程,展示了該工具包在實(shí)現(xiàn)和修改引用生成流程方面的顯著效率。

17566262801.png

圖1. Citelab的模塊化設(shè)計(jì)(左)和部分工作流實(shí)現(xiàn)(右)

17566262871.png

圖2. Citelab的可視化交互界面


來(lái)源:中國(guó)科學(xué)院自動(dòng)化研究所


熱點(diǎn)新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 精品在线99| 中国一级簧色| 国产亚洲一区二区手机在线观看| www.麻豆.com| 欧美日韩免费一区二区在线观看| free 性欧美69hd| 欧美成人高清免费大片观看| 久久青青国产| 亚洲精品福利一区二区三区| 一级做a级爰片性色毛片视频| 午夜黄色大片| 成人在线网站| 美国特级成人毛片| 国产v精品成人免费视频400条| 免费妞干网| 91频视| 日韩一级一片| 欧美三j片| 新婚无套啪啪对白| 国产精品久久久久亚洲| 美日韩黄色大片| 天天色图片| 三级毛片视频| 日韩专区一区| 米奇影视7777亚洲| 欧美激情在线精品三区| 国产美女小视频| 99久久精品免费观看区一| 青春草国产成人精品久久| www.亚洲国产| 久久99精品国产99久久6男男| 色综合久久久久久久| 欧美黑人双插| 国产一区在线免费观看| 最新国产网站| 久久99热只有视精品6国产| 欧美午夜激情影院| 日韩欧美国产精品第一页不卡| 99视频在线精品| 一级黄色性片| 一级视频免费观看|