久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

ABB
關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
橫河電機(jī)25年9月
工業(yè)智能邊緣計(jì)算2025年會(huì)
2025工業(yè)安全大會(huì)
CAIAC 2025
OICT公益講堂
當(dāng)前位置:首頁 >> 資訊 >> 行業(yè)資訊

資訊頻道

MM-RLHF:多模態(tài)大語言模型對齊新范式
  • 點(diǎn)擊數(shù):1088     發(fā)布時(shí)間:2025-02-28 13:45:52
  • 分享到:
當(dāng)前,多模態(tài)大語言模型(MLLMs)在處理涉及視覺、語言和音頻的復(fù)雜任務(wù)中取得了顯著進(jìn)展,但現(xiàn)有的先進(jìn)模型仍然缺乏與人類意圖偏好的充分對齊,即無法高質(zhì)量地按照人類偏好習(xí)慣理解并完成指令任務(wù)。現(xiàn)有的對齊研究多集中于某些特定領(lǐng)域(例如減少幻覺問題),而是否通過與人類偏好對齊可以全面提升多模態(tài)大語言模型的各種能力仍是一個(gè)未知數(shù)。
關(guān)鍵詞:

當(dāng)前,多模態(tài)大語言模型(MLLMs)在處理涉及視覺、語言和音頻的復(fù)雜任務(wù)中取得了顯著進(jìn)展,但現(xiàn)有的先進(jìn)模型仍然缺乏與人類意圖偏好的充分對齊,即無法高質(zhì)量地按照人類偏好習(xí)慣理解并完成指令任務(wù)。現(xiàn)有的對齊研究多集中于某些特定領(lǐng)域(例如減少幻覺問題),而是否通過與人類偏好對齊可以全面提升多模態(tài)大語言模型的各種能力仍是一個(gè)未知數(shù)。

為探究這一問題,中國科學(xué)院自動(dòng)化研究所聯(lián)合快手、南京大學(xué)建立了MM-RLHF——一個(gè)包含12萬對精細(xì)標(biāo)注的人類偏好比較數(shù)據(jù)集,并基于此數(shù)據(jù)集進(jìn)行多項(xiàng)創(chuàng)新,從數(shù)據(jù)集,獎(jiǎng)勵(lì)模型以及訓(xùn)練算法三個(gè)層面入手推動(dòng)多模態(tài)大語言模型對齊的發(fā)展,全面提升多模態(tài)大語言模型在視覺感知、推理、對話和可信度等多個(gè)維度的能力。

MM-RLHF數(shù)據(jù)集包含三個(gè)維度的打分、排序、文本描述的具體原因以及平局等標(biāo)注。所有標(biāo)注均由人類專家完成。與現(xiàn)有資源相比,該數(shù)據(jù)集在規(guī)模、多樣性、標(biāo)注精細(xì)度和質(zhì)量方面均有顯著提升。以此為基礎(chǔ),本研究提出了一種基于批判的獎(jiǎng)勵(lì)模型(Critique-Based Reward Model),該模型在評分之前先對模型輸出進(jìn)行批判分析,相比傳統(tǒng)的標(biāo)量獎(jiǎng)勵(lì)機(jī)制,提供了更具可解釋性、信息量更豐富的反饋。此外,團(tuán)隊(duì)提出動(dòng)態(tài)獎(jiǎng)勵(lì)縮放(Dynamic Reward Scaling)方法,根據(jù)獎(jiǎng)勵(lì)信號調(diào)整每個(gè)樣本的損失權(quán)重,從而優(yōu)化高質(zhì)量比較數(shù)據(jù)在訓(xùn)練中的使用,進(jìn)一步提高了數(shù)據(jù)的使用效率。

MM-RLHF數(shù)據(jù)集

研究團(tuán)隊(duì)在10個(gè)評估維度,27個(gè)基準(zhǔn)測試上對提出的方案進(jìn)行了嚴(yán)格評估。結(jié)果表明,模型性能得到了顯著且持續(xù)的提升。比較突出的是,基于提出的數(shù)據(jù)集和對齊算法對LLaVA-ov-7B模型進(jìn)行微調(diào)后,其對話能力平均提升19.5%,安全性平均提升60%。

全面評估結(jié)果

本研究充分展示了高質(zhì)量、細(xì)粒度數(shù)據(jù)集MM-RLHF在推動(dòng)多模態(tài)大語言模型對齊工作上的巨大潛力。下一步,研究團(tuán)隊(duì)將將重點(diǎn)利用數(shù)據(jù)集豐富的注釋粒度與先進(jìn)的優(yōu)化技術(shù),結(jié)合高分辨率數(shù)據(jù)來解決特定基準(zhǔn)的局限性,并使用半自動(dòng)化策略高效地?cái)U(kuò)展數(shù)據(jù)集。這些努力不僅將推動(dòng)多模態(tài)大語言模型對齊到新的高度,還將為更廣泛、更具普適性的多模態(tài)學(xué)習(xí)框架奠定基礎(chǔ)。

MM-RLHF數(shù)據(jù)集、訓(xùn)練算法、模型以及評估pipeline均已全面開源。

項(xiàng)目主頁:https://mm-rlhf.github.io


來源:中國科學(xué)院自動(dòng)化研究所


熱點(diǎn)新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 国产日韩在线看| 欧美三级在线播放| 91最新在线视频| 欧美日韩国产58香蕉在线视频| 91香蕉小视频| 久久久久无码国产精品一区| 亚洲精品区一区二区三区四 | 黄色资源在线| 好爽~好硬~好紧~蜜芽| 色老头xxxxbbbb视频| 一本色道久久综合狠狠躁篇| 免费观看的黄色| 婷婷中文字幕| 国产高清亚洲| 精品国产第一国产综合精品gif| eeuss影院www在线观看免费| 日韩一二区| 亚洲免费一级视频| 成人欧美精品大91在线| 欧美一级色片| 欧美韩日国产| 国产在线视频一区| 嘿嘿嘿视频在线观看| 日韩2区| 亚洲国语在线视频手机在线| 69香蕉视频| 99在线视频精品| 又爽又黄又无遮挡的视频美女软件| 日韩一区二区三区在线| 孕妇三片高清在线观看| 亚洲精品色一区色二区色三区| 免费a一毛片| 免费黄色片网站| 国产精品人成人免费国产| 黄色一级片子| 黄网站在线免费| 黄色影视大全| 黄色成人免费观看| 黄色片网站视频| 黄色午夜| 狠狠色丁香婷婷综合|