Copyright 2012-2025 家電庫 版權所有 京ICP備20132067號-1
多模態(tài)大模型表現(xiàn)越來越驚艷,但人們也時常困于它的“耿直”。
無論是生成代碼、分析圖表還是回答問題,諸多多模態(tài)大模型(MLLM)都傾向于給出一個“一步到位”的答案。它們就像一個從不檢查作業(yè)的“學霸”,雖然知識淵博,但一旦在復雜的、需要反復試錯的問題上走錯一步,就很難回頭。這種能力的缺失,正是阻礙AI從“知識容器”邁向“問題解決大師”的關鍵瓶頸。
現(xiàn)在,來自上海交通大學和上海人工智能實驗室的研究團隊,帶來了新的解決方案——MM-HELIX。
MM-HELIX不僅是一個項目,更是一個完整的生態(tài)體系,旨在賦予AI一種最接近人類智慧的能力:長鏈反思性推理(long-chain reflective reasoning)。
多種多模態(tài)反思任務
第一擊:一把“終極標尺”——MM-HELIX基準測試
我們無法提升我們無法衡量的東西。為了精準評估AI的反思推理能力,團隊首先構建了一個前所未有的“終極考場”——MM-HELIX Benchmark。
它不再是簡單的看圖說話或數(shù)學計算,而是包含了42種橫跨算法、圖論、謎題和策略游戲的超高難度任務,例如:
- 邏輯的迷宮:在“掃雷”中根據(jù)數(shù)字線索進行縝密推理與回溯。
- 策略的博弈:在“推箱子”中規(guī)劃長遠,避免一步走錯,滿盤皆輸。
- 算法的具象:尋找圖中的“哈密頓路徑”,需要在腦海中進行多次路徑規(guī)劃與剪枝。
團隊搭建了42個任務的Sandbox,包含Generator,Solver,Validator等多個關鍵部件,并根據(jù)題目復雜度區(qū)分了五層難度,并最終收集了1260道題目,對當前的多模態(tài)大模型進行了細粒度的評估,評估結果如下:
