機(jī)器之心編輯部
在 AI 領(lǐng)域,大家通常采取后訓(xùn)練方式來(lái)讓模型獲取專項(xiàng)技能。然而后訓(xùn)練一般依賴帶有標(biāo)注參考的監(jiān)督微調(diào),或通過(guò)可驗(yàn)證的程序化檢查器提供獎(jiǎng)勵(lì)。
這就帶來(lái)一些問(wèn)題,目前許多有價(jià)值的任務(wù)可能同時(shí)缺乏這兩種資源。例如在不可驗(yàn)證的場(chǎng)景中(臨床、自由對(duì)話和創(chuàng)意寫(xiě)作),可能存在多個(gè)有效答案,確定性規(guī)則檢查難以實(shí)施。
在這種情況下,實(shí)踐者往往只能依賴(i)繁瑣的標(biāo)注流程,或(ii)通過(guò)另一個(gè) LLM 對(duì)自由形式輸出進(jìn)行粗略獎(jiǎng)勵(lì)。
然而,當(dāng)后訓(xùn)練缺乏真實(shí)標(biāo)注時(shí),學(xué)習(xí)信號(hào)從何而來(lái)?
為了回答這一問(wèn)題,來(lái)自牛津大學(xué)、Meta 超級(jí)智能實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出設(shè)想:
推理計(jì)算是否可以替代缺失的監(jiān)督?
本文認(rèn)為答案是肯定的,他們提出了一種名為CaT(Compute as Teacher)的方法,核心思想是把推理時(shí)的額外計(jì)算當(dāng)作教師信號(hào),在缺乏人工標(biāo)注或可驗(yàn)證答案時(shí),也能為大模型提供監(jiān)督信號(hào)。
結(jié)果顯示,推理時(shí)直接應(yīng)用 CaT顯著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可驗(yàn)證領(lǐng)域(MATH-500 最高提升 27%;HealthBench 提升 12%)。結(jié)合強(qiáng)化學(xué)習(xí)的CaT(CaT-RL)可進(jìn)一步獲得增益(最高提升 33% 和 30%),訓(xùn)練后的策略甚至能超越初始教師信號(hào)。
