Copyright 2012-2025 家電庫 版權(quán)所有 京ICP備20132067號-1
北京智在無界科技有限公司(以下簡稱「智在無界」,英文為BeingBeyond)近日完成數(shù)千萬元融資,聯(lián)想之星領(lǐng)投,智譜Z基金、燕緣創(chuàng)投、彬復(fù)資本跟投,勢能資本擔任獨家財務(wù)顧問。資金將用于加大核心技術(shù)研發(fā)投入,加速現(xiàn)有模型迭代與產(chǎn)業(yè)化驗證,以持續(xù)提升技術(shù)壁壘與產(chǎn)品競爭力。
「智在無界」成立于2025年1月,專注人形機器人通用大模型的研發(fā)與應(yīng)用。創(chuàng)始人盧宗青是北京大學(xué)計算機學(xué)院長聘副教授,曾任智源研究院多模態(tài)交互研究中心負責人,負責過首個國家自然科學(xué)基金委原創(chuàng)探索計劃通用智能體項目;多位核心成員均來自智源研究院,在強化學(xué)習、計算機視覺、機器人控制和多模態(tài)等領(lǐng)域有豐富的技術(shù)研發(fā)積累和應(yīng)用落地經(jīng)驗。
當前,數(shù)據(jù)規(guī)模與泛化能力是制約具身大腦性能提升的核心矛盾。一方面,具身智能機器人要實現(xiàn)高度擬人化的行動與決策能力,依賴海量且多樣化的數(shù)據(jù)進行深度訓(xùn)練。這些數(shù)據(jù)覆蓋了日常瑣碎操作、復(fù)雜環(huán)境交互等各類場景,數(shù)據(jù)規(guī)模呈指數(shù)級攀升態(tài)勢。然而,數(shù)據(jù)采集過程仍面臨技術(shù)、資源等多重門檻,依賴大量人力且難度大,存儲成本更是隨著數(shù)據(jù)量激增而迅速攀升。
另一方面,即便有海量的數(shù)據(jù)支持,機器人在未知環(huán)境中要靈活應(yīng)對新任務(wù)、新物體與新干擾,仍依賴于強大的泛化能力。然而,現(xiàn)有模型面對存在顯著差異的場景時,表現(xiàn)差強人意,難以將所學(xué)知識有效遷移至新情境,實際應(yīng)用中適應(yīng)性欠佳。
因此,如何在有限數(shù)據(jù)規(guī)模下提升泛化能力,成為具身大腦突破性能瓶頸、邁向?qū)嵱没年P(guān)鍵挑戰(zhàn)。
「智在無界」所使用的預(yù)訓(xùn)練數(shù)據(jù)(圖源/企業(yè))
面向人形機器人的操作和運動兩大核心能力,「智在無界」將其通用大模型系統(tǒng)分為具身多模態(tài)大語言模型、多模態(tài)姿態(tài)大模型和運動模型三層,并搭建了自學(xué)習具身智能體框架。
盧宗青告訴硬氪,區(qū)別于其他模型,「智在無界」的預(yù)訓(xùn)練數(shù)據(jù)來自互聯(lián)網(wǎng)端的人類運動和手部操作視頻,通過解析這些自然場景下的動作序列,構(gòu)建機器人運動操作能力的預(yù)訓(xùn)練基礎(chǔ)。這種以公開視頻數(shù)據(jù)為驅(qū)動的技術(shù)路線,突破了傳統(tǒng)方案對機器人真機數(shù)據(jù)的強依賴,可實現(xiàn)從 “人類行為示范” 到 “機器人動作生成” 的跨模態(tài)遷移。
具體而言,「智在無界」提出了多模態(tài)姿態(tài)模型,通過互聯(lián)網(wǎng)上豐富的視頻資源,包括如行走、舞蹈等人體全身運動,抓取物體、工具使用等第一人稱視角的手部精細操作數(shù)據(jù),能夠為模型提供豐富且多元的動作樣本。通過這些視頻-動作數(shù)據(jù),模型可學(xué)習到各種動作在不同環(huán)境下的表現(xiàn)形式,能依據(jù)實時的環(huán)境信息與任務(wù)要求,實現(xiàn)具有泛化性的端到端運動操作。
在具身多模態(tài)大語言模型方面,「智在無界」自主研發(fā)了Video Tokenizer技術(shù),其強調(diào)時空環(huán)境的理解與推理能力,尤其是針對第一人稱視角視頻內(nèi)容的解析。通過將連續(xù)視頻流解構(gòu)為兼具時間序列與空間語義的視覺token單元,使得該模型能精準捕捉動作的時序邏輯,比如伸手、抬升手臂到抓起物體的連貫過程,并基于物體方位、肢體相對位置等空間特征理解物理世界和人類行為。
目前,雖然簡單的多模態(tài)大語言模型+運動操作策略已具備商業(yè)落地條件,但受真實場景中的動態(tài)環(huán)境變化影響,機器人的泛化能力難以適應(yīng),如何讓人形機器人具備自主學(xué)習能力,成為其實現(xiàn)商業(yè)化落地的關(guān)鍵突破點。
為此,「智在無界」提出Retriever-Actor-Critic框架,通過對真實交互數(shù)據(jù)的RAG(檢索增強生成)與強化學(xué)習,二者的協(xié)同應(yīng)用,不僅能提升模型的響應(yīng)準確性與用戶體驗,形成 “數(shù)據(jù)收集-模型優(yōu)化-效果反饋” 的閉環(huán),使機器人具備了動態(tài)適應(yīng)多變場景的能力,為其規(guī)?;涞靥峁┝丝尚械募夹g(shù)路徑。