0
近日,智象未來(HiDream.ai)與諾亦騰機器人(Noitom Robotics)宣布正式達成戰略合作,雙方將在高質量、規模化具身智能視頻數據的生成上展開深度合作,從而開啟拓寬具身智能行業數據入口的全新模式探索。
高可用的訓練數據是目前發展迅猛的具身智能產業的瓶頸。不同于大語言模型可海量獲取文本數據,具身智能需整合視覺、運動、觸覺等多模態數據,傳統采集成本高效率低,合成數據因此成為關鍵。隨著產業爆發,訓練數據正從小體量演示轉向大體量、可規模化交付的需求,數據的獲取、結構化與工程化能力,正決定系統上限。
基于這一判斷,智象未來攜手諾亦騰機器人,將多模態大模型的毫米級可控視頻生成能力與真實數據基礎設施結合,以“真實數據+生成式視頻數據”融合,預計雙方年內合作生成的具身智能視頻數據將達到數萬小時以上,這將開辟出可規模化供應行業亟需的高質量具身訓練數據的全新路徑。
儀式現場,諾亦騰機器人創始人兼首席執行官戴若犁、智象未來創始人兼首席執行官梅濤等共同出席,見證了這一重要時刻。
諾亦騰機器人是一家面向具身智能與人形機器人產業的數據公司。公司以“數據”為核心交付界面,基于高精度人體動作捕捉與多模態數據采集能力,為機器人企業、具身智能模型團隊等提供高質量、可規模化的訓練數據與相關基礎設施能力。隨著具身智能產業加速發展,高質量、多模態的訓練數據正在成為推動行業進步的關鍵基礎要素。基于對具身智能發展路徑與數據瓶頸的判斷,諾亦騰機器人從數據基礎設施這一底層環節切入,專注構建面向產業的技術與平臺能力,推動具身智能從“數據獲取”走向“數據工程化與體系化”。
諾亦騰機器人聯合創始人、首席科學家韓磊博士表示:“具身智能的發展,本質上是一個以數據為核心驅動的系統工程。單一來源的數據難以支撐模型在復雜物理世界中的泛化能力。我們希望通過與智象未來的合作,將真實世界中高精度采集的人類動作數據,與可規模化生成的多樣化視頻數據相結合,構建兼具真實性與多樣性的訓練數據體系。這將有助于突破當前數據規模與質量之間的瓶頸,加速具身智能模型從‘可用’走向‘好用’。”
作為全球領先的多模態生成式人工智能企業,智象未來專注底層架構的持續創新,在生成質量、語義理解與藝術表現力上不斷突破邊界,定義行業新標桿。在本次合作中,智象未來充分發揮其領先的高可控視頻生成技術,將利用高精度動作捕捉設備采集的原始傳感數據進行了百倍以上的精細化放大。這一過程并非簡單的素材堆砌,而是通過可控視頻生成技術將精準的動作指令與極其豐富的視覺場景深度融合,它不僅賦予了具身智能訓練數據在場景、光影變化及人體形態膚色上的超高復雜度,更確保了生成的每一幀視頻與底層操作數據之間的精準配對。
智象未來聯合創始人兼 CTO 姚霆博士表示:“普通的通用視頻生成模型通常是為了好看,容易產生幻覺或物理不一致。為了讓生成的視頻數據能夠達到具身智能產業需求的物理一致性,我們基于智象自研的多模態大模型,對傳感動捕設備采集的數據進行了高可控性的生成式優化,使之更加符合具身智能企業進行高精度訓練的要求。這種‘數據煉金術’打破了傳統動捕數據的局限,為具身智能的進化提供了取之不盡的高質量‘燃料’。”
未來,雙方將圍繞高質量底層數據構建、VLA 模型規模化演進,以及視頻建模與動作預測協同驅動的世界模型展開全方位的深度合作。
智象未來將發揮多模態大模型的零樣本生成優勢,攜手諾亦騰機器人對高精度多模態 Human-centric 數據進行規模化擴展與視覺精細度增強;諾亦騰機器人將利用其高精度動作捕捉與多模態數據基礎設施,為模型提供真實精準的物理反饋數據。雙方將攜手構建從虛擬生成到物理驗證的完整數據閉環,共同加速具身智能時代的到來。

基于諾亦騰機器人的動捕數據進行高精度生成的視頻數據
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。