Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

本文作者：張進

2024-12-16 18:37

導語：2025 年，「推理」將是大模型競爭的下一個分水嶺。

「雷峰網(公眾號：雷峰網)消息」今天，月之暗面官方宣布：繼 11 月 16 日發布數學模型 k0-math 后，他們又推出了新的視覺思考模型 k1，且「數理化」的能力又上了一個新臺階，實測結果絲毫不輸 OpenAI o1！

最直接的實測例子是：當我們把楊振寧、伽利略等世界知名科學家的研究手稿拍照、上傳后，k1 居然能識別圖片中的文字，生動解讀背后的物理、天文學等科學知識，從而回答用戶的提問并給出清晰完整的推理思考過程。

例如，當我們上傳楊振寧的手稿并向 k1 提問，k1 給出了超乎小編知識范疇所能辨真偽的答案：

這是楊振寧的手稿圖片——

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

這是我們的詢問：這是物理學家楊振寧的手稿照片，請你一步一步分析，楊振寧在計算什么，他可能在想什么，當時可能是什么背景？

這是 k1 的回答：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

上下滑動查看長圖

雖然小編既不懂電磁場、也不懂粒子動力學，但看完 k1 的答案著實大吃一驚！

并忍不住發出靈魂叩問：圖靈測試面對大模型還有效嗎？人類讀者面對這樣的問題怎么區分 k1 與爾等用戶的區別？當 AI 大模型不斷進化，假以時日圖靈測試的標準答卷是否會變成：同一個問題的兩個不同答案，答案更高明的永遠盲選「機器」、答案更普通的永遠盲選「人類」……

更重要的是：從數學模型 k0 到視覺思考模型 k1，月之暗面（Kimi）僅用了一個月！

據了解，k1 是基于 k0 的模型升級。k0-math 模型數學能力出眾，但由于僅支持 LaTeX等格式的文本輸入，依賴圖形理解能力的部分幾何圖形題無法解決。而新的 k1 視覺思考模型借助端到端的圖像理解能力，解鎖了包括幾何題在內更加全面的數學能力。

當多模態智能不斷進化，視覺模型的推理能力從文本拓展到「數理化」，我們可以大膽猜想：Kimi 大模型不僅能輕松解決傳統的文本與圖像信息對齊問題，連謝爾頓怎么教佩妮學物理的難題都能解決了！

1
中國首個視覺思考模型

自 2021 年 1 月 OpenAI 發布 DALL·E 及圖文對齊架構 CLIP 以來，事實上業內針對圖像-文本任務的雙模態信息對齊與處理提出了多樣化的解決思路，并發表了大量工作。

但過去三年來，這些模型的特征局限在文本數據上：

首先，以生成為主，如文生圖任務，強調圖文對齊、而非推理。例如，國內有大批廠商早在今年上半年就已推出看圖說話功能，主要應用在旅游景點介紹、拍照生成搭配詩詞歌賦等，缺少較強的常識認知與邏輯推理等能力。

其次，不具備一步一步拆解分析數理化問題的思維鏈能力，沒有將基礎大模型的語義理解與數理化問題的深度思考需求結合起來。

此外，撇開底層基礎模型的能力差異不說，由于推理模型的產品體驗不如純文生圖或圖生視頻等來得直觀，模型的思考能力需要結合模型的文本輸出能力來獲得一手觀感。而其中，長文本是展示模型推理的最佳方式之一。

而 Kimi 今天發布的視覺思考模型 k1 ，基于強大的基礎模型，就從答案輸出的長文本能力體現了其在多模態推理上的躍升。

值得注意的是，這也是國內首個視覺思考模型！

不同于以往國內外發布的推理模型，k1 的推理能力有兩大優勢：一是數理化能力杰出，二是視覺識別與邏輯推理能力強強結合。

首先，根據官方數據披露，在 k0-math 數學模型的基礎上，k1 的能力不僅擴大到了數學領域中的幾何圖形方向，還增加了物理、化學等基礎科學能力。

在基礎教育各階段的幾何和圖形題專項基準能力測試中，k1-preview 成績打平或超過了 OpenAI 的 o1 模型：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

結合端到端圖像理解和深度思維鏈推理技術，在數學、物理、化學等基礎教育學科的基準能力測試中，初代 k1 模型表現接近或超過 OpenAl o1、GPT-4o 以及 Claude 3.5 Sonnet 等領先視覺模型，達到了全球一流水平：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

此外，k1 還具備超強的視覺識別能力，并將視覺識別能力與語言推理能力強強結合！

k1 可以準確識別強噪聲干擾下拍攝的圖片信息，包括但不限于灰暗燈光下拍攝、拍攝有陰影、拍攝書本彎折起伏、拍攝模糊或虛化、有手寫字跡干擾等等傳統視覺識別也難以解決的場景：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

在推理模型的實際應用中，除了文本識別，涉及到公式與圖形的理工類圖文信息識別往往是用戶直接拍照輸入解答。

傳統基于文本的推理模型，或者不支持圖像信息輸入，或者需要借助外部 OCR/視覺模型進行轉換，效果有明顯損失。而 k1 的視覺部分針對這一問題進行了顯著改善。

據 AI 科技評論了解，學生群體一直是 Kimi 用戶數最廣的群體之一，更是 Kimi 崛起的重要幕后推手之一。本次 k1 的視覺思考能力，精準捕捉了學生拍照識題并深度解讀的需求，將成為掃描王等產品的強有力競爭對手！

基準測試數據顯示，在復雜拍攝條件下，例如照片圖像不清晰、多題一起拍、手寫字跡干擾，甚至純手寫的題目等場景，k1 模型相比 OpenAI 和 Anthropic 的視覺思考模型，有更顯著的領先優勢：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

2
k1 掀起科學家手稿識別風

相較 k0 的數學能力，k1 解鎖數理化并結合視覺識別與推理的能力，顯然擁有更廣闊的應用場景。其中，最震撼的是 k1 居然能解讀諾貝爾獎級別的科學家研究手稿或筆記！

除了開頭的楊振寧手稿，k1 的發布還掀起了一批對伽利略、錢學森等科學家的手稿識別風：

先看伽利略的天文學研究。輸入一張牛頓的筆記圖片：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

詢問 k1：請一步步推測一下這個筆記的作者是誰，筆記內容在講什么？

k1 的回答如下：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

答案簡直逆天有木有！

k1 視覺模型的體驗入口已經放在 Kimi 首頁，為此小編也抓緊去體驗了一下來自科學家的大腦暴擊！

接著我又去網上找了幾張科學家的手稿照片，這是錢學森的：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

我心想圖片這么模糊、字跡這么別具一格，k1 總該難倒了吧，結果，k1 不僅精確識別！還邏輯清晰！振振有詞！

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

對于爾等文科生來說，這就好像能帶計算機進考場考數學一樣，以后行走江湖豈不是輕輕松松縱橫四海？（狗頭護身）

看到 k1 這么輕松就能解答復雜的數理化研究筆記，小編又忍不住思考：k1 能解答科學家手稿，那能解答抽象的現代美術展館的藝術展品嗎？讓我來試試。

輸入莫奈的《睡蓮》，k1 解讀依然完美：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

不過，當我輸入莫奈另一幅由于戰亂輾轉導致殘缺的《睡蓮》畫作與今年香港巴塞爾藝術展上頗受關注的油彩筆所畫真人畫作時，k1 的表現則沒有解讀科學家筆記時那么深刻、嚴謹，原因或許是因為訓練數據不足。

但在對未知或不那么熟悉的知識領域，k1 也能以擬人、優美的文字表達，展示一步一步思考問題的能力：

輸入莫奈殘缺版睡蓮：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

k1 的解讀如下：

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

在處理包含復雜信息的圖像上，k1 的能力無疑是當前國產模型的先鋒，尤其在包含復雜公式與幾何圖形的數理化問題上。相比藝術作品，后者更能體現底層模型的邏輯推理能力。

而從用戶的體驗角度評價，由于 k1 結合了思維鏈與長文本技術，無論面對理科還是文科問題時都能給出一份展示完整思考過程的答案，在人機交互的產品創新上依然能給我們帶來新意。

3
月之暗面的 AGI 進階之路

大模型沖刺 AGI 的下一步趨勢，主要有三塊：多模態、推理與 AI 的自我學習。

這三塊中的每一塊難題攻關，都是挑戰重重；而 k1 的發布，至少體現了月之暗面攻克 AGI 的兩個重大命題，即多模態與推理，更是難上加難，尤其 k1 將兩者結合，無論是技術還是產品上都體現出了月之暗面團隊持續的創新能力。

今年下半年起，月之暗面在 Kimi 產品上頻頻推出新功能：

10 月，Kimi探索版革新「AI搜索」，強調AI的自助搜索能力，瞄準傳統搜索引擎的弊端，解決了大量 AI 搜索不痛不癢「拼湊大量信息」問題，重新定義了「AI搜索」。

11 月，上個月的今天月之暗面發布了數學模型 k0-math，其數學能力對標 OpenAI o1 系列。

12 月，今天月之暗面在 k0-math 模型的基礎上再推出視覺思考模型k1，數理化能力再上一個臺階。

可以看到，這家大模型公司正在以月為單位的速度推出新技術、更新Kimi產品細節。

一年前，月之暗面發布了支持輸入 20 萬漢字的智能助手產品 Kimi，創造了 C 端 AI 所支持的上下文輸入長度的新紀錄，以「長文本」策略一舉打響了 C 端 AI 產品市場，贏得一大批用戶，也給其他大模型公司帶來不小壓力。

之后，Kimi的產品能力和技術實力萬眾期待，整個業界都在期待 Kimi 的下一個動作會是什么，但在之后的整整十一個月里，Kimi都沒有任何新的技術發布。

而在這段時間里，Sora、GPT-4o、GPT-o1等現象級產品一次次點燃大眾的熱情，整個大模型領域都在跟進，每天誰家又做出來「類 Sora」產品、誰家又超過GPT-4o……好不熱鬧。

在GPT-o1發布后，其推理能力驚艷，主要體現在數學與編程上。這不僅涉及到思維鏈的 scale-up，模型推理能力的數據來源、以及背后的訓練方法也十分關鍵。

早在今年 4月底清華人工智能學院的成立大會上，多模態方向領先研究者、京東技術副總裁何曉冬就預測過，下一代大模型的訓練大概率是通過模型生成的數據和標注、以及模型互相對抗這條“類強化學習”技術路線來推進。

k0-math 發布時，楊植麟也提出，基于強化學習的 scale-up 比簡單預測下一個 token更能提升 AI 模型的思考能力，他認為多模態最重要的也是思考與交互，但思考的重要性遠大于交互，思考決定了上限。

基干強化學習技術，AI模型具備像人一樣思考的潛力：在遇到問題時，首先分析問題，并提出不同的解法，然后根據不同的解法進行不斷試驗、反思并改進。

自 AlphaGo 開始，深度強化學習一直被視為實現 AGI 的關鍵路徑之一。但在過去，由于深度強化學習有兩大缺陷：一是樣本效率與計算效率低，二是算法安全性與魯棒性低，其不適用于解決現實世界中交通、醫療、金融等關鍵領域的智能決策問題，因為這些領域的容錯率低、一旦出錯則風，險極高。

但大模型時代到來后，結合大模型的語義理解與 2022 年出現的思維鏈技術后，強化學習有了新的生命。通過在大模型產品交互中引入強化學習的過程獎勵機制，對模型的推理過程進行逐步激勵與懲罰，激勵模型生成更詳細、質是更高的推理過程。

Kimi 將基于強化學習技術的新一代模型，稱為“思考模型”。

這是月之暗面創始人楊植麟技術路線思考的直觀體現。

而在明確強化學習與AI思考能力放下之前，月之暗面也經歷過戰略調整，但最終決定要聚焦，聚焦Kimi。楊植麟稱，這是他們主動做了業務減法的結果，聚焦去做離 AGI 上限最高的事情，然后做好。

從 k0 到 k1，月之暗面都給國內的大模型發展帶來了驚喜，k1 之后，k2、k3、k4…會如何迭代呢？作為技術的領跑者，Kimi 正在定義屬于自己的 AGI 路線。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

張進

主筆

發私信

當月熱門文章

Kimi 數理化能跟 o1 掰手腕了？新模型 k1 有點兒強

1中國首個視覺思考模型

2k1 掀起科學家手稿識別風

3月之暗面的 AGI 進階之路

1
中國首個視覺思考模型

2
k1 掀起科學家手稿識別風

3
月之暗面的 AGI 進階之路