CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

本文作者：王悅

2023-12-25 18:19

導語：研究結果表明，Gemini 綜合性能難敵 ChatGPT 。

最近谷歌發布的 Gemini 格外引人注目，其號稱是第一個在各種任務中可與 OpenAI 的 ChatGPT 相媲美的大模型。

報道顯示，Gemini 的“Ultra”版本在各種任務上都優于 GPT-4，而 Gemini 的“Pro”版本則與 GPT-3.5 不相上下。

針對兩個當紅炸子雞的較量，美國卡內基梅隆大學近日展開了一項研究，深入探討了谷歌 Gemini 的語言理解和生成能力，并將其與 OpenAI 的 GPT 系列作了對比，得到了有趣的結論——谷歌 Gemini 的綜合性能與 ChatGPT 仍有較大差距。

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

論文地址：https://arxiv.org/pdf/2312.11444.pdf

一、Gemini 僅媲美 GPT-3.5 Turbo

CMU 的這項研究主要探討了兩個問題：

其一，對 OpenAI GPT 和 Google Gemini 模型的能力進行了第三方客觀比較，并提供了可重現的代碼和完全透明的結果；

其二，對結果進行了更深入的研究，找出兩類模型中某一類模型分別擁有的優勢領域。

研究團隊對測試各種語言能力的 10 個數據集進行了分析，包括推理、回答基于知識的問題、解決數學問題、語言間翻譯、生成代碼以及充當指令遵循代理。

在所有的基準測試任務基礎上，CMU 團隊分析發現：

Gemini Pro 模型在模型大小和類別上與 GPT 3.5 Turbo 相當，其準確度一般與 GPT 3.5 Turbo 相當，但略遜于 GPT 3.5 Turbo，比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo，尤其是在多選題的回答順序偏差、多位數數學推理、過早終止智能體任務以及因激進的內容過濾而導致回答失敗等方面存在問題。

在特別長和復雜的推理任務中，Gemini 的表現優于 GPT 3.5 Turbo，包括生成非英語語言以及處理更長、更復雜的推理鏈。而在不對回答進行過濾的任務中，Gemini 也善于使用多種語言。

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

圖為基準測試的主要結果（最佳模型以粗體顯示，次佳模型以下劃線顯示。Mixtral 只對部分任務進行了評估。）

二、大模型關鍵能力分析

在大模型的幾項關鍵能力上，團隊的具體研究結果如下：

知識圖譜問答能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

在大模型的問答能力層面，從上圖中可以看出每個模型在部分代表性任務上的表現，與 GPT 3.5 相比，Gemini Pro 在大多數任務上表現不佳，思維鏈提示降低了各子任務之間的差異。

團隊又深入研究 Gemini Pro 性能低于/優于 GPT 的任務3.5 的差距，得出結論：

1）Gemini Pro 在 human_sexuality（社會科學）、formal_logic（人文科學）、elementary_mathematics（STEM）和 professional_medicine（專業領域）方面落后于 GPT 3.5。

2）在 Gemini Pro 優于 GPT 3.5 Turbo 的兩項任務中，Gemini Pro 只取得了微弱的優勢。

推理能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

在推理能力層面， Gemini Pro 的整體準確率略低于 GPT 3.5 Turbo，遠低于 GPT 4 Turbo，但Gemini Pro 在更長、更復雜的問題上表現不佳，而 GPT 模型對此則更為穩健。

文中亦給出了 GPT 3.5 Turbo 性能超過 Gemini Pro 最多的任務：

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

數學能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

從數學推理的總體結果可以看出，在包含多種語言模式的 GSM8K、SVAMP 和 ASDIV 任務中，Gemini Pro 的準確率略低于 GPT 3.5 Turbo，遠低于 GPT 4 Turbo。

在 MAWPS 任務中，所有模型的準確率都超過了 90%，但 Gemini Pro 仍略遜于 GPT 模型。

代碼生成能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

代碼能力生成方面，在英語任務中，Gemini Pro 在較長的輸入和輸出方面表現較強。分析結果可以發現，在大多數使用庫的情況下，如 mock、pandas、numpy 和 datetime，Gemini Pro 的性能比 GPT 3.5 差。

不過，在 matplotlib 的情況下，它的性能要優于 GPT 3.5 和 GPT 4，這表明 Gemini 在通過代碼執行繪圖可視化時具有更強的能力。

機器翻譯能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

在翻譯能力上，Gemini Pro 有 8 種語言的性能優于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下，Gemini Pro 在 20 種語言中的 8 種語言上的表現優于 GPT 3.5 Turbo 和 GPT 4 Turbo，并在 4 種語言上取得了最佳表現。不過，Gemini Pro 在大約 10 種語言對中表現出強烈的阻塞響應趨勢。

雷峰網雷峰網(公眾號：雷峰網)雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

王悅

主筆

發私信

當月熱門文章