蘋果大模型最新論文：AFM 模型多維度評測「出爐」

本文作者：朱可軒

2024-08-30 17:23

導語：蘋果大模型最新進展。

編譯 | 朱可軒

編輯 | 陳彩嫻

不久前，蘋果在全球開發者大會（WWDC）上推出了最新個人智能系統 Apple Intelligence，可以深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中，引起了 AI 業內人士、尤其是端側智能領域的討論。

蘋果在 2024 年的一系列技術動作，被戲稱為蘋果為端側 AI 所設計的“開卷考試”，即：大模型時代，AI 技術應如何在手機、平板等端側設備上運營，讓手機變得更智能？

近日，蘋果團隊又在 arXiv 上更新了關于 Apple Intelligence 的最新論文，其中介紹了蘋果用在 Apple Intelligence 上的兩個基礎語言模型，包括：一個在設備端運行的大約 30 億參數的語言模型 AFM-on-device，以及一個在私有云計算上運行的大規模服務器語言模型 AFM-server。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

論文鏈接：https://arxiv.org/pdf/2407.21075

根據該論文，蘋果開發的端側大模型在語言理解、指令跟隨、推理、寫作與工具使用等多個任務上都有出色表現。同時，在保護用戶數據隱私與安全上，蘋果強調在后訓練階段不會使用用戶的個人數據進行訓練。

結果顯示，蘋果的 AFM 模型在指令遵循層面皆優于其他大模型，同時，從寫作寫作能力來看，在摘要總結方面，AFM 模型無論是端側還是私有云也均要好于其他。而在安全性評估時，AFM 模型也比其他模型要更為負責。但是值得一提的是，AFM 模型的數學能力整體上來看較為一般。

研究發現

人類評估

在人類評估中，在端側，AFM 僅輸于 Llama-3-8B ，而與其他模型相比顯然更優。據論文介紹，AFM 與 Phi-3-mini 相比，模型尺寸小了 25%，而勝率達47.7% ，AFM 甚至超出參數數量為兩倍多的 Gemma-7B 和 Mistral-7B。而在私有云上，與GPT-3.5相比時，AFM 也具有一定競爭力，勝率超 50%。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

指令遵循

在指令級（Instruction-level）與提示級（Prompt-level）的評估中，無論是端側還是私有云上，均為 AFM 模型表現最好。其指令級的得分分別為 85.7% 和 88.5%，而提示級的得分則分別為 79.3% 和 83.0%。

此外，蘋果還使用了 AlpacaEval 2.0 LC 和 Arena Hard 作為基準進行評估。在私有云上，這兩項測試中均為 GPT-4 的表現最優，其中，在 Arena Hard 測試中，GPT-4 的得分甚至倍超 AFM。在端側的 AlpacaEval 2.0 LC 測試中，則為 Gemma-7B 評分最優，AFM 模型緊隨其后。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

工具使用

蘋果還測試了在調用工具使用基準測試中 AFM 模型的表現，分別從簡單（Simple）、多重（Multiple）、并行（Parallel）、并行多重（Parallel Multiple）、相關性（Relevance）和平均（Average）幾個緯度展開。

整體來看，AFM-server 表現較優，從測試結果上來看，在簡單、多重、相關性、平均性維度中，AFM-server 均得分最高，分別為91.0、95.5、91.3、89.5。在并行多重維度中，AFM-server 得分 85.0，僅次于 Gemini-1.5-Pro-0514 的 88.0，且領先于 GPT-4 與 GPT-3.5。

但 AFM-on-device 表現則較為一般，在多重、并行多重、相關性及平均維度中，均要稍遜于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外，在并行維度中，AFM-server 和 AFM-on-device 的表現情況則都較為一般。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

寫作能力分兩塊，一塊是摘要總結，一塊是長作文。其中，AFM 模型主要在摘要總結上表現較好，在端側的表現優于 Mistral-7B、Gemma-7B、Phi-3-mini 與 Gemma-2B，在私有云上則優于 GPT-4、Mixtral-8x22B、DBRX Instruct 與 GPT-3.5：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

數學能力上，蘋果 AFM 模型的表現則一般，僅在端側 MATH 基準上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 與 Mistral-7B，GSM8k 是 8-shot、MATH 是 4-shot：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

負責任的 AI

在文本摘要總結功能中，蘋果團隊將 AFM 模型在郵件、信息與通知這三個應用上作了測試，分別從 5 個維度（仇恨言論、歧視、違法、色情、暴力）來評估模型的“好”與“差”。研究顯示，蘋果的 AFM 模型在“好”維度的表現均高于 Gemma-7B、Phi-3-8B 與 Llama-3-8B：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

安全性評測

在有害輸出上，蘋果 AFM-on-device 的得分為 7.5%、AFM-server 的得分為 6.3%，得分越低、效果越好，遠遠高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B（其余得分均在 10% 以上）：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

在安全提示詞上，人類評估，蘋果的 AFM-on-device 模型表現優于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B，AFM-server 模型的表現也要遠超 GPT-3.5、GPT-4 和 Llama-3-70B：雷峰網(公眾號：雷峰網)雷峰網

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

朱可軒

編輯

發私信

當月熱門文章