0
4月1日,阿里巴巴發布圖像生成與編輯統一模型Wan2.7-Image。直擊當前 AI 生圖領域“標準臉”審美疲勞和“色彩盲盒”等痛點,該模型可實現“千人千面”,捏出“活人感”,全新的“調色盤”功能可精準控制色彩。
Wan2.7-Image具備文生圖、圖生組圖、圖像指令編輯和交互式編輯等全鏈路能力。在人類偏好盲測中,“文生圖”能力超過GPT-Image1.5和國內主流模型,在文本渲染、照片級成像和世界知識指標上,接近Nano Banana Pro。
圖說:Wan2.7-Image的人類偏好盲測評分位列國內第一。
為告別千篇一律的“AI臉”,Wan2.7-Image強化了虛擬形象捏臉功能,支持從骨相、眼眸到五官細微處的全方位定制,比如更換提示詞中的臉型(鵝蛋臉、圓臉、方臉、長方臉等)、眼部特征(杏仁眼、深邃眼窩、圓眼、丹鳳眼等),實現“千人千面”。

藝術家和設計師需精準控制顏色,商業海報對配色還有嚴格要求,但AI生圖往往是“色彩盲盒”。Wan2.7-Image全新支持“調色盤”功能,用戶可通過Hex Code,一鍵提取或輸入參考圖的各種顏色和占比,從馬蒂斯濃郁的紅色系、梵高明媚的黃色系,到畢加索清冷的藍色系,都能參考生成同色系的圖片,并可自由調控顏色的數量和占比,自定義配色方案。

超長文字渲染是AI生圖的痛點,容易文字模糊、內容錯亂甚至直接漏寫。憑借長上下文文本編碼(Long Context Text Encoder)解析超長序列,Wan2.7-Image對超長文字、表格和復雜公式的渲染可達印刷級,支持12種語言,最高3K tokens的超長文字輸入,可輸出一頁A4紙的論文。

此外,Wan2.7-Image還具備強大的組圖生成能力,可生成多達12張,用于批量制作同風格系列圖、PPT配圖、分鏡腳本、電商模特套圖及多視角建筑圖。
如果說生圖能力是創作的基石,那么編輯功能則賦予了創作者掌控力。Wan2.7-Image原生支持交互式編輯模塊,更懂創作者的需求——“哪里不爽點哪里”,用戶可通過精準框,在指定區域元素添加、對齊、移動元素或logo,實現像素級意圖對齊。

Wan2.7-Image的多主體一致性最高支持輸入9張圖片作為參考源。對于合影、電影海報及家具組合圖等,可保持風格與特征的統一。其他常用的圖像編輯能力,如鏡頭視角控制、光影處理、材質參考、照片修復、虛擬試衣等數十種實用功能,Wan2.7-Image也能更穩定地輸出,告別“抽卡”式創作。

不只會生圖,還更懂圖,Wan2.7-Image更強的理解能力源于模型架構與訓練過程中的技術突破。
在訓練數據上,超大規模的異構數據底座不僅涵蓋全域品類的視覺素材,還整合了理解類數據;在模型架構上,模型采用了領先的生成與理解統一模型架構,共享隱空間(Latent Space)來實現語義映射,文字緊挨著畫面,模型不需費力去猜文字對應的畫面;在訓練流程中引入多模態指令(比如文字+圖片),使得模型實現了從單純“像素擬合”到“底層語義認知”的飛躍。
此外,在數據工程維度,根據圖像的布局、文字、光影、拍攝角度和用途等,模型團隊構建了多維精細標注體系。配合先進的分階段訓練策略與多任務優化,模型在長尾場景下仍然保持了極高的生成穩健度。基于更大規模數據及尺寸訓練而成的Wan2.7-Image-Pro也同步上線,生成圖像的構圖更加穩定,語義理解更強更精準。
Wan2.7-Image的強大功能可應用于多個行業。對于短劇與影視團隊,借助千人千面的捏臉系統與分鏡生成能力,可低成本完成角色設定、動作模仿與特效預覽;對于自媒體與內容創作者,可輕松生成多風格封面、OOTD穿搭;在電商領域,只需單張模特圖,即可裂變生成特寫圖、不同場景的賣點圖,大幅降低拍攝成本;教育和科研從業者可直接調用模型生成論文配圖、信息圖表與兒童繪本。對于時下大火的“龍蝦熱”,Wan2.7-Image 現已支持skill調用,讓龍蝦畫畫,全面解鎖生成模型的應用場景。
即日起,用戶可在https://tongyi.aliyun.com/wan/、wan.video網站和阿里云百煉體驗Wan2.7-Image,千問App也即將接入。
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。