6月27日消息,端側(cè)設備迎來了新架構的 AI 模型。本周五凌晨,谷歌正式發(fā)布、開源了全新端側(cè)多模態(tài)大模型 Gemma 3n。谷歌表示,Gemma 3n 代表了設備端 AI 的重大進步,它為手機、平板、筆記本電腦等端側(cè)設備帶來了強大的多模式功能,其性能去年還只能在云端先進模型上才能體驗。
Gemma 3n 的特性包含如下幾個方面:
多模態(tài)設計 :Gemma 3n 原生支持圖像、音頻、視頻和文本輸入和文本輸出。專為設備端優(yōu)化 :Gemma 3n 型號以效率為設計重點,提供兩種基于有效參數(shù)尺寸:E2B 和 E4B。雖然它們的原始參數(shù)數(shù)量分別為 5B 和 8B,但架構創(chuàng)新使其運行內(nèi)存占用與傳統(tǒng)的 2B 和 4B 型號相當,僅需 2GB (E2B) 和 3GB (E4B) 內(nèi)存即可運行。架構突破 :Gemma 3n 的核心是全新組件,例如用于計算靈活性的 MatFormer 架構、用于提高內(nèi)存效率的每層嵌入 (PLE) 以及針對設備用例優(yōu)化的新型音頻和基于 MobileNet-v5 的視覺編碼器。質(zhì)量提升 :Gemma 3n 在多語言(支持 140 種文本語言和 35 種語言的多模態(tài)理解)、數(shù)學、編碼和推理方面均實現(xiàn)了質(zhì)量提升。E4B 版本的 LMArena 得分超過 1300,使其成為首個達到此基準的 100 億參數(shù)以下模型。 谷歌表示,要想實現(xiàn)設備性能的飛躍需要徹底重新思考模型。Gemma 3n 獨特的移動優(yōu)先架構是其基礎,而這一切都始于 MatFormer。
Gemma 3n 的核心是 MatFormer(Matryoshka Transformer) 架構,這是一種專為彈性推理而構建的新型嵌套 Transformer。你可以將其想象成俄羅斯套娃:一個較大的模型包含其自身更小、功能齊全的版本。這種方法將俄羅斯套娃表征學習的概念從單純的嵌入擴展到所有 Transformer 組件。