新聞中心
News Center
9月28日消息,蘋果正在研發(fā)名為Manzano的新圖像模型,旨在兼具圖像理解和圖像生成能力。
目前Manzano尚未發(fā)布,僅有一篇預(yù)印本論文和部分低分辨率圖像樣例。
蘋果表示,大多數(shù)開源模型在圖像處理上存在取舍,而Manzano采用混合圖像分詞器,其共享編碼器可輸出連續(xù)標(biāo)記和離散標(biāo)記,減少任務(wù)沖突。Manzano整體架構(gòu)包括混合分詞器、統(tǒng)一語言模型和獨(dú)立圖像解碼器,解碼器有三個(gè)版本,支持不同分辨率。訓(xùn)練使用大量圖像文本樣本,內(nèi)部測試顯示其在文字密集型任務(wù)中表現(xiàn)優(yōu)異,性能隨規(guī)模提升而改善。蘋果認(rèn)為Manzano是有力替代方案,但目前其基礎(chǔ)模型仍落后于行業(yè)領(lǐng)先者,未來版本需進(jìn)一步驗(yàn)證。