
多模态大模子的研发范式,正在被澈底重构。
今天,商汤科技聚会南洋理工大学发布了最新时代效果:NEO-unify。
这是一套着实终了"原生、长入、端到端"的多模态模子架构,其最中枢的打破在于:
澈底砍掉了永久以来行业依赖的视觉编码器(VE)和变分自编码器(VAE)。不再通过"组件勉强"来终了感知与生成,纪念第一性旨趣,径直以近乎无损的像素和笔墨四肢原生输入。
通过翻新的夹杂变换器(Mixture-of-Transformer, MoT)架构,该模子在并吞个体系内买通了视觉与言语的"清醒 + 生成"双向智商。
时代重心一览:
无编码器联想:超越视觉表征争论,开脱预试验先验与领域定律瓶颈;
MoT 架构:长入终了视觉与言语的深度会通;
高效诈欺:在保握高保真细节归附的同期,显赫耕作了数据与算力的诈欺效力。
这套架构的出现,象征着多模态 AI 正在从"模态相连"进化为"原助长入智能体"。
其无编码器、端到端、多模态长入学习的新旅途,也为将来终了跨模态理解与生成一体化的智能系统奠定了基础。
现时多模态智能架构窘境
永久以来,多模态商讨领域无数罢职着一种默许范式:
视觉编码器(Vision Encoder, VE)安详感知与清醒;
变分自编码器(Variational Autoencoder, VAE)用于内容生成。
这种架构自然在初期推进了领域发展,但也在感知与生成之间划下了一王人自然的范围。
为了弥合这一裂痕,近期业界显现出一系列尝试构建"分享编码器"的商讨使命。联系词,这种折衷有缱绻时常堕入了新的结构性联想衡量。
濒临这一挑战,商讨视角启动纪念第一性旨趣:能否构建一个径直措置原生输入(即像素自己与笔墨自己)的一体化模子?
基于这一念念考,商汤科技聚会南洋理工大学提倡了一种全新的架构范式:NEO-unify(preview)。
四肢一个原生、长入、端到端的多模态模子架构,NEO-unify 不仅超越了现时视觉表征的争论,也开脱了预试验先验和领域定律瓶颈的为止。
最关键的是:不需要 VE,也不需要 VAE,NEO-unify 终昭彰多模态措置的着实归一。
NEO-unify 原生一体化架构新范式
NEO-unify 第一次迈向着实的端到端长入框架,大致径直从近乎无损的信息输入中学习,并由模子自身塑造里面表征空间。

领先,引入雷同无损的视觉接口,用于长入图像的输入与输出默示。
其次,选拔原生夹杂 Transformer(Mixture-of-Transformer,MoT)架构,使清醒与生成大致在并吞体系中协同进行。
最终,通过长入学习框架终了跨模态试验:文本选拔自纪念交叉熵标的,视觉通过像素流匹配进行优化。
模子效果 1、定量完结分析


2、生图效果展示


时代发现 1、无编码器联想大致同期保留空洞语义与细粒度表征图像重建任务
该团队先前的使命 NEO(Diao et al., ICLR 2026)标明,原生端到端模子相似大致学习到丰富的语义表征。
在此基础上,他们进一步不雅察到一个意念念的征象:即使在冻结清醒分支的情况下,独处的生要素支仍然大致从默示中抽取并归附细粒度的视觉细节。
基于这一发现,DragonGame团队试验了NEO-unify(2B)。
在初步 9 万步预试验后,模子在 MS COCO 2017 上赢得31.56 PSNR和0.85 SSIM,而 Flux VAE 的对应主张为32.65和0.91。
这一完结标明,即使不依赖预试验 VE 或 VAE,雷同无损的原生输入仍大致同期因循高质料的语义清醒与像素级细节保真。

域外图像重建(2B NEO-unify,清醒分支冻结)图像剪辑任务
据此,团队进一步开展探索:NEO-unify 将通盘全模态条目信息长入输入到清醒分支,而生要素支仅稳新生成新的图像。
即使在冻结清醒分支的情况下,NEO-unify(2B) 仍展现出雄伟的图像剪辑智商,同期显赫减少了输入图像令牌的数目。
在使用开源生成与图像剪辑数据集并进行初步 6 万步夹杂试验后,模子在 ImgEdit 基准上赢得3.32的收成,且清醒分支在通盘这个词试验经过中保握冻结。

小领域数据考据(2B NEO-unify,清醒分支冻结)

ImgEdit 教唆词剪辑(2B NEO-unify,清醒分支冻结)2、无编码器架构与 MoT 骨干高度协同大幅缩短内在冲突
借助预试验的清醒分支与生要素支,NEO-unify 使用疏通的中期试验(MT)与监督微调(SFT)数据进行聚会试验。
即使在较低的数据比例和亏本权重下,清醒智商一经保握踏实,而生成智商则不停很快。二者在 MoT 骨干中协同耕作,举座冲突极小。

3、无编码器架构,展现更高数据试验效力
此外,团队先进行了 web-scale 预试验,随后在各样且高质料的数据语料上纪律进行中期试验(MT) 和 监督微调(SFT)。
与 Bagel 模子比较,NEO-unify 展现出更高的数据试验效力,在使用更少试验 token的情况下赢得了更优的性能。

迈向原助长入的下一代智能范式
NEO-unify 的真义不啻于一次模子架构的翻新,它履行上预示着多模态智能正从"组件堆叠"迈向"实质长入"。
这种范式的演进,正在勾画出通往下一代智能时势的清亮旅途:
感知与生成交汇的闭环;
全模态与深层视觉推理;
空间智能与寰宇模子的显现。
……
这象征着一条全新的时代道路图正在张开:
{jz:field.toptypename/}模子不再在模态之间进行调遣,而是大致原生地跨模态念念考。
在这一愿景下,多模态 AI 不再仅仅相连不同系统,而是构建一个从未被割裂的、高度集成的长入智能体,并让所需智商从其里面自然显现。
据悉,当今联系的研发使命正处于领域化扩展与握续迭代的关键期。一系列基于该架构的模子效果与开源孝敬,将在近期不息向业界发布。
Hugging Face 地址:
https://huggingface.co/blog/sensenova/neo-unify
官方博客地址:
https://www.sensetime.com/en/news-detail/51170542?categoryId=1072
https://www.sensetime.com/cn/news-detail/51170543?categoryId=72
* 本文系量子位获授权刊载,不雅点仅为原作家通盘。
一键三连「点赞」「转发」「防范心」
迎接在批驳区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿阐述逐日见

备案号: