热点资讯

二八杠

尊龙国际黑马图像模子被Nano Banana期间追究东谈主点赞！15东谈主华东谈主小队，DDIM之父&CVPR最好论文作家带队

发布日期：2026-03-09 11:52 点击次数：81

图像界又杀出一匹黑马！

刚刚，Luma AI 甩出全新模子 Uni-1，正靠近标谷歌 Nano Banana Pro 和 GPT Image 1.5。

Uni-1 是一个和洽的图像结实与生成模子。

在官方展示中，Uni-1 具备变装姿态迁徙、故事板生成、草稿 + 材质磋磨参考生成、草稿转漫画、多参考图场景合成、草稿指示的相片裁剪、UV 贴图生成、带有翰墨的贺卡海报生成等诸多才略。

在多项巨擘任务评测中，Uni-1 不仅能对标 Nano Banana Pro、GPT Image 1.5，部分任务的泄露更是达到天下最初水平。

举例底下这个案例，Uni-1 精确拿抓细节，在作风一致性、元素和会度和细节收复上更胜一筹。

更令东谈主偶然的是，能兑现如斯惊艳效果的 Uni-1，背后并非大厂重兵参预，而是一支不到 15 东谈主的华东谈主磋议团队。

Uni-1 发布后推敲一派叫好，以至引来谷歌 DeepMind 首席科学家、Nano Banana 风物期间追究东谈主 Oliver Wang 点赞：

英伟达机器东谈主主宰 Jim Fan 也奉上了祈福：

Uni-1 效果到底有多炸？话未几说，来看更多图。

解锁多元创作场景马年新春贺卡

先来一个简短的测试：

生成一张马年新春贺卡，要包含"新春舒心"、"马年大吉 · 万事如意"、"马年二〇二六"等中语翰墨。

Uni-1 生成的贺卡翰墨履行完整、排版合理，马的形象和中国传统剪纸作风高度一致。比拟之下，GPT Image 1.5 出现了翰墨杂乱，Nano Banana Pro 的翰墨渲染也有显着弊端。

中语翰墨渲染一直是图像生成模子的"照妖镜"—— Uni-1 交出了一份荒谬能打的答卷。

多参考图场景合成

给模子 5 张参考图——两只猫、两位男士、Luma AI 的 logo ——条目合成一个会议场景：

一只猫展示 Luma AI 幻灯片，另一只猫旁听，同期融入真东谈主相片和 logo。

Uni-1 精确收复了每张参考图的身份特征——猫的毛色斑纹、男士的五官和发型、logo 的细节——并将它们合理地组织进了吞并个场景。

GPT Image 1.5 则把参考图片径直"贴"到了幻灯片上，而 Nano Banana Pro 连基本的参考图和会都没作念到。

信息图索要

给模子一张地铁站实拍的" THE BEES NEED YOU "公益海报，条目索要为可径直用于坐褥的信息图——生成完整图片，不带占位框，准确收复信息图中总共可见翰墨。

这个任务同期考验"看"和"画"两种才略：

先措施会实拍海报里的全部信息层级，再要从头生成一张排版明晰的信息图。

Uni-1 准确收复了完整的海报布局、总共翰墨、正确配色，以及玄色草地剪影和正确的纵横比。GPT Image 1.5 部分翰墨神志造作，底部翰墨全部缺失，野花种子和蜜蜂的 logo 也出了问题。Nano Banana Pro 举座布局尚可，但底部翰墨相通缺失。

草稿转漫画

再来看生成才略——把一张疏漏的草稿（猫站在书架上，驾驭有东谈主说" Hey! Get down from there! "）回荡为专科级漫画。

Uni-1 完满地将草稿意图回荡为专科漫画：分格构图、对话气泡的位置和标的都精确收复，总共细节完整保留——猫耳朵、翘起的尾巴、卷烟缸、书架上的书，以至手机屏幕显露着 911。

钢琴前的一世：6 帧故事板

底下可能是最能体现 Uni-1 实力的 demo 之一。

条目：生成 6 帧故事板，展示吞并个变装从童年到老年在钢琴前的一世。一个东谈主从男孩到少年、到后生、到中年、到老年，临了形成一家东谈主在台上的大合照。

6 帧画面中变装身份保持一致——吞并张脸，钢琴、透视和画风不变，仅东谈主物形象和布景随时期变化。这种跨帧的变装一致性和时期叙事才略，是面前图像模子的中枢贫穷之一。

UV 贴图生成

给模子一个东谈主从不同角度拍摄的三张相片（正面、左侧、右侧），条目生成一张圭臬面部拓扑的张开 UV 贴图。

UV 贴图是 3D 建模中的中枢法度，对面部对都、驾驭对称和肤色一致性条目极高。

Uni-1 生成的 UV 贴图在这三个维度上都显着优于 GPT Image 1.5、Nano Banana Pro：

GPT Image 1.5 的正脸和侧面贴图出现了不一致，Nano Banana Pro 则十足没能生成合乎圭臬 UV 布局表率的截至。

能管制这种专科级 3D 任务，评释 Uni-1 不仅仅"绘制悦目"，而是果然具备了对三维空间结构的深层结实。

不到 15 东谈主，尊龙app下载凭什么？

看完效果，你可能会敬爱：这些每每只在大厂智力看到的截至，到底是奈何从一个不到 15 东谈主的团队手里作念出来的？

谜底大致就藏在这支团队的两位磋议追究东谈主身上。

宋佳铭，清华大学本科，斯坦福大学博士。

他最广为东谈主知的孝敬是发明了 DDIM（Denoising Diffusion Implicit Models）。若是你用过任何基于扩散模子的图像生成器具，从 Stable Diffusion 到 DALL · E，背后果然都离不开 DDIM 带来的采样加快期间。

这篇论文于今被援用逾越万次，并获取 ICLR 2022 Outstanding Paper Award。

沈博魁，斯坦福大学本科及博士。

他的代表作获取了 CVPR 2018 Best Paper Award —— CVPR 是狡计机视觉界限的顶级会议，每年仅有少量数论文能获此盛誉。此外，他还入选了 RSS 2022 Best Student Paper Finalist。

一位是扩散模子加快的奠基东谈主，一位是狡计机视觉的顶尖磋议者——两位华东谈主学者联手，提醒一支精锐小队，聘请了一条和大厂天壤悬隔的门道：

不是把结实和生要素开作念，而是用一个和洽的模子把两件事沿途管制。

和洽模子：给逻辑大脑长出"心灵之眼"

Uni-1 的中枢境念，用 Luma 我方的话说，即是"给逻辑大脑长出心灵之眼"。

传统门道下，图像结实（看图话语、物体检测）和图像生成（文生图、图像裁剪）是两套孤独的系统。但 Uni-1 选定了一种 decoder-only 自转头 Transformer 架构，将文本和图像示意在吞并个交错序列中——既是输入，亦然输出。

这意味着，Uni-1 不需要分袂磨真金不怕火"结实模块"和"生成模块"，而是在一个和洽框架内同期建模时期、空间和逻辑。

更有道理的是，Luma 发现生成磨真金不怕火能权贵擢升结实才略。换句话说，当模子学会"画画"之后，它"看图"的才略也变强了——这和东谈主类的领会端正果然高度一致。

在推理式生成任务中，Uni-1 会在合成图像前进行结构化的里面推理：先剖释指示、预备构图，然后再渲染输出。

这种"先念念后画"的才略，让它在RISEBench（评估时期推理、因果推理、空间推理和逻辑推理四个维度的基准测试）上取得了天下最优收货。

在绽开词汇密集检测（ODinW-13）基准上，Uni-1 相通展现出了强劲的竞争力——要知谈，这是一个传统上由纯结实模子主导的界限。一个和洽模子能在理罢黜务上也不输挑升的结实模子，自身就也曾是一个进攻的信号。

为什么这很进攻？

把 Uni-1 放到更大的 AI 行业图景中看，有两件事值得关爱：

第一，和洽模子可能是下一代视觉 AI 的标的。

当结实和生成不再是两个孤独系统，而是吞并个模子的两面，好多以前需要复杂 pipeline 的任务——多轮裁剪、参考图合成、作风迁徙——都不错在一个模子内优雅地完成。Uni-1 也曾在这些任务上展示了这种上风。

第二，顶尖 AI 磋议不一定需要万东谈主团队和无穷算力。

{jz:field.toptypename/}

不到 15 东谈主的华东谈主磋议团队，在一个被 Google 和 OpenAI 主导的赛谈上作念出了天下级的效用。这再次解说：在正确的期间门道上，优秀的东谈主才密度不错弥补资源的差距。

Luma 示意，Uni-1 仅仅第一步。下一阶段，这个和洽框架将从静态图像扩张到视频、语音、交互式天下模拟——最终主义是构建能够"看、说、推理、念念象"的和洽多模态系统。

从一个不到 15 东谈主的华东谈主团队开动，这个主义大致并不远处。

Luma AI 官方博客：https://lumalabs.ai/uni-1

* 本文系量子位获授权刊载，不雅点仅为原作家总共。

一键三连「点赞」「转发」「注重心」

宽宥在推敲区留住你的念念法！

— 完 —

� � 点亮星标 � �

科技前沿进展逐日见

上一篇：尊龙国际一种被低估的“心表示药”，还能让大脑更强大，尽然是它！

下一篇：尊龙国际官网彩客科技IPO: 上会前突现功绩“变脸”, 关联方近2.7亿对赌“埋雷”, 钞票权属罪戾拉响募投形式合规警报

热点资讯

推荐资讯

二八杠

尊龙国际黑马图像模子被Nano Banana期间追究东谈主点赞！15东谈主华东谈主小队，DDIM之父&CVPR最好论文作家带队

推荐资讯

热点资讯

推荐资讯

二八杠

尊龙国际 黑马图像模子被Nano Banana期间追究东谈主点赞！15东谈主华东谈主小队，DDIM之父&CVPR最好论文作家带队

推荐资讯

尊龙国际黑马图像模子被Nano Banana期间追究东谈主点赞！15东谈主华东谈主小队，DDIM之父&CVPR最好论文作家带队