HiDream-O1-Image-Pro – 智象未来发布的图像生成大模型

HiDream-O1-Image-Pro是智象未来发布的超2000亿参数原生全模态图像生成大模型，采用全球首创的像素级统一Transformer(UiT)架构，彻底摒弃传统VAE压缩与独立文本编码器，将原始图像像素、文本标记及任务条件直接映射至同一连续共享标记空间

在通用文生图、高保真文字渲染、多主体一致性生成等任务上达到SOTA水平，专为影视级内容创作与商业规模化落地设计。其核心突破在于通过架构革新实现跨模态信息零损耗交互，使AI从“图片生成工具”升级为“视觉叙事引擎”。

1. 原生全模态统一架构

摒弃传统模块化设计：不同于主流模型依赖VAE压缩图像、独立文本编码器处理语言的“三段式管线”，UiT架构直接在原始像素空间进行端到端生成，消除潜空间转换导致的高频细节丢失与图文语义错位问题。
单一共享标记空间：将图像像素块、文本Token、控制条件统一映射至连续共享标记空间，使文本语义可直接关联每个像素的位置与颜色值，实现跨模态底层表征的深度融合。

2. 超大规模参数与任务泛化

参数量突破2000亿：闭源Pro版本参数规模远超开源版HiDream-O1-Image（8B），显著提升复杂场景建模能力，尤其在长文本渲染、多主体一致性、多分镜连贯性等任务中表现突出。
多任务零切换能力：同一套权重同时支持文生图、指令编辑、主体驱动个性化、多分镜生成等任务，无需额外加载LoRA或ControlNet模块。

1. 性能与效率突破

高保真文字渲染：在LongText-Bench中文测试中得分0.978（GPT Image 2为0.961），可精准生成直播带货画面中的商品名称、价格标签、促销文案等密集文字，字符结构还原误差率低于2%。
多主体复杂组合稳定性：在UniSubject评测中，对4-11个主体（人物、服饰、道具等）的组合场景生成保持高度一致性，属性错位率比Qwen-Image低37%，适用于商品组合展示与IP形象扩展。

2. 视觉叙事能力升级

多分镜连贯生成：支持单次推理输出多宫格故事板，角色在远景→中景→近景切换中保持身份、服装与场景逻辑一致，动作过渡自然，满足影视分镜设计需求。
先推理后生成机制：内置基于Gemma 4的“推理智能体”，生成前自动解析用户指令中的空间布局、物理逻辑与主体属性，将模糊描述转化为高精度控制指令，降低专业级图像生成门槛。

1. UiT架构核心机制

像素级端到端扩散：直接在原始像素空间执行扩散去噪，避免VAE压缩重建导致的细节损失与颜色边界伪影，支持2048×2048分辨率原生输出，无需超分后处理。
跨模态直接对齐：通过自注意力机制，文本Token可直接关联任意像素块的坐标值，像素块亦能反向关联文本语义，实现图文信息在底层表示空间的实时交互。

2. 数据与训练创新

专用数据引擎：构建异构数据转换流水线，将原始图文对、编辑三元组、主体-参考样本统一为高质量训练数据，强化复杂任务泛化能力。
Guidance Distillation加速：通过知识蒸馏技术，以Full版为教师模型训练快速推理版本，在28步内直接学习CFG增强分布，显著提升生成效率。

1. 专业影视创作

全流程分镜生成：影视创作智能体“帧赞”1.0基于此模型，贯通“创意→分镜→成片”全流程，已累计制作超5000分钟短漫剧，支持电影级画质输出与角色动作连贯性控制。
动态镜头规划：生成角色从奔跑、停顿到操作设备的多分镜序列，保持服装材质、场景光影逻辑一致，替代传统手绘分镜草图。

2. 商业营销与社媒内容

跨境电商视频批量生产：商业营销智能体HiBurst利用其文字渲染能力，1分钟内生成含精准价格标签、促销文案的TikTok广告视频，年产量超百万条，覆盖GMV破亿元。
社媒爆款内容创作：社媒智能体vivago 3.0通过该模型实现秒级特效生成（较前代提速60倍），支持直播带货画面中商品信息与用户评论的实时叠加，已服务超4000万用户。

3. 高精度行业应用