HiDream-O1-Image-1.5 – 智象未来推出的商用版图像生成模型

HiDream-O1-Image-1.5智象未来推出的商用版图像生成模型，在Artificial Analysis全球文生图榜单中评分1265ELO，位列中国第一、全球第二(仅次于OpenAI)，采用原生全模态架构(UiT)实现像素级统一表征，彻底剔除传统模型中的VAE和独立文本编码器，从而在文字渲染、多主体一致性、复杂排版等商业场景中实现生产级稳定交付能力，标志着中国大模型首次在高端图像生成领域进入全球第一梯队。

HiDream-O1-Image-1.5核心特点

1. 原生全模态架构创新

单一共享Token空间：将图像像素、文本Token、视频体素等原始信号直接映射至同一表征空间，由统一的Unified Transformer（UiT）完成端到端理解与生成，避免传统模块化路径中的信息转换损耗。
无VAE与独立文本编码器：彻底摒弃潜空间压缩环节，直接在原始像素空间进行扩散去噪，消除高频细节丢失与图文语义错位问题。

2. 商业场景强适配能力

复杂文字渲染：支持中英文混排、多级标题、数字公式等密集文本场景，文字可读性与排版稳定性显著优于主流模型。
多主体一致性控制：在4-11个复杂主体组合场景中保持角色、服饰、空间关系的逻辑统一，解决传统模型常见的属性错位问题。
视觉叙事能力：可生成逻辑连贯的多宫格分镜，自动维持角色形象、场景逻辑与视觉风格的一致性。

3. 高分辨率原生生成

2048×2048原生分辨率端到端输出：无需多阶段超分或后处理，直接生成电影级画质图像，避免压缩重建导致的色彩边界伪影。

HiDream-O1-Image-1.5技术原理

1. 像素级统一表征系统

跨模态直接对齐：文本Token可直接关联像素块坐标值，像素块亦能反向关注文本语义，实现底层表示空间的无缝交互。
任务条件零切换：通过共享Token空间内的任务标识符区分文生图、指令编辑、主体个性化等任务，无需加载LoRA或ControlNet插件。

2. 推理驱动生成机制

Prompt Agent预解析：生成前自动启动思维链推理，深度解析空间布局、物理逻辑与文本排版需求，将模糊指令重写为高精度控制指令。
指令驱动编辑：支持通过--ref_images传入参考图，结合自然语言指令实现移除物体、风格迁移等精准修改，无需额外训练。

3. 参数高效架构设计

8B参数实现跨量级性能：商用版HiDream-O1-Image-1.5在GenEval、HPSv3等六项基准测试中全面超越56B参数的FLUX.2等模型，参数效率提升3–7倍。
多任务统一权重：文生图、编辑、个性化等任务共享同一套参数，避免传统模型需切换不同模块的冗余计算。