HiDream-O1-Image – 智象未来发布的新一代原生全模态图像大模型

HiDream-O1-Image是由智象未来在 2026年4月正式发布的新一代原生全模态图像大模型。HiDream-O1-Image的核心定位是“基于原生全模态架构（UiT）的电影级画质生成器”。该模型在合肥举行的第四届中国(安徽)科技创新成果转化交易会上首次亮相，旨在通过统一的Transformer架构，实现图像与视频训练的深度协同，提供极具真实感与细节表现力的视觉生成能力。

HiDream-O1-Image核心架构与模型版本

HiDream-O1-Image最大的技术亮点在于其底层架构的革新，摆脱了传统扩散模型（Diffusion）的单一限制：

原生全模态架构 (UiT)：采用了基于原生全模态的Transformer (UiT) 架构。这种架构天生支持多模态信息的统一处理，能够更好地理解文本、图像与视频之间的深层关联，为高质量的跨模态生成打下基础。
双版本策略：
1. 闭源版本：参数量达到千亿级别，在多项业界标准基准测试中展现了顶尖的性能表现。
2. 开源版本：同期发布了一个 8B（80亿） 参数量的开源版本。该版本在基准测试中的表现与同量级模型相近，且完美适配本地部署和低代码智能体调用，极大降低了开发者和普通用户的使用门槛。

HiDream-O1-Image核心能力与应用场景

结合 HiDream 系列模型的技术特性，HiDream-O1-Image在视觉生成与编辑领域具备极强的实战能力：

电影级画质生成：模型在人物细节、光影质感以及复杂场景的构建上表现优异，能够生成极具真实感的“电影级”画面。
强大的图像一致性编辑：HiDream系列在“图生图”和图像编辑任务中展现了惊人的一致性（Consistency）。无论是更换背景、增减物体、改变光线色调，还是修改人物表情与动作，它都能最大程度地保留原图的核心特征（如人脸ID、主体轮廓），解决了传统AI绘图“牵一发而动全身”的痛点。
精准的文本与细节控制：支持复杂的视觉文本生成（如 CVTG-2K 基准测试），能够准确地在图像中生成指定的文字内容，并对局部细节进行像素级的精准操控。

HiDream-O1-Image技术定位与竞品对比

在当前的开源与闭源生图模型竞争中，HiDream-O1-Image凭借其UiT架构占据了独特的生态位：

表格

对比维度	HiDream-O1-Image	传统主流生图模型 (如 Flux/SD3)
底层架构	原生全模态 Transformer (UiT)	主要是 Diffusion Transformer (DiT) 或 U-Net
核心优势	图像与视频训练协同，多模态理解更深	在单一图像生成任务上积累深厚
部署灵活度	提供8B开源版，支持本地与低代码调用	同样具备丰富的开源生态

简单来说

GitHub仓库：https://github.com/HiDream-ai/HiDream-O1-Image
HuggingFace模型库：https://huggingface.co/HiDream-ai/HiDream-O1-Image
技术论文：https://github.com/HiDream-ai/HiDream-O1-Image/blob/main/assets/HiDream-O1-Image.pdf