HiDream-O1-Image是由智象未来在 2026年4月正式发布的新一代原生全模态图像大模型。HiDream-O1-Image的核心定位是“基于原生全模态架构(UiT)的电影级画质生成器”。该模型在合肥举行的第四届中国(安徽)科技创新成果转化交易会上首次亮相,旨在通过统一的Transformer架构,实现图像与视频训练的深度协同,提供极具真实感与细节表现力的视觉生成能力。

HiDream-O1-Image核心架构与模型版本
HiDream-O1-Image最大的技术亮点在于其底层架构的革新,摆脱了传统扩散模型(Diffusion)的单一限制:
- 原生全模态架构 (UiT):采用了基于原生全模态的Transformer (UiT) 架构。这种架构天生支持多模态信息的统一处理,能够更好地理解文本、图像与视频之间的深层关联,为高质量的跨模态生成打下基础。
- 双版本策略:
- 闭源版本:参数量达到千亿级别,在多项业界标准基准测试中展现了顶尖的性能表现。
- 开源版本:同期发布了一个 8B(80亿) 参数量的开源版本。该版本在基准测试中的表现与同量级模型相近,且完美适配本地部署和低代码智能体调用,极大降低了开发者和普通用户的使用门槛。
HiDream-O1-Image核心能力与应用场景
结合 HiDream 系列模型的技术特性,HiDream-O1-Image在视觉生成与编辑领域具备极强的实战能力:
- 电影级画质生成:模型在人物细节、光影质感以及复杂场景的构建上表现优异,能够生成极具真实感的“电影级”画面。
- 强大的图像一致性编辑:HiDream系列在“图生图”和图像编辑任务中展现了惊人的一致性(Consistency)。无论是更换背景、增减物体、改变光线色调,还是修改人物表情与动作,它都能最大程度地保留原图的核心特征(如人脸ID、主体轮廓),解决了传统AI绘图“牵一发而动全身”的痛点。
- 精准的文本与细节控制:支持复杂的视觉文本生成(如 CVTG-2K 基准测试),能够准确地在图像中生成指定的文字内容,并对局部细节进行像素级的精准操控。
HiDream-O1-Image技术定位与竞品对比
在当前的开源与闭源生图模型竞争中,HiDream-O1-Image凭借其UiT架构占据了独特的生态位:
表格
| 对比维度 | HiDream-O1-Image | 传统主流生图模型 (如 Flux/SD3) |
|---|---|---|
| 底层架构 | 原生全模态 Transformer (UiT) | 主要是 Diffusion Transformer (DiT) 或 U-Net |
| 核心优势 | 图像与视频训练协同,多模态理解更深 | 在单一图像生成任务上积累深厚 |
| 部署灵活度 | 提供8B开源版,支持本地与低代码调用 | 同样具备丰富的开源生态 |
简单来说
HiDream-O1-Image代表了智象未来在原生全模态世界模型方向上的重要落地。对于追求极致画质、需要高度一致性的图像编辑,以及希望在本地部署高质量生图模型的开发者而言,HiDream-O1-Image(尤其是其8B开源版本)是一个非常值得关注的前沿选择。
HiDream-O1-Image的项目地址
- GitHub仓库:https://github.com/HiDream-ai/HiDream-O1-Image
- HuggingFace模型库:https://huggingface.co/HiDream-ai/HiDream-O1-Image
- 技术论文:https://github.com/HiDream-ai/HiDream-O1-Image/blob/main/assets/HiDream-O1-Image.pdf
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



