ERNIE-Image是由百度文心大模型团队开发并正式开源的一款高性能文生图模型。它凭借出色的中文理解能力和高效的架构设计,在开源后迅速获得了广泛关注。

ERNIE-Image亮点与性能
在SuperCLUE于2026年4月发布的中文文生图模型测评中,ERNIE-Image以76.37分的总成绩位居国内第一,在全球主流模型中也排名前列,展现出与国内其他顶尖模型相当的强劲实力。
其核心优势体现在以下两个方面:
- 卓越的中文场景能力
- 图文一致性:在理解复杂中文指令、还原描述细节方面表现稳定,得分位居国内榜首。
- 汉字生成:在图像中精准渲染汉字的能力尤为突出,无论是海报排版还是漫画分镜,都能保证文字的清晰度和笔画准确性,得分同样位列国内第一。
- 高效的轻量级架构
- 模型参数量仅为 80亿(8B),基于先进的DiT(Diffusion Transformer)架构设计。
- 得益于其高效的设计,仅需 24GB显存的消费级显卡 即可流畅运行,并能生成媲美顶级商业模型的复杂、高质量图像,大幅降低了部署和使用门槛。
ERNIE-Image技术特性与应用
- 多语言支持:除中文,还支持英文、日文、韩文等多种语言的生成。
- 风格多样:能够生成写实摄影、动漫、电影感胶片、分镜截图等多种视觉风格的图像。
- 复杂任务处理:能够处理包含多主体关系、复杂细节约束和较多知识的描述,适用于海报设计、学术图表生成、漫画创作等需要强控制力的内容生产场景。
ERNIE-Image如何获取与使用
- 项目官网:https://ernie.baidu.com/blog/posts/ernie-image/
- HuggingFace模型库:
- https://huggingface.co/baidu/ERNIE-Image
- https://huggingface.co/Baidu/ERNIE-Image-Turbo
如何使用ERNIE-Image
- 环境准备:确保本地环境配备 24GB 或以上显存的 NVIDIA 显卡,安装 Python 3.8+ 并配置
transformers>=4.50.0、torch、diffusers等依赖库。 - 加载标准版模型:通过
DiffusionPipeline.from_pretrained("Baidu/ERNIE-Image", torch_dtype=torch.float16, trust_remote_code=True)加载 8B 参数模型并移至 CUDA 设备,适用于 50 步高质量生成场景。 - 加载 Turbo 版模型:通过
DiffusionPipeline.from_pretrained("Baidu/ERNIE-Image-Turbo", torch_dtype=torch.float16, trust_remote_code=True)加载蒸馏版模型,支持 8 步快速推理以满足草稿迭代需求。 - 执行基础文生图:调用
pipe(prompt="描述文本", num_inference_steps=50, guidance_scale=7.5, height=1024, width=1024)传入文本提示与参数,返回的图像对象调用.images[0]获取结果并保存。 - 使用智能提示增强:系统内置的 Prompt Enhancer 会自动将简短输入扩展为结构化描述,无需手动编写复杂提示词即可提升生成质量。
- 调用图像编辑功能:使用
pipe.edit(prompt="修改指令", image=原图, mask=遮罩)API 对指定区域进行局部重绘,实现基于掩码的精准内容修改。 - 启用低显存模式:当显存不足 24GB 时,添加
device_map="auto"或调用pipe.enable_sequential_cpu_offload()实现层卸载,在消费级显卡上完成推理。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



