ERNIE-Image – 百度文心大模型团队开源的一款文生图模型

ERNIE-Image是由百度文心大模型团队开发并正式开源的一款高性能文生图模型。它凭借出色的中文理解能力和高效的架构设计,在开源后迅速获得了广泛关注。
百度文心大模型团队开源的一款文生图模型

ERNIE-Image亮点与性能

在SuperCLUE于2026年4月发布的中文文生图模型测评中,ERNIE-Image以76.37分的总成绩位居国内第一,在全球主流模型中也排名前列,展现出与国内其他顶尖模型相当的强劲实力。

其核心优势体现在以下两个方面:

  1. 卓越的中文场景能力
    • 图文一致性:在理解复杂中文指令、还原描述细节方面表现稳定,得分位居国内榜首
    • 汉字生成:在图像中精准渲染汉字的能力尤为突出,无论是海报排版还是漫画分镜,都能保证文字的清晰度和笔画准确性,得分同样位列国内第一
  2. 高效的轻量级架构
    • 模型参数量仅为 80亿(8B),基于先进的DiT(Diffusion Transformer)架构设计
    • 得益于其高效的设计,仅需 24GB显存的消费级显卡 即可流畅运行,并能生成媲美顶级商业模型的复杂、高质量图像,大幅降低了部署和使用门槛

ERNIE-Image技术特性与应用

  • 多语言支持:除中文,还支持英文、日文、韩文等多种语言的生成
  • 风格多样:能够生成写实摄影、动漫、电影感胶片、分镜截图等多种视觉风格的图像
  • 复杂任务处理:能够处理包含多主体关系、复杂细节约束和较多知识的描述,适用于海报设计、学术图表生成、漫画创作等需要强控制力的内容生产场景

ERNIE-Image如何获取与使用

ERNIE-Image的模型权重和推理代码已在Hugging Face平台全部开源,并遵循Apache 2.0协议,开发者可以自由使用和集成
  • 项目官网:https://ernie.baidu.com/blog/posts/ernie-image/
  • HuggingFace模型库
    • https://huggingface.co/baidu/ERNIE-Image
    • https://huggingface.co/Baidu/ERNIE-Image-Turbo

如何使用ERNIE-Image

  • 环境准备:确保本地环境配备 24GB 或以上显存的 NVIDIA 显卡,安装 Python 3.8+ 并配置 transformers>=4.50.0torchdiffusers 等依赖库。
  • 加载标准版模型:通过 DiffusionPipeline.from_pretrained("Baidu/ERNIE-Image", torch_dtype=torch.float16, trust_remote_code=True) 加载 8B 参数模型并移至 CUDA 设备,适用于 50 步高质量生成场景。
  • 加载 Turbo 版模型:通过 DiffusionPipeline.from_pretrained("Baidu/ERNIE-Image-Turbo", torch_dtype=torch.float16, trust_remote_code=True) 加载蒸馏版模型,支持 8 步快速推理以满足草稿迭代需求。
  • 执行基础文生图:调用 pipe(prompt="描述文本", num_inference_steps=50, guidance_scale=7.5, height=1024, width=1024) 传入文本提示与参数,返回的图像对象调用 .images[0] 获取结果并保存。
  • 使用智能提示增强:系统内置的 Prompt Enhancer 会自动将简短输入扩展为结构化描述,无需手动编写复杂提示词即可提升生成质量。
  • 调用图像编辑功能:使用 pipe.edit(prompt="修改指令", image=原图, mask=遮罩) API 对指定区域进行局部重绘,实现基于掩码的精准内容修改。
  • 启用低显存模式:当显存不足 24GB 时,添加 device_map="auto" 或调用 pipe.enable_sequential_cpu_offload() 实现层卸载,在消费级显卡上完成推理。
© 版权声明

相关文章

暂无评论

none
暂无评论...