Qwen-Image-Edit
综合介绍
Qwen-Image-Edit 是由 Qwen 团队开发的一款开源图像编辑模型,基于 20B 参数的 Qwen-Image 模型打造。它结合了 Qwen2.5-VL 和变分自编码器(VAE),支持图像的语义编辑和外观编辑,同时在文字编辑方面表现出色。用户可以通过简单的文本指令实现图像内容修改、风格转换、物体旋转等功能,同时保持图像的视觉一致性。模型在多个公开基准测试中表现优异,适用于创意设计、虚拟形象创建和艺术作品修正等场景。Qwen-Image-Edit 通过 Hugging Face 平台提供,用户可免费下载和使用,适合开发者、设计师和内容创作者。
体验地址:
https://modelscope.cn/models/Qwen/Qwen-Image-Edit
功能列表
- 语义编辑:修改图像内容,如物体旋转、风格转换和 IP 形象创建,保持整体语义一致。
- 外观编辑:精确添加、删除或修改图像特定区域,如调整背景、服装或物体颜色。
- 精准文字编辑:支持中英文文字的添加、删除和修改,保留原始字体、颜色和风格。
- 新视角生成:实现物体 90 度或 180 度旋转,生成不同视角的图像。
- 链式编辑:通过逐步修正实现复杂图像编辑,如书法作品的字符校正。
- 风格迁移:将图像转换为特定艺术风格,如吉卜力风格,适用于虚拟形象设计。
使用帮助
安装流程
要使用 Qwen-Image-Edit,首先需要安装最新版本的 diffusers
库。以下是安装步骤:
- 确保已安装 Python 3.8 或更高版本。
- 打开终端,运行以下命令安装
diffusers
:pip install git+https://github.com/huggingface/diffusers
- 安装其他依赖库,如 PyTorch 和 Pillow:
pip install torch pillow
- 验证安装:运行
python -c "from diffusers import QwenImageEditPipeline"
,无报错即表示安装成功。
硬件要求:推荐使用支持 CUDA 的 GPU,以加速图像处理。最低配置为 16GB 显存的 GPU 和 32GB 系统内存。
基本使用
Qwen-Image-Edit 通过 Python 脚本调用,结合文本提示词完成图像编辑。以下是一个基本示例,展示如何将图像中的兔子颜色改为紫色并添加闪光背景:
- 准备输入图像:确保有一张待编辑的图像(如
input.png
),格式为 RGB。 - 编写代码:
import os from PIL import Image import torch from diffusers import QwenImageEditPipeline # 加载模型 pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit") pipeline.to(torch.bfloat16) pipeline.to("cuda") pipeline.set_progress_bar_config(disable=None) # 加载图像和设置提示词 image = Image.open("./input.png").convert("RGB") prompt = "Change the rabbit's color to purple, with a flash light background." inputs = { "image": image, "prompt": prompt, "generator": torch.manual_seed(0), "true_cfg_scale": 4.0, "negative_prompt": " ", "num_inference_steps": 50, } # 执行编辑并保存结果 with torch.inference_mode(): output = pipeline(**inputs) output_image = output.images[0] output_image.save("output_image_edit.png") print("image saved at", os.path.abspath("output_image_edit.png"))
- 运行代码:将上述代码保存为
.py
文件,运行后会在同一目录生成编辑后的图像output_image_edit.png
。
特色功能操作
1. 语义编辑
语义编辑适合需要整体内容调整的场景,如物体旋转或风格迁移。操作步骤:
- 准备一张包含目标物体的图像。
- 设置提示词,明确描述修改内容。例如,旋转物体 90 度:
prompt = "Rotate the object 90 degrees to show its side view."
- 调整
num_inference_steps
(推荐 50-100)以提高生成质量。 - 运行代码,检查输出图像是否符合预期。
2. 外观编辑
外观编辑用于精确修改特定区域。操作步骤:
- 使用图像编辑工具(如 Photoshop)标记需要修改的区域,生成掩码图像(可选)。
- 在提示词中描述修改内容,如添加物体:
prompt = "Add a signboard with text 'Welcome' in the center of the image."
- 如果需要更高精度,可提供掩码图像:
inputs["mask_image"] = Image.open("mask.png")
- 运行代码,检查修改区域是否自然融合。
3. 文字编辑
Qwen-Image-Edit 支持中英文文字编辑,保留原始字体风格。操作步骤:
- 准备包含文字的图像,如广告牌或书法作品。
- 设置提示词,明确文字修改内容。例如:
prompt = "Change the text 'Hello' to 'Welcome' in the same font and style."
- 对于中文书法修正,需逐步编辑:
- 先标记错误文字区域(如用红色框)。
- 设置提示词修正单个字符:
prompt = "Replace the character in the red box with '稽'."
- 如果仍有错误,继续标记子区域(如字符“稽”的右下部分),重复修正。
4. 链式编辑
链式编辑适合复杂任务,如书法作品修正。操作步骤:
- 准备初始图像,标记错误区域(如书法中的错字)。
- 使用提示词逐步修正。例如:
prompt = "Correct the character in the red box to '稽'."
- 检查结果,若仍有错误,缩小范围继续修正:
prompt = "Replace the lower-right part of '稽' with '旨'."
- 重复直到满意,保存最终图像。
注意事项
- 提示词优化:提示词需清晰具体,避免模糊描述。例如,“将背景改为蓝色”优于“更改背景”。
- 计算资源:高分辨率图像或复杂编辑需更多显存,建议分步处理。
- 模型更新:定期检查 Hugging Face 页面,确保使用最新模型版本。
应用场景
- 创意设计Qwen-Image-Edit 可用于生成品牌宣传海报、社交媒体内容或艺术作品。用户通过文字指令快速调整图像风格或添加元素,适合营销团队和独立设计师。
- 虚拟形象创建模型支持风格迁移和 IP 形象扩展,如将卡通角色转换为不同艺术风格或生成 MBTI 主题表情包,适用于游戏开发和社交媒体内容创作。
- 艺术作品修正对于书法或插画中的细节错误,链式编辑功能可逐一修正,适合艺术家和文化机构修复数字艺术品。
- 广告内容优化用户可通过文字编辑功能快速修改广告牌文字或调整产品展示背景,提升广告制作效率。
QA
- Qwen-Image-Edit 是否免费?是的,Qwen-Image-Edit 是开源模型,可通过 Hugging Face 免费下载和使用,遵循 Apache 2.0 许可证。
- 需要多强的硬件支持?推荐使用至少 16GB 显存的 GPU 和 32GB 系统内存。CPU 运行可能较慢,不适合复杂任务。
- 如何优化编辑效果?使用清晰的提示词,增加
num_inference_steps
(如 100),并提供掩码图像以提高精度。 - 支持哪些语言的文字编辑?支持中英文文字编辑,能保留原始字体和风格,适合多语言海报或艺术作品。