aduib-diffsynth

图片编辑功能实现说明

📝 概述

已成功为 Text-to-Image API 添加图片编辑功能。该功能允许用户上传图片或指定图片路径，并使用 AI 模型根据文本提示词对图片进行编辑。

✨ 新增功能

1. API 接口

在 controllers/text_to_image.py 中新增了以下接口：

`/text-to-image/edit` (POST)

功能: 上传图片进行编辑
请求类型: multipart/form-data
参数:
- input_image: 上传的图片文件 (必填)
- prompt: 编辑提示词 (必填)
- negative_prompt: 负向提示词 (可选)
- model_type: 模型类型 (默认: Qwen-Image-Edit-2509)
- width, height: 图像尺寸 (默认: 1024x1024)
- num_inference_steps: 推理步数 (默认: 50)
- guidance_scale: 引导系数 (默认: 4.5)
- seed: 随机种子 (可选)
- lora_model: LoRA模型 (可选)
- offload_model: 是否卸载模型节省显存 (默认: false)

`/text-to-image/edit-by-path` (POST)

功能: 通过服务器路径编辑图片
请求类型: application/json
参数:
- input_image_path: 输入图片的服务器路径 (必填)
- 其他参数与 /edit 接口相同

2. 数据模型

新增了以下 Pydantic 模型：

ImageEditRequest: 图片编辑请求参数模型
ImageEditResponse: 图片编辑响应模型
ImageEditByPathRequest: 路径编辑请求参数模型

3. 核心功能

✅ 支持多种图片格式 (JPEG, PNG, BMP, WebP)
✅ 自动调整图片尺寸
✅ 临时文件自动清理
✅ 完整的错误处理
✅ 支持自定义输出路径
✅ 集成现有的模型管理系统
✅ 支持 LoRA 模型微调
✅ 支持低显存模式

📁 文件变更

修改的文件

controllers/text_to_image.py: 添加图片编辑接口

新增的文件

docs/IMAGE_EDITING_API.md: 图片编辑API完整文档
test/test_image_editing_api.py: API测试脚本

🚀 使用方法

方法1: 使用 Python requests

import requests

# 上传图片编辑
url = "http://localhost:8000/text-to-image/edit"
files = {'input_image': open('image.jpg', 'rb')}
data = {
    'prompt': '把天空变成日落的颜色',
    'width': 1024,
    'height': 1024,
    'num_inference_steps': 50
}
response = requests.post(url, files=files, data=data)
result = response.json()
print(f"编辑后的图片: {result['image_path']}")

方法2: 使用 cURL

curl -X POST "http://localhost:8000/text-to-image/edit" \
  -H "Content-Type: multipart/form-data" \
  -F "input_image=@image.jpg" \
  -F "prompt=把天空变成日落的颜色" \
  -F "width=1024" \
  -F "height=1024"

方法3: 通过路径编辑

import requests

url = "http://localhost:8000/text-to-image/edit-by-path"
payload = {
    "input_image_path": "/path/to/image.jpg",
    "prompt": "添加梦幻光斑效果",
    "width": 1024,
    "height": 1024
}
response = requests.post(url, json=payload)
result = response.json()

方法4: 运行测试脚本

# 准备测试图片
cp your_image.jpg test_image.jpg

# 运行测试
python test/test_image_editing_api.py

🔧 技术细节

依赖关系

图片编辑功能依赖于：

diffsynths/text_to_image.py 中的 edit_image() 函数
FastAPI 的文件上传功能 (UploadFile, File, Form)
PIL/Pillow 图像处理库

工作流程

接收请求: API 接收上传的图片或图片路径
临时存储: 上传的图片保存到临时文件
模型加载: 如需要，加载或切换图像编辑模型
图像处理: 调整图片尺寸至目标分辨率
AI编辑: 使用模型和提示词编辑图片
保存结果: 将编辑后的图片保存到输出目录
清理资源: 删除临时文件
返回结果: 返回编辑后图片的路径

输出目录

默认输出目录: outputs/image_edit/
文件命名: UUID.png (如 12345678-1234-5678-1234-567812345678.png)
可通过 output_path 参数自定义输出路径

📚 文档

完整API文档: docs/IMAGE_EDITING_API.md
交互式文档: http://localhost:8000/docs (启动服务后访问)
原有功能文档: docs/IMAGE_EDITING_FEATURE.md

🧪 测试

运行测试脚本验证功能：

# 确保API服务正在运行
python app.py &

# 运行测试
python test/test_image_editing_api.py

⚙️ 配置建议

显存优化

显存充足: offload_model=false
显存不足 (<8GB): offload_model=true

速度与质量平衡

快速预览: num_inference_steps=20-30
标准质量: num_inference_steps=50 (推荐)
最高质量: num_inference_steps=80-100

引导系数调整

自然效果: guidance_scale=3.0-4.5
标准效果: guidance_scale=4.5-6.0
强烈效果: guidance_scale=6.0-8.0

🔄 与现有功能的集成

图片编辑功能完全集成到现有的 Text-to-Image API 中：

✅ 共享模型管理系统
✅ 使用相同的路由前缀 /text-to-image
✅ 兼容现有的加载/卸载模型接口
✅ 统一的错误处理机制
✅ 一致的响应格式

⚠️ 注意事项

首次运行: 首次使用会自动下载模型，可能需要较长时间和足够的磁盘空间
显存需求: 图片编辑通常比文生图需要更多显存，建议至少 8GB
图片格式: 输入支持多种格式，输出固定为 PNG 格式
文件大小: 上传的图片会被调整为指定尺寸，建议不超过 10MB
安全性: 生产环境建议添加文件类型验证和大小限制

🎯 下一步

可以考虑的扩展功能：

📞 支持

如有问题或建议，请查看：

API交互式文档: http://localhost:8000/docs
完整文档: docs/IMAGE_EDITING_API.md
原有文档: docs/IMAGE_EDITING_FEATURE.md

更新时间: 2025-12-10 版本: v1.0.0

This site is open source. Improve this page.