You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
5.1 KiB
5.1 KiB
AI 模型 Capabilities 数据补充完成
日期: 2026-02-13
任务: 补充图片和视频模型的 capabilities 配置
参考文档:
✅ 已完成工作
1. 图片模型补充(新增)
| 模型系列 | 模型名称 | 关键能力 |
|---|---|---|
| OpenAI | gpt-image-1, gpt-image-1-mini |
size, quality, input_fidelity, output_format, n |
| Google Imagen | imagen-4.0-ultra, imagen-4.0, imagen-4.0-fast, imagen-3.0 |
size (1K/2K/4K/auto), quality, n |
| Qwen | qwen-image-edit |
图像编辑模式,支持 erase/repaint/variation |
| Flux | FLUX.1-Kontext-pro |
aspect_ratio, safety_tolerance, n |
| iRAG | irag-1.0, ernie-irag-edit |
guidance, watermark, 图像编辑 |
| Ideogram | V3 |
aspect_ratio (7 种比例), rendering_speed |
2. 视频模型补充(新增)
| 模型系列 | 模型名称 | 分辨率支持 | 时长支持 |
|---|---|---|---|
| Wan 2.6 | wan2.6-t2v, wan2.6-i2v |
480P/720P/1080P (13 种尺寸) | 5s, 10s |
| 即梦 3.0 | jimeng-3.0-720p, jimeng-3.0-1080p, jimeng-3.0-pro |
720P/1080P | 5s, 10s (Pro) |
| Veo 快速 | veo-3.1-fast-generate-preview |
720P, 1080P | 4s, 6s, 8s |
3. 数据库更新统计
| 项 | 数量 |
|---|---|
| 已更新模型 | 10 个 |
| 跳过模型(音频/文本) | 12 个 |
| 总配置模型 | 29 种(图片 + 视频) |
📊 完整模型清单
图片模型(19 个)
OpenAI 系列
- ✅
dall-e-3 - ✅
gpt-image-1.5 - ✅
gpt-image-1 - ✅
gpt-image-1-mini
Google Imagen 系列
- ✅
imagen-4.0-ultra-generate-001 - ✅
imagen-4.0-generate-001 - ✅
imagen-4.0-fast-generate-001 - ✅
imagen-4.0-fast-generate-preview-06-06 - ✅
imagen-3.0-generate-002
Qwen 系列
- ✅
qwen-image - ✅
qwen-image-edit
Doubao 系列
- ✅
doubao-seedream-4-5 - ✅
doubao-seedream-4-0
Flux 系列
- ✅
flux-2-flex - ✅
flux-2-pro - ✅
FLUX.1-Kontext-pro
iRAG 系列
- ✅
irag-1.0 - ✅
ernie-irag-edit
Ideogram 系列
- ✅
V3
视频模型(10 个)
OpenAI Sora 系列
- ✅
sora-2 - ✅
sora-2-pro
Google Veo 系列
- ✅
veo-3.1-generate-preview - ✅
veo-3.0-generate-preview - ✅
veo-3.1-fast-generate-preview
万相 Wan 系列
- ✅
wan2.2-t2v-plus - ✅
wan2.2-i2v-plus - ✅
wan2.5-t2v-preview - ✅
wan2.5-i2v-preview - ✅
wan2.6-t2v - ✅
wan2.6-i2v
即梦 Jimeng 系列
- ✅
jimeng-3.0-720p - ✅
jimeng-3.0-1080p - ✅
jimeng-3.0-pro
🎯 关键特性说明
1. 尺寸格式
| 格式类型 | 模型 | 示例 |
|---|---|---|
| 固定尺寸 | DALL-E, Sora | 1024x1024, 1280x720 |
| 档位格式 | Veo | 720P, 1080P |
| K 格式 | Flux, Imagen, Doubao | 1K, 2K, 4K, auto |
| 星号格式 | Qwen, iRAG | 1024*1024, 768*1024 |
2. 参考图片支持
| 数量 | 模型 |
|---|---|
| 1 张 | 大部分模型 |
| 2 张 | Doubao 4-5/4-0(多图融合) |
| 5 张 | Flux 2 Flex |
3. 特殊能力
| 能力 | 模型 | 说明 |
|---|---|---|
| 组图生成 | Doubao 4-5 | 最多 15 张 |
| 图像编辑 | Qwen Image Edit, iRAG Edit | erase/repaint/variation |
| 宽高比 | Flux, Ideogram | 原生支持 aspect_ratio 参数 |
| 安全宽松度 | Flux | safety_tolerance (0-6) |
🚀 使用建议
前端调用示例
// 简单模式(使用适配器)
await generateImage({
model: 'flux-2-pro',
prompt: '一只猫在草地上',
resolution: '1024', // 统一参数
aspectRatio: '16:9', // 统一参数
quality: 'high' // 统一参数
})
// 高级模式(模型特定参数)
await generateImage({
model: 'dall-e-3',
prompt: '一只猫在草地上',
size: '1792x1024', // DALL-E 特定格式
quality: 'hd',
input_fidelity: 'high'
})
适配器工厂支持
已实现的适配器:
- ✅
SoraAdapter- Sora 2/2 Pro - ✅
VeoAdapter- Veo 3.0/3.1/3.1-fast - ✅
FluxAdapter- Flux 2 Pro/Flex/Kontext - ✅
OpenAIAdapter- DALL-E 3, GPT Image 系列
待扩展:
- 🔲
WanAdapter- Wan 2.2/2.5/2.6 系列 - 🔲
JimengAdapter- 即梦 3.0 系列 - 🔲
ImagenAdapter- Imagen 4.0 系列
📁 相关文件
| 文件 | 说明 |
|---|---|
server/scripts/migrate_model_capabilities.py |
迁移脚本(已更新 29 种模型配置) |
server/app/models/ai_model.py |
AIModel 模型(包含 capabilities JSONB 字段) |
server/app/services/ai_adapters/ |
适配器实现(4 个适配器) |
docs/server/rfcs/144-ai-models-capability-config.md |
RFC 144 原始文档 |
✅ 验证
执行迁移脚本结果:
docker exec jointo-server-app python scripts/migrate_model_capabilities.py
# 输出
- 已更新: 10 个模型
- 已跳过: 12 个模型(音频/文本)
所有图片和视频模型的 capabilities 已成功同步到数据库!
实施人: Claude
审核状态: ✅ 数据迁移完成