当前位置: 首页 > news >正文

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

4.3. 预训练Z-Image 采用流匹配目标函数 [44, 48] 进行训练:首先通过高斯噪声
x
0

与原始图像
x
1

的线性插值构造带噪输入,即
x
t

=t⋅x
1

+(1−t)⋅x
0

;随后训练模型预测定义二者间路径的向量场的速度(即
v
t

=x
1

−x
0

)。训练目标可表示为:
L=E
t,x
0

,x
1

,y

[∥u(x
t

,y,t;θ)−(x
1

−x
0

)∥
2
],(1)
其中
θ
是可学习参数,
y
是条件嵌入。我们参考 SD3 [18],采用 logit - 正态噪声采样器将训练过程集中在中间时间步。此外,为应对多分辨率训练设置下信噪比(SNR)的波动,我们借鉴 Flux [34] 所使用的动态时间偏移策略,确保不同图像分辨率下的噪声水平得到合理缩放,从而提升训练效果。Z-Image 的预训练大致分为两个阶段:低分辨率预训练和全尺度预训练。

http://www.cnnetsun.cn/news/79406.html

相关文章:

  • Blender版本管理技巧:从新手到高手的全流程指南
  • F5-TTS移动端部署终极指南:5大技巧实现70%内存优化与性能飞跃
  • DataX Web UI:企业数据同步的终极可视化解决方案
  • 系统可观测性实战指南:从混乱日志到智能洞察的架构进化
  • 分布式训练终极指南:同步与异步策略深度解析
  • 一根同轴线,真的扛得住 4K 吗? ——从摄像头带宽算起,聊透车载 SerDes 接口选型
  • 掌握质谱分析:OpenMS完整使用指南与实战技巧
  • CloudStream智能文件管理:告别杂乱无章的媒体库
  • CopyQ剪贴板管理终极指南:3个核心技巧打造高效工作流
  • Linly-Talker数字人系统对网络带宽的要求分析
  • ExoPlayer状态恢复:如何让视频播放器记住你的“续播点“?
  • MSBuild BuildCheck框架:构建质量革命与团队效率提升终极指南
  • Wechaty智能消息处理全攻略:告别单一回复,实现多场景精准响应
  • Langchain-Chatchat在企业知识管理中的5大应用场景
  • Arkime性能监控完整教程:构建企业级流量分析平台
  • 秒开体验:SmartTube视频缩略图加载与缓存优化实战
  • 20、GNU Make标准库函数详解
  • 21、GNU Make 标准库实用功能与使用技巧详解
  • HyperLPR3实战指南:快速搭建高精度车牌识别系统
  • 当AI患上“健忘症“:MemGPT如何用AWS Bedrock Claude打造过目不忘的智能助手
  • SmartTube视频缩略图优化:3大策略让加载速度提升5倍
  • Excalidraw GitHub Actions工作流配置示例
  • COCO 2017 数据集完整下载指南:百度网盘高速通道
  • 6、文件操作全攻略
  • 9、Mac OS X 文件系统管理全解析
  • 16、Linux 命令行实用操作指南
  • Excalidraw金融建模辅助:业务逻辑图快速呈现
  • 3步构建gperftools性能监控系统实战指南
  • 5个AdGuardHome性能翻倍的隐藏技巧:从基础配置到深度优化
  • CloudStream下载目录管理:从混乱到有序的进阶指南