当前位置: 首页 > news >正文

智普GLM-TTS开源:可控且富含情感的零样本语音合成模型

GLM-TTS 是智谱 AI(Zhipu AI)CogAudio 团队开发的开源文本到语音(TTS)合成系统,是 GLM 系列的语音扩展,于 2025 年发布。

GLM-TTS 的核心目标是解决传统 TTS 在情感表达、发音准确性和实时性上的瓶颈:早期模型虽高效但缺乏自然韵律,而 GLM-TTS 通过多奖励强化学习(GRPO)实现人类级别的表达力和稳定性,支持从 3-10 秒参考音频克隆声音。

开源地址:

github

https://github.com/zai-org/GLM-TTS

huggingface

https://huggingface.co/zai-org/GLM-TTS

modelscope

https://modelscope.cn/models/ZhipuAI/GLM-TTS

在线体验: https://audio.z.ai/

1.部署环境

环境

版本

ubuntu-24.04.3 Server

release 10.0

Cuda

12.8

显卡 RTX 2080 Ti 22G

驱动 NVIDIA-Linux-x86_64-580.105.08

uv

0.9.13

内存

32G

请提前安装好 显卡驱动,cuda版本最好是 12.8。

# 我使用 python 3.12 没有成功 # 因为 Python 3.12 环境中 很多扩展包还没有预编译 wheel,需要从源码 build。 # 而 pynini 多数情况下 不支持 Python 3.12,官方 wheel 最多到 Python 3.10。 conda create -n glmtts python=3.10 conda activate glmtts # 接下来会使用pip安装依赖,所以添加国内加速 (glmtts) pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple/ # 设置全局代理 git config --global http.proxy http://192.168.6.120:7897 git config --global https.proxy http://192.168.6.120:7897 # 查看配置 git config -l # 克隆源码 git clone https://github.com/zai-org/GLM-TTS.git cd GLM-TTS

92.168.6.120 是一台windows机器,安装了 Class Verge ,通过它加速访问github。

git 代理指向了这个机器,要通过192.168.6.120 代理到github, Class Verge 必须要允许局域网连接(默认是关闭的)

2.安装依赖

cd ~/GLM-TTS # 编译 pynini 的时候,会用到 Cython pip install --upgrade pip setuptools wheel Cython soxr pip install -r requirements.txt # 安装强化学习相关依赖(可选) cd grpo/modules git clone https://github.com/s3prl/s3prl git clone https://github.com/omine-me/LaughterSegmentation # 从 modelscope下载 pip install modelscope # 下载 wavlm_large_finetune.pth 并放置在 grpo/ckpt 目录 cd ~/GLM-TTS mkdir -p ckpt modelscope download --model ZhipuAI/GLM-TTS --local_dir ckpt

3.启动交互式Web界面

python -m tools.gradio_app

启动后,会开启服务器 8048 端口: http://192.168.6.133:8048/

  • 上传声音样本

  • 输入要转换的文本

  • 生成音频

http://www.cnnetsun.cn/news/38393.html

相关文章:

  • Battery Toolkit:让你的Mac电池寿命延长3年的秘密武器
  • 5分钟掌握SeedVR2-7B:零门槛实现专业级视频修复的完整指南
  • 32、Django Web应用开发实战
  • Blueprint CSS跨浏览器兼容性:打造完美用户体验的终极方案
  • 34、Python 数据持久化:从简单到关系型序列化
  • AFLplusplus深度实战:解锁企业级模糊测试的终极配置
  • 5步掌握Expo项目架构:从零开始构建跨平台应用
  • 14、树莓派的多功能应用:从搭建服务器到控制机器人
  • Aviator预测系统实战指南:从新手到高手的5个关键步骤
  • 16、树莓派的相机应用与外星信号搜索指南
  • 掌握Langflow自定义组件开发与插件集成的完整攻略
  • 【C++】无序容器unordered_set和unordered_map的使用
  • 全面测试QtSql操作PostgreSQL数据库时戳字段的行为
  • 7、深入探索 NCurses 键盘交互:功能与应用
  • 13、NCurses绘图与屏幕数据存储功能详解
  • Apple Safari 26.2 发布 - macOS 专属浏览器 (独立安装包下载)
  • Microsoft System Center 2025 UR1 发布 - Windows 服务器管理软件
  • 从计划到报告:软件测试文档全流程精要
  • StarRocks 2.5.22 混合部署实战文档(CDH环境)
  • 14、深入探索RDF模板与树结构的应用
  • 20、数据到图形的转换:从 XSLT 到交互式可视化
  • Arkime YARA规则实战:构建企业级网络威胁检测体系
  • InfluxDbTemplate使用文档
  • Pyomo优化建模终极指南:从概念到实战应用
  • 开源客服系统终极指南:如何快速部署osTicket提升客户服务效率
  • Qsign签名API:Windows平台QQ机器人验证终极解决方案
  • 74.6%准确率刷新纪录:快手KAT-Dev-72B-Exp重构开源代码生成生态
  • jQuery Mobile滑块组件实战指南:解决移动端触控交互的5大痛点
  • 管家婆软件年结存后快马商城操作注意事项
  • DevToys开发工具箱完全手册:跨平台终极效率提升方案