文本转语音巅峰大模型——一键整合包

      最近白嫖的语音克隆额度都用完了,没办法又得用,刚开始把前面语音克隆工具拿出来用了,但发现文本一长吞字太严重,折腾了一下午都没能解决!上了gayhub,想在issue里面看能不能解决这个问题,发现都在反馈这个问题,还有人居然研究了两天都没搞定这个问题。故弃用之!之前分享的夸克网盘链接也取消了。前几天看到Fish Audio 发布了OpenAudio-S1,并开源了其0.5B版本OpenAudio-S1-mini,所以想着能不能用这个替换目前的语音克隆。所以就有了这篇文章。

OpenAudio?Fish Speech?

      大概说下这个关系,Fish Speech改名为OpenAudio,OpenAudio模型基于Fish Speech模型,Fish Audio最新模型名称为OpenAduio-S1。但gayhub上的仓库还是叫Fish Speech,所以最后我们的一键整合包也叫fish_speech。

项目亮点

1. 顶级的合成质量

Fish Speech最新的OpenAudio S1模型在TTS-Arena2上拿到了第一名!这可不是吹的,人家是有真实数据支撑的:

  • 英语文本的词错误率(WER)只有0.008
  • 字符错误率(CER)只有0.004

这个数据意味着什么?就是合成出来的语音几乎和真人说话一样准确!

2. 丰富的情感控制

这个功能真的让我眼前一亮。你可以在文本中加入各种情感标记,比如:

  • 基础情感:(angry) (sad) (excited) (surprised)
  • 高级情感:(disdainful) (anxious) (sarcastic)
  • 语调控制:(whispering) (shouting) (soft tone)
  • 特殊音效:(laughing) (crying loudly) (sighing)

想象一下,你可以让AI用讽刺的语调说话,或者加上笑声,这种可控性真的太棒了(说话实说我不会用,留给大家尝试吧,关键平时也用不到)!

3. 零样本语音克隆

只需要提供一段参考音频,就能克隆出对应的声音。一键包带了40多个内置音色,包括各种风格的中文声音,以及英文音色,应有尽有。

4.跨语种克隆

原样本为中文,想让他说英文,或者其他语言?

这是太乙真人原声

让太乙真人说段英文?

Your joke wasn't funny at all — I was laughing because I choked on chicken feathers!(in a laughing tone)

使用体验分享

部署过程

说实话,非常顺利!

  1. 环境要求我用的是3060显卡+64G内存,完全够用,1060也可以跑起来,但慢一些。
  2. 模型下载https://wxa.wxs.qq.com/tmpl/mr/base_tmpl.htmlopenaudio-s1-mini模型大小适中,下载不算太痛苦。

界面使用

项目提供了两种使用方式:

WebUI界面:功能完整,适合在浏览器中使用,界面简洁明了,我一键整合包也保留了这种启动方式。

Qt GUI界面:这个项目本身不提供QtGUI界面的,但有单独的界面,我嫌麻烦,就直接用了之前CosyVoice自己写的那个界面:

相比webui,多了个内置音色(从之前腾讯云语音合成那里d的)。使用时可以直接从下拉菜单中选择各种预设音色,不用自己去找参考音频文件。

解压后是这样的,双击run_gui.bat或run_webui.bat都可以

实际合成效果

这是太乙假人

吾乃太乙假人是也!虽然这点仙气儿全靠脂肪撑着,但也挡不住我扑面而来的愁。
你讲的这个笑话,一点儿都不好笑,我笑是因为我喉咙卡鸡毛了。

哪吒原声

我乃哪吒三太子,放纵不羁爱作诗,双手插兜大步走,曲道也能踩成直

哪吒克隆

突然,病毒细菌军团来袭,它们张着血盆大嘴,发出渗人的怪笑,直奔孩子们!孩子们的命运会如何?是遭受病毒细菌的无情侵袭,还是继续快乐地歌唱?

OpenAudio官网播音主播

璀璨的星河在广袤的天际延伸,五千年文明的灿烂华章在这片热土上绽放。看,这是一个充满希望的时代,我们共同见证着中华民族伟大复兴的光辉历程。让我们携手同行,创造更加辉煌的明天。

克隆版本

生命短暂,韶华易逝。唯有珍惜当下每一刻,用心生活、不懈拼搏,生命真正的价值与光彩。立足今天,无悔耕耘,方能更好地迎接明天。时光的真相在于:“流光容易把人抛,红了樱桃,绿了芭蕉”。若待他日回首,唯一能免于悔恨的,便是把握住当初的分分秒秒——视每一天为上天的特别恩赐,全力活出精彩。生命的真谛,不在于长度,而在于深度:在于是否奋力拼搏过,是否付出奉献过。正如箴言所启:“把有限的生命,投入到无限的为人民服务中去。” 生命的意义在于奋斗与积累,保持平静心态,戒除贪求。“无可奈何花落去,似曾相识燕归来”,当惜取此刻,莫负时光恩惠。

与CosyVoice的对比

既然提到了CosyVoice,就大概对比一下:

特性Fish SpeechCosyVoice
合成速度
吞字问题几乎没有严重
音质效果优秀良好

总结:如果你追求速度,可以试试CosyVoice(如果不在意吞字的话);但如果你要质量和稳定性,Fish Speech绝对是更好的选择。特别是对于需要处理长文本或者对准确性要求高的场景,Fish Speech的优势非常明显。https://wxa.wxs.qq.com/tmpl/mr/base_tmpl.html

一些小建议

  1. 硬件要求建议至少8G显存,我的3060勉强够用,但如果要处理更长的文本,显存可能会紧张;
  2. 文本处理长文本还是建议分段处理,虽然不会吞字,但分段后效果会更好;
  3. 音色选择多试试不同的内置音色,每个都有自己的特色;
  4. 情感标记说实话,我没试出来,可能是我不会用?

写在最后

以下是各种地址,大家最喜欢的环节!


项目地址:https://github.com/fishaudio/fish-speech 

在线体验:https://fish.audio

一键包:https://pan.quark.cn/s/804ba4ecf68e