V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。 目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。
我目前查下来主要有两条思路:
快速上手路线(生成类)
高可控路线(训练类)
计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。
3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?
如果只做轻量微调(不从零训练),3060Ti 是否足够?
有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?
对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?
能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。
大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏
![]() |
1
weixind 3 天前 ![]() 声音大概可以。
呻吟就不知道了。 |
2
EasonIndie OP @weixind 打错了,不过声音都行了,呻吟也不在话下吧
![]() |
3
Kg01 3 天前
你这小说正经不
|
![]() |
4
shiny 3 天前
什么什么,听说这里有不正经小说?
|
![]() |
5
azwcl 3 天前
@EasonIndie 你这个我咋感觉不太正经,我们可是正人君子,(正经的我不看);[旺柴]
|
![]() |
6
xooass 3 天前
细说呻吟
|
![]() |
7
dzdh 3 天前
所以当下哪个模型生成的音频最自然。
|
![]() |
8
manhere 3 天前
声音模型一般要求都比视频的低,如果不要求实时,那要求还可以再低点。
|
![]() |
9
SummerOrange 3 天前
呻吟自然流畅,这这,做完给我听听
|
![]() |
10
SummerOrange 3 天前
能扛住,我这个苹果笔记本之前都跑过一些
|
![]() |
11
klo424 3 天前
复制别人的声音可能会涉及侵权问题。
|
12
renmu 3 天前 via Android
声音克隆简单,语调难
|
13
EasonIndie OP @manhere 嗯嗯,不要求实时的
|
14
EasonIndie OP @renmu 语调是不是也可以通过标注来实现呢。
例如:话说这事儿啊,[break=long]您猜怎么着?[laugh]他居然把鞋穿反了! |
![]() |
15
wyd011011daniel 3 天前 ![]() @EasonIndie #14 可以的 可以了解一下微软的 azure TTS 的 语音合成标记语言 (SSML)
https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup 我自己对 TTS 的小说需求很高,我是使用 Azure api 的 xiaoxiao 的 百分之 67 速度的抒情版本听书的。 我的方案在这里 https://daniel011011-cdn.gitblog.xyz/posts/5 我个人认为,如果你需求量不是很大,可以直接用云的 api 实时 TTS ,每个月 50W 字符免费,也可以教育优惠的 100 刀走 api 生成一些 |
![]() |
16
wyd011011daniel 3 天前
@EasonIndie #14 如果是商业化项目 直接购买 Azure 服务是挺好的选择
https://www.bilibili.com/video/BV1y9xfewENN/ 这个是 Azure TTS HD 的案例 |
17
superrichman 3 天前 ![]() 你的输入法让我觉得你这个不是什么正经小说 🐶
|
![]() |
18
darkway 3 天前
哈哈哈哈
|
19
EasonIndie OP @SummerOrange #9 哈哈哈,去 p 站找找自制 homemade ,真自制的应该比较自然
![]() |
20
EasonIndie OP @klo424 打上侵删如何?我主要还是给自己用。
|
![]() |
21
Is0 3 天前 via Android
@wyd011011daniel 推荐 multitts,可以离线使用,用在线 tts 网不好的时候总是卡,这个感情没那么细腻,睡前听小说够用了。
http://t.me/MultiTTS_channel |
22
renmu 3 天前 via Android
@EasonIndie 假设一个一百万字小说,你怎么标记?比如说现在是阴阳怪气,你的模型可以反映出来吗?
|
23
Ming5Ming 3 天前
试试 GPT-SoVITS ?
|
![]() |
24
airw 3 天前
临时买算力推荐试试腾讯云的 HAI ,按小时计费,8TFLOPS 算力 16G 显存每小时 1.2 元,16TFLOPS 算力 2*16G 显存每小时 2.4 元,最高还有 30TFLOPS 算力 2*32G 显存 80G 内存的
|