V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
EasonIndie
0.11D
V2EX  ›  机器学习

想做有声小说声音克隆, 3060Ti 能扛得住吗?

  •  
  •   EasonIndie · 3 天前 · 1416 次点击

    V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。 目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。


    💡 我的需求大致是:

    1. 先克隆/微调一个中文声音,让声音自然、不机械。
    2. 风格希望像相声那种“说学逗唱”的语气——要能控制节奏、停顿、情绪。
    3. 后期做有声小说输出

    🖥️ 当前设备配置:

    • CPU:R5 5600G
    • 内存:32GB DDR4
    • 显卡:暂未购买,考虑 RTX 3060 ( 12GB ) 或 RTX 3060Ti ( 8GB )大概就是 2000 元价位的
    • 系统:Windows / Ubuntu 都能装(开发环境可切换)

    🔧 初步技术路线:

    我目前查下来主要有两条思路:

    1. 快速上手路线(生成类)

      • 使用 Suno Bark 或类似大模型,直接生成多情感中文语音;
      • 适合先试效果、调节 prompt 实现“相声语气”;
      • 缺点是声音不一定稳定、不可控。
    2. 高可控路线(训练类)

      • 管线:Speaker Encoder → VITS / Coqui-TTS → HiFi-GAN ;
      • 录制 20 ~ 60 分钟高质量音频做微调;
      • 目标是克隆稳定音色、能生成自然语调的中文语音;
      • 支持 prosody / style token 控制节奏语气。

    计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。


    ❓ 想请教 V 友们:

    1. 3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?

      • 听说显存容量在 TTS 场景下比算力更关键,想听下大家的实测经验。
    2. 如果只做轻量微调(不从零训练),3060Ti 是否足够?

    3. 有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?

      • 推理速度和显存占用大概怎样?
      • 有没有推荐的显存优化技巧?
    4. 对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?


    ✅ 目标:

    能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。


    大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏

    24 条回复    2025-10-13 19:15:26 +08:00
    weixind
        1
    weixind  
       3 天前   ❤️ 2
    声音大概可以。

    呻吟就不知道了。
    EasonIndie
        2
    EasonIndie  
    OP
       3 天前
    @weixind 打错了,不过声音都行了,呻吟也不在话下吧
    Kg01
        3
    Kg01  
       3 天前
    你这小说正经不
    shiny
        4
    shiny  
       3 天前
    什么什么,听说这里有不正经小说?
    azwcl
        5
    azwcl  
       3 天前
    @EasonIndie 你这个我咋感觉不太正经,我们可是正人君子,(正经的我不看);[旺柴]
    xooass
        6
    xooass  
       3 天前
    细说呻吟
    dzdh
        7
    dzdh  
       3 天前
    所以当下哪个模型生成的音频最自然。
    manhere
        8
    manhere  
       3 天前
    声音模型一般要求都比视频的低,如果不要求实时,那要求还可以再低点。
    SummerOrange
        9
    SummerOrange  
       3 天前
    呻吟自然流畅,这这,做完给我听听
    SummerOrange
        10
    SummerOrange  
       3 天前
    能扛住,我这个苹果笔记本之前都跑过一些
    klo424
        11
    klo424  
       3 天前
    复制别人的声音可能会涉及侵权问题。
    renmu
        12
    renmu  
       3 天前 via Android
    声音克隆简单,语调难
    EasonIndie
        13
    EasonIndie  
    OP
       3 天前
    @manhere 嗯嗯,不要求实时的
    EasonIndie
        14
    EasonIndie  
    OP
       3 天前
    @renmu 语调是不是也可以通过标注来实现呢。
    例如:话说这事儿啊,[break=long]您猜怎么着?[laugh]他居然把鞋穿反了!
    wyd011011daniel
        15
    wyd011011daniel  
       3 天前   ❤️ 1
    @EasonIndie #14 可以的 可以了解一下微软的 azure TTS 的 语音合成标记语言 (SSML)

    https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup

    我自己对 TTS 的小说需求很高,我是使用 Azure api 的 xiaoxiao 的 百分之 67 速度的抒情版本听书的。

    我的方案在这里

    https://daniel011011-cdn.gitblog.xyz/posts/5

    我个人认为,如果你需求量不是很大,可以直接用云的 api 实时 TTS ,每个月 50W 字符免费,也可以教育优惠的 100 刀走 api 生成一些
    wyd011011daniel
        16
    wyd011011daniel  
       3 天前
    @EasonIndie #14 如果是商业化项目 直接购买 Azure 服务是挺好的选择

    https://www.bilibili.com/video/BV1y9xfewENN/

    这个是 Azure TTS HD 的案例
    superrichman
        17
    superrichman  
       3 天前   ❤️ 1
    你的输入法让我觉得你这个不是什么正经小说 🐶
    darkway
        18
    darkway  
       3 天前
    哈哈哈哈
    EasonIndie
        19
    EasonIndie  
    OP
       3 天前
    @SummerOrange #9 哈哈哈,去 p 站找找自制 homemade ,真自制的应该比较自然
    EasonIndie
        20
    EasonIndie  
    OP
       3 天前
    @klo424 打上侵删如何?我主要还是给自己用。
    Is0
        21
    Is0  
       3 天前 via Android
    @wyd011011daniel 推荐 multitts,可以离线使用,用在线 tts 网不好的时候总是卡,这个感情没那么细腻,睡前听小说够用了。
    http://t.me/MultiTTS_channel
    renmu
        22
    renmu  
       3 天前 via Android
    @EasonIndie 假设一个一百万字小说,你怎么标记?比如说现在是阴阳怪气,你的模型可以反映出来吗?
    Ming5Ming
        23
    Ming5Ming  
       3 天前
    试试 GPT-SoVITS ?
    airw
        24
    airw  
       3 天前
    临时买算力推荐试试腾讯云的 HAI ,按小时计费,8TFLOPS 算力 16G 显存每小时 1.2 元,16TFLOPS 算力 2*16G 显存每小时 2.4 元,最高还有 30TFLOPS 算力 2*32G 显存 80G 内存的
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   908 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 20:03 · PVG 04:03 · LAX 13:03 · JFK 16:03
    ♥ Do have faith in what you're doing.