V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sunwangme
V2EX  ›  问与答

做有声读物时, AI TTS 的情绪和口音控制是不是一直很难?

  •  
  •   sunwangme · 2 月 27 日 · 753 次点击
    最近在折腾把一些偏故事、叙述类的长文本做成有声读物,用途主要是自己听,也可能之后给内容配音用。

    一开始以为 TTS 已经挺成熟了,真正用下来才发现,想要“有情绪、有一点口音”的声音,其实挺难的。

    主要遇到几个问题:

    1.情绪大多只能在 prompt 里简单写,实际听起来变化很生硬

    2.口音有时候不是“带点口音”,而是直接变成怪腔怪调

    3.长文本生成时,前后语气经常不一致,听久了很出戏

    4.分段生成虽然好控制,但整体连贯性又会受影响

    期间也试过几种方案,本地模型和一些现成的在线 TTS 都折腾过。本地方案配置成本比较高,调参也挺花时间;在线的很多要么情绪选项很少,要么更适合短句,不太适合整段故事。

    目前为了先把流程跑通,暂时用的是一个在线方案( https://flowspeech.io/),至少在生成速度和情绪、口音的可控性上还算能接受,用来做有声读物的初版还行,但也谈不上完全满意。

    想请教下大家:

    1.如果是做偏长文本的有声读物,一般是怎么解决情绪一致性的问题的?

    2.情绪 / 口音这种需求,是不是本来就不太适合现在的 TTS ?

    欢迎分享踩坑经验 🙏
    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1303 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 23:40 · PVG 07:40 · LAX 16:40 · JFK 19:40
    ♥ Do have faith in what you're doing.