声音克隆教程

语音合成精细控制

对语音生成进行高级控制

开始使用

要使用精细控制功能,可能会降低阅读数字、日期和URL的稳定性。您需要手动处理这些情况以获得最佳效果。

音素控制

音素控制允许您为单词或字符指定精确的发音。目前支持:

  • CMU Arpabet (英语)
  • 拼音 (中文)

使用音素控制时,请将所需发音包含在 <|phoneme_start|> 和 <|phoneme_end|> 标签中。每个标签应包含一个单词或字符。

示例

Standard: I am an engineer.

With control: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

标准: 我是一个工程师。

控制: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。

副语言控制

副语言控制允许您添加自然语音元素和停顿,使生成的语音听起来更像人类。主要有两种类型的控制:

停顿词

您可以使用常见的停顿词如"嗯"、"啊"、"um"、"uh"来控制语音的节奏。

特殊效果

以下特殊效果可以使用括号添加:

EffectDescriptionFirst AvailableStage
(break)短暂停顿V2实验性
(long-break)延长停顿V2实验性
(breath)呼吸声V2实验性
(laugh)笑声V2实验性
(cough)咳嗽声V2实验性
(lip-smacking)咂嘴声V2实验性
(sigh)叹息声V2实验性

效果 (laugh)、(cough)、(lip-smacking) 和 (sigh) 正在开发中。您可能需要重复多次以获得更好的效果。

English Example:

Standard: I am an engineer.

With paralanguage: I am, um, an (break) engineer.

中文示例:

标准: 我是一名工程师。

添加副语言: 我,嗯,是一名(break)工程师。