对语音生成进行高级控制
要使用精细控制功能,可能会降低阅读数字、日期和URL的稳定性。您需要手动处理这些情况以获得最佳效果。
音素控制允许您为单词或字符指定精确的发音。目前支持:
使用音素控制时,请将所需发音包含在 <|phoneme_start|> 和 <|phoneme_end|> 标签中。每个标签应包含一个单词或字符。
Standard: I am an engineer.
With control: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
标准: 我是一个工程师。
控制: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
副语言控制允许您添加自然语音元素和停顿,使生成的语音听起来更像人类。主要有两种类型的控制:
您可以使用常见的停顿词如"嗯"、"啊"、"um"、"uh"来控制语音的节奏。
以下特殊效果可以使用括号添加:
Effect | Description | First Available | Stage |
---|---|---|---|
(break) | 短暂停顿 | V2 | 实验性 |
(long-break) | 延长停顿 | V2 | 实验性 |
(breath) | 呼吸声 | V2 | 实验性 |
(laugh) | 笑声 | V2 | 实验性 |
(cough) | 咳嗽声 | V2 | 实验性 |
(lip-smacking) | 咂嘴声 | V2 | 实验性 |
(sigh) | 叹息声 | V2 | 实验性 |
效果 (laugh)、(cough)、(lip-smacking) 和 (sigh) 正在开发中。您可能需要重复多次以获得更好的效果。
English Example:
Standard: I am an engineer.
With paralanguage: I am, um, an (break) engineer.
中文示例:
标准: 我是一名工程师。
添加副语言: 我,嗯,是一名(break)工程师。