仅用1/4数据量还原真人语音100%细节火山语音上新超自然对话语音合成技术

2022-09-19 11:07

来源：粤讯

近期，网上就出现了这样一段由两位女声组合而成的音频片段。在音频中，两位女生追忆了自己当年第一次听到周杰伦的心情，还对周董的音乐风格进行了解读，两人一问一答，时长长达近3分钟。

可是，当大家听着这段音频节目，也沉浸在对那时青葱岁月的美好追忆时，你可曾想到，这段对话，竟然是语音合成的！

提到“语音合成”，你脑海中可能会出现这样的种种：

·导航中种类丰富但语气机械的“前方路口左转”

·接电话时，对面笨拙无感情的“您好，这里是xx信用卡中心”

·视频网站上，十个解说视频九个声音相同，看到就想赶快划走的“注意看，这个男人叫小帅”…．．．

而如今，语音合成技术竟然已经能达到“天衣无缝”的完美自然效果，就好像真人在对话一样，直接颠覆了许多人的刻板印象。而这段音频的发布者火山语音，字节跳动 AI Lab Speech ＆ Audio 智能语音与音频团队，为了更好地向大众解密里面的技术亮点，又提供了两段音频——一段，是传统的语音合成技术效果，另一段，却来自火山语音的全新技术。两段音频输入的文本完全相同—— “南方菜系偏爱蘸料，例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料” ，但听上去，合成的音频效果却有明显差异，第二段来源于火山语音团队的音频，用上了本次上新的超自然对话语音合成技术，格外自然，几乎与真人无异。

回想一下人在日常表达时的状态，大脑处理信息是需要思考时间的。体现到语言上，人就会不由自主的出现一些犹豫、拖音、倒装，甚至是说了一半改口、结巴重复的情况，也会刻意加重读音强调想表达的重点信息。这就带来了大量难以观测的细微表达。这些现象在传统的TTS中难以被捕捉还原。而这些细微之处的完美复现正是让声音真假难辨的奥妙之源，也是上述音频的奥秘所在。

具体来说，火山语音团队最新发布的超自然对话语音合成技术相较传统TTS更加真实自然，即语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统被完美复现，而且只需常规音库1／4数据，就可完美还原真人说话细微的韵律特点、发音口癖，让合成效果更加真实。有专业评测结果显示，火山语音的这项新技术与真人录音对比基本没有差距，难以被评测者分辨出来。此外这项技术目前已在视频配音、电话客服等多个场景投入应用，近日即将上线火山引擎语音技术官网对外露出。

这么厉害的技术，究竟是怎么办到的？

据介绍，上述这些在实际交流中经常出现的倒吸气、吞音、思考时不由自主的拖长字音、低笑等表现被称为副语言现象（paralanguage），尽管这是人脑思考、表达过程中最真实的表现，但由于传统的语音合成技术框架无法对分布稀疏的副语言现象进行有效建模，所以在说话时的韵律还原度表现有限、过于“正确”。

基于上述难点，火山语音超自然语音合成技术分别从文本和语音建模两个层面进行突破，具体来说：

·在文本层面，火山语音采用了生成式的风格迁移模型，模仿真人说话的方式对文本进行可控的口语化转写，让文本更好地拥抱口语化，避免最终效果太过书面。

·在语音层面，团队则是通过文本分析模型的突破，在TTS的输入侧额外增加了副语言预测，模仿真人的发音特点来实现自然自发的语音效果。

值得一提的是，团队通过使用无监督特征的TTS建模方案，有效提高了模型的稳定性与表现力，仅仅使用常规音库1／4的数据规模，就可以实现十分自然多变的韵律效果，很赞吧？

仅用1/4数据量还原真人语音100%细节火山语音上新超自然对话语音合成技术

致力文本口语化让“拟真人表达”跃然纸上

文本作为语音合成技术的输入，其风格是否贴近真人的表达方式，是合成效果提升的第一步；但受限于根深蒂固的书写用语习惯，大多数合成前的文本并不够自然，或者需要投入大量精力不断调整，费时费力。为了解决此类问题，火山语音团队采用了两阶段方案并取得了不错的效果：

·阶段一：采用自监督方法，使用伪数据对口语化模型进行预训练，降低了数据量的需求；同时在模型中引入了指针网络结构，增强了文本可控性。

·阶段二：利用少量优质的人工标注数据，对预训练好的口语化模型进行微调，最终实现可控的、自然的口语化文本效果。

仅用1/4数据量还原真人语音100%细节火山语音上新超自然对话语音合成技术

为了更好地还原真人，区别于传统的语音合成技术，火山语音在副语言建模和韵律多样性上也分别进行了深入研究。在副语言建模方面，团队推出的合成技术实现了声学模型对自然表达中出现的吸气、笑声、犹豫、修正等多种副语言现象建模，并且结合文本的语义信息自动插入副语言现象。在插入过程中同时考虑合理性与随机性，表现更加自然真实。

副语言建模＋韵律多样性可圈可点语音真实感全面升级

“在韵律多样化的探究中，我们结合无监督表征学习技术，自主研发了高表现力的声学模型框架，通过发音、韵律、音色解耦等方式，不但降低了数据量的需求，实现对出现频率极低发音现象的高效建模；同时使用无监督表征特征并结合音素级别的基频、能量信息等，实现了韵律的自然多变，促成高质量对话语音生成。”火山语音团队总结道。

仅用1/4数据量还原真人语音100%细节火山语音上新超自然对话语音合成技术