AIGC产业研究报告 2023——音频生成篇

行业监测分析陈晨 2023-05-09 2W

今年以来，随着人工智能技术不断实现突破迭代，生成式AI的话题多次成为热门，而人工智能内容生成（AIGC）的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势，易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。报告以内容生成模态作为视角，涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计（图生成）等领域的技术发展、关键能力、典型应用场景，我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络，为各领域的应用开发者和使用者提供参考。在本期音频生成篇中，报告从音频技术的发展历程展开，回顾了拼接合成、参数合成、端到端合成三个关键阶段，分析了生成速度、语音质量、控制能力等模型关键能力的应用表现、国内外市场上的主流产品，以及在进行商业化落地时，来自数据、性能、需求三方面的挑战和解决思路。

定义

音频生成是指根据所输入的数据合成对应的声音波形的过程，主要包括根据文本合成语音（text-to-speech），进行不同语言之间的语音转换，根据视觉内容（图像或视频）进行语音描述，以及生成旋律、音乐等。

细分类型和主要应用领域

组成声音的结构包括音素、音节、音位、语素等，音频生成能够对这些基本单位进行预测和组合，通过频谱逼近或波形逼近的合成策略来实现音频的生成。

按照输入数据类型的不同，音频生成可以分为根据文字信息、音频信息、肌肉震动、视觉内容等数据进行的声音合成。按照场景的不同，音频生成又可以分为非流式语音生成和流式语音生成。其中，非流式语音可进行一次性输入和输出，强调对整体语音合成速度的把握，适合应用在语音输出为主的相关场景；流式语音则可以对输入数据进行分段合成，响应时间短，应用在语音交互相关场景中，能够带来更好的体验。

决定音频生成效果的关键因素主要包括生成速度、分词的准确程度、合成语音的自然度，以及语音是否具有多样化的韵律和表现力等。音频生成在智能客服、语音导航、同声传译、音乐和影视制作、有声书阅读等场景均有广阔的应用空间。另外，近年来语音生成设备在医疗领域也显现出了巨大的应用潜力，例如帮助语言障碍者与他人进行交流，方便视觉障碍者有效获取文本和图片信息等。

技术发展的关键阶段

音频生成早期是基于物理机理，通过机械装置、电子合成器等实现对人声的模拟。随着计算机技术的发展，音频生成逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。基于对这个结构部分模块的替代或优化，音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。目前，音频生成作为一种比较成熟的技术，已经具备产业化应用的能力。

● 拼接合成阶段：

波形拼接法是通过对语句的音素、音节、单词进行特征标注和切分后，在事先录制的语音库中查找基本单位并将音素片段拼接合成语音。波形拼接法的优点是基于真人录制的语音音质较好，听觉上比较真实，但拼接效果依赖于语音库的数据量，需要录制大量的语音才能保证覆盖率，且字词的衔接过渡较为生硬。

● 参数合成阶段：

参数合成法是对已有声音数据的声学特征参数构建统计模型，训练好的模型对输入数据进行分词、断句、韵律分析等，根据语言学特征生成声学特征，再由声码器合成语音。这种方法的优点在于所需的原始声音数据规模小且流畅度较好，但声码器不可避免会带来音质损失，杂音多且语音的机械感较重。

● 端到端合成阶段：

语音合成的本质是通过对于语句结构和关系的学习来预测其声学特征，还原声音波形的过程。

传统的语音合成框架由于语言学知识的复杂性、数据规模和模型性能等问题，语音合成往往难以取得满意的听觉效果，使其实用性受限。近年来随着深度神经网络技术的发展，在传统的参数合成法结构的基础上，端到端合成的方法采用编码器-注意力机制-解码器（Encoder-Attention-Decoder）的声学模型，能够直接将字符或音素序列作为输入输出梅尔频谱并生成波形，从而通过机器学习来简化特征抽取的过程，降低了面对不同语言学知识的训练难度，使声音合成更加自然，趋近真人发声效果。

利用深度学习能力形成的端到端合成方法明显改善了语音质量，模型性能和应用能力的提升使其逐渐成为主流。目前，语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的。

主流模型实现原理及优缺点

● 主流模型解析

Tacotron2

1、实现原理：Tacotron2是在对WaveNet和Tacotron结合的基础上，由声谱预测网络和声码器构成的端到端语音合成模型。其中，序列到序列的预测网络将文本特征提取输入模型，将预测值叠加到梅尔频谱上，声码器根据预测的序列生成时域波形。

2、模型优缺点：Tacotron2引入注意力机制替换传统语音合成的时长模型，通过神经网络提取结构特征，学习文本和声学特征之间的对应关系。Tacotron2的优点是通过对注意力机制的改进优化了梯度消失问题，语音生成的音质较好，并且对输入的文本数据具有较好的鲁棒性。但缺点是使用RNN结构的自回归模型的合成速度慢，对复杂单词的发音困难，生成的语音缺乏感情色彩，并且对于大数据集的训练时间和成本较高，模型缺乏可控性。

Transformer-TTS

1、实现原理：Transformer-TTS是将Transformer结构进行结合应用到TTS系统中的端到端语音生成模型。具体而言，Transformer-TTS通过引入多头注意力机制构造编码器-解码器结构来提高训练效率，使用音素序列作为输入生成梅尔频谱，并通过WaveNet声码器输出波形。

2、模型优缺点：Transformer结构的语音模型能够加快训练速度，解决了Tacotron2中存在的训练速度低下和难以建立长依赖性模型的问题，Transformer基于对语义和关系的理解，也使声音合成的效果更自然。但自回归模型仍然存在推理较慢和自回归误差累积带来的模型偏差的问题。

FastSpeech

1、实现原理：Fastspeech是一个非自回归的序列到序列语音合成模型，其工作原理是将音素序列作为输入，通过长度调节器对齐结果输出梅尔频谱，并通过可并行的网络结构来提升语音合成速度。

2、模型优缺点：Fastspeech的优点是非自回归解码的方式可以并行化生成梅尔频谱，计算速度明显提高。同时，时长模型保证了音素跟梅尔特征的对应，提高了合成速度和语音质量，且生成音频的可控性较好。但Fastspeech的缺点是使用知识蒸馏进行训练的会存在信息损失，从而导致合成结果不准确的情况出现。

DeepVoice3

1、实现原理：DeepVoice3是基于全卷积架构的语音系统，通过完全并行计算方式，将各种文本特征转换为声码器参数，将其并作为波形合成模型的输入来生成语音。

2、模型优缺点：DeepVoice3拓展了语音合成训练的数据集规模，能够快速应用于不同新型数据集的训练，适用于多说话人的语音合成任务。同时，模型采用全卷积方式提取文本特征，能够明显提升训练速度和GPU的利用率，降低训练成本。

AudioLM

1、实现原理：AudioLM基于语言模型的训练原理，通过Transformer结构对语义标记和声学标记建模训练，从而根据音频提示进行语义信息推理，生成后续的语音或钢琴音乐。

2、模型优缺点：AudioLM无需在标注数据上训练，能够保留原提示音频的说话人特征或乐曲风格，生成语义一致、风格一致的新音频，生成的声音自然度、连贯性较好。

● 国内外代表模型：

影响模型应用能力的关键因素

从声音传播的特征和实际应用视角出发，无论是交流对话、播报、翻译等场景，实时性和内容准确性都是使用者对音频生成的两个基本需求，而影响使用体验的更多因素则来自声音的自然度、连贯性，包括语速快慢、声音强弱、情绪等具备人类情感信息的能力。因此，音频生成模型在生成速度、语音质量、控制能力等方面的差异，也就决定了其在场景中的应用能力，而不同类型的用户和行业在应用中也会侧重关注不同的方面，在训练提升模型性能的过程中应根据实际需求进行优化和调整。

● 生成速度

语音的生成速度主要取决于模型合成梅尔频谱的速度，很多场景下对语音生成速度的要求非常高，能否满足实时流畅的效果是语音产品实现商业化应用的前提。

其中，个人用户注重语音生成能否实时响应本人当前的需求，例如语音助手、旅行翻译、交通导航等场景需要及时响应用户指令，快速识别并调用生成模型来合成语音；行业用户则更关注生成速度对业务流程的影响，例如智能客服、同声传译等场景中需要在短时间内生成语音，从而提高工作效率和服务体验。

● 语音质量

强歧义性是AIGC领域中语音生成所特有的问题，需要音频生成具备高准确率，避免出现漏词、重复、分词断句错误等问题。另外，由于语音特征的提取容易受到环境、噪音、多人说话等干扰因素的影响，导致识别和生成准确性偏差，因此考量语音生成质量还取决于抗干扰能力，也就是在采样条件比较困难的情况下，模型是否具备一定的鲁棒性，仍然能够输出高质量的语音。

● 控制能力

控制能力包括模型对语音速度、节奏、韵律等细节的控制，对不同语言背景的文本、语音理解能力，以及对情感音素特征的把握，控制能力决定了语音的表现力，从应用层面来说，包括听感上的清晰度、自然度和真实度，例如在有声阅读、语言教学等场景中接近真人说话的效果，将为个人用户带来更沉浸的体验。

对于行业用户而言，对控制能力的要求还表现在语音产品的定制化程度上，例如对企业数字人形象的音色、语调、情绪等进行细节控制，能够使其更加符合整体定位，从而提升对客服务体验和品牌影响力。

典型产业应用场景

与音频生成相关的典型应用场景有语音识别、语音合成、语音交互、语音转换、语音增强、语音修复、音乐生成等，能够广泛应用于生产生活当中，提升信息传输的效率、人机交互的便捷性与使用体验，在公共服务、娱乐、教育、交通等领域具有巨大的商业化价值。

● 语音识别：通过将输入的音频进行特征提取转换为对应的文本或命令，能够实现对人声口述或各类音频内容的文字转换，其中以智能手机的语音输入法、口述笔记等C端场景应用最为典型。在行业应用场景中，档案检索、电子病历录入、影视字幕制作等方面也存在较大的应用空间。另外，对声纹的识别能够进行人的身份信息特征提取，可应用于金融和公共服务领域的身份安全验证、反欺诈等场景。

● 语音合成：可以在泛娱乐领域得到大量应用，例如新闻播报、有声阅读等长声音制作场景，在电影、短视频创作中根据给定的脚本生成与场景、人物口型同步的语音；在交通、工业制造方面，利用语音合成可以进行语音导航、交通指挥、工业自动化控制等工作；跨语言合成可应用在语音翻译、语言学习等场景；在医学领域，语音合成应用在人工喉等医疗可穿戴设备上，帮助语言障碍者提高交流能力和生活质量。

● 语音交互：可以广泛应用在各类人机对话场景中，并能够在不同行业实现多元化的应用场景拓展。例如企业服务、金融等行业可以通过智能客服机器人与客户进行语音问答，有效节约人工成本；在家电、汽车等行业可大量应用在智能家居、智能车载场景中，通过语音助手完成用户的各类指令；在新闻传媒等行业，语音交互可以在国际会议、展览等活动中进行同声传译工作。

● 语音转换：可实现对语音的性别、音色、口音等风格迁移，适用于影视、动漫、游戏等领域不同角色声音的设置，也可以应用在一些涉及个人隐私安全的场景，对声音进行隐私处理。此外，语音转换的作用还在于能够构成合成数据，增加训练数据规模来提升模型性能。

● 语音增强、语音修复：可以对语音信号进行降噪、滤波、增益等处理，应用于电话录音、视频会议、公共环境中的语音交互服务方面，可提高语音识别能力和生成质量。另外还可以进行历史音频资料的修复，以及古代语言发音的推测合成等，对于历史研究具有重要的应用价值。

● 音乐生成：可以根据提示的音频片段或文本描述生成语义、风格一致的连贯音乐，在音乐和影视领域，可以帮助创作者进行歌曲编曲、音乐风格精修、背景音乐和环境音生成等工作。

商业化落地过程中面临的挑战

音频生成在商业化落地过程中，需要通过语音识别、理解、合成、交互等多种下游任务的组合，构建人机交互链路，通过智能语音平台或产品形成面向不同类型客户的多样化服务，因此也需要从智能语音市场的整体情况来考量相应的商业布局及面临的挑战。

近年来，国外头部科技公司如微软、亚马逊、谷歌、苹果等，均展开了技术研究并在智能语音市场积极布局。其中，微软在收购语音厂商Nuance后，将其技术优势与Azure的能力相结合，面向C端提供在线语音生成工具，面向B端提供语音定制开发、云端边灵活部署的服务策略。在与OpenAI深度合作后，能够依托微软办公生态的数据壁垒，以云+AI能力提升语音交互产品的智能化和灵活性，有利于构建其核心竞争优势。另外如亚马逊Alexa、谷歌Assistant、苹果Siri等产品，目前主要是以语音助手的形式搭载在家居设备或手机端，通过与物联网技术深度融合来拓展C端应用场景，提升使用体验实现用户增长。

国内智能语音市场规模近几年保持稳定增长，头部厂商如科大讯飞、百度、阿里等积累了庞大的用户资源，并向多个专业领域进行渗透，面向C端的应用主要聚焦在智能家居、车载等场景，B端则主要面向电商、金融、医疗、教育等行业场景提供语音客服、营销平台等定制化服务。

随着人工智能技术的突破和不断迭代，类GPT模型的能力也让用户看到人机交流体验提升带来的巨大价值，消费端和产业端对AI产品的期待拉高，也将为国内智能语音市场带来新的增长。而提升语音质量和多样性，实现大规模的商业化落地，还需要应对来自数据、性能、需求方面的三个挑战。

● 数据缺口挑战

相比静态的文本或图像数据，由于声音信号本身具有自由度高、动态化的特点，对长时序列进行建模和预测的难度较高，生成连贯、高质量的音频需要依靠大量的文本-语音、语音-语音数据对进行训练，而目前语音训练数据主要来自开源数据集、企业自有数据等，但方言、小语种等低资源语音数据，用于语音翻译全流程对齐的标注数据仍然较少，另外还涉及到使用权限、用户隐私等数据安全问题，导致应用受限。

模型层面可以通过低资源语音合成训练策略、文本增强策略、构建合成数据等方法，扩大训练数据集；应用层面通过加密、数据隔离等措施，合规利用语音产品沉淀的用户数据提取特征，提升语音生成的质量和风格多样性。

● 多模态融合挑战

音频生成本身与场景信息强相关，容易受到环境因素的干扰，因此在复杂环境下合成高质量语音对算法和算力的要求也随之提高，实际应用中还需要结合语音识别、声纹识别、自然语言理解、视觉内容理解等能力，将感知、认知与合成技术融合应用，提升产品的可控性和泛化能力，在影视、短视频创作等领域将产生更强的商业价值。

● 定制化需求挑战

下阶段用户对于定制化语音的需求将明显增长，例如个人定制语音可以应用在早教、手机助手等场景，B端应用则体现在客服、营销、数字人等场景中，越来越多的企业将会希望为语音设备、数字人打造符合品牌形象的个性化语音，一方面需要模型支持不同类型的声学条件，支持通过小数据量训练、模型微调合成个性化语音，结合不同领域的专业知识提升交互能力，另外定制语音的组件化、可控性、部署交付等工程化能力也是实现大规模落地的关键因素。

前沿探索与趋势展望

对音频生成的前沿研究中，一方面聚焦在对模型性能的提升，包括多说话人语音学习和分离、非人工标注数据的情感识别、情感解耦、多模态转换等。另一方面是从应用视角出发，面向更多细分领域的特定需求进行研发，例如UCLA的一项研究通过颅内电极对大脑活动进行记录并控制虚拟声道来生成语音，能够对中风、创伤性脑损伤造成的语言障碍群体提供帮助。另外Meta近期提出的一项研究表明，还可以通过非侵入方式大脑记录解码语音，未来可扩展到将活动记录进行语音生成应用，将有助于在医学领域对患者的治疗和交流。在我国，清华大学近期创新研发了基于石墨烯的智能可穿戴人工喉，通过热声效应实现语音生成，帮助喉切除术患者恢复发声，可以预见的是，这些研究将为语音生成在医学领域带来更广阔的应用前景。

目前，音频生成技术的商业化已经进入相对成熟的时期，下阶段家居、教育、出行仍将是我国智能语音的关键增长点，提升语音助手唤醒、交互等功能的持续多轮对话能力，将有利于拓展产品商业化空间，提升用户体验。

AIGC产业研究报告系列共分为六个部分，包括语言生成篇、图像生成篇、音频生成篇、视频生成篇、三维生成篇、分子发现与电路设计篇，并将在本月陆续发布，欢迎关注并与我们共同探讨AIGC产业发展。

未经易观分析授权，严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源，且分析观点以易观分析官方发布的内容为准，不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议，易观分析不承担因此产生的任何责任，并保留向相关责任主体进行责任追究的权利。

了解易观分析

AIGC产业研究报告 2023——音频生成篇

热门推荐

联系我们