发布: 3:47pm 12/03/2024

AI也能模仿声音情绪了——亚马逊推出全新的文字转语音模型

报道：本刊林德成

大家近期都把焦点专注在文本转视频功能，尤其OpenAI的“Sora”和谷歌的“Lumiere”。亚马逊则另辟方向，推出了一个全新的文字转语音模型“BASE TTS”，而最大亮点是该模型能够依照文本对白，表现出各种句子的“情绪”和语气。

为了测试模型的能力，他们没有为语音做任何降噪或剪辑，看看这个模型能不能生成清晰的语音。

“BASE TTS”全称是“Big Adaptive Streamable TTS with Emergent abilities”，它一共有3种数据集版本，最大的版本是“BASE-large”，拥有9.8亿个参数，并采用了来自公共网站的10万个小时语音数据来训练。另外两个版本的规模较小，分别是“BASE-small”和“BASE-medium”。前者拥有1.5亿个参数，用了1000个小时的语音数据来训练；后者有4亿个参数，用了1万个小时的语音数据来训练。

语音数据保留嘈杂的环境音

亚马逊称，整个语音数据集以英语为主（超过90%），其次是德语、荷兰语和西班牙语。这些语音数据都不是在录音室录制的“干净”声音，大多数有嘈杂的环境音。为了测试模型的能力，他们没有为语音做任何降噪或剪辑，看看这个模型能不能生成清晰的语音。

为了加强“BASE TTS”理解文本的能力，亚马逊还动手创建了一个“新兴能力测试集”，一共有7个项目，比如问题、情感、复合名词、外来词汇、句法复杂性、副语言学（Paralinguistics）和标点符号。“我们的假设随着增加‘BASE TTS’的模型容量和训练数据，模型将开始获得这些（解读）能力。”

在整个测试过程，他们发现模型参数和数据多寡会影响“BASE TTS”的能力。例如“BASE-small”是无法解释情感、语音、语调和外语词汇。相比之下，“BASE-medium”模型没问题，还能进一步掌握复合名词。“从‘BASE-small’到‘BASE-medium’，语音的自然程度明显提高了。但是从‘BASE-medium’到‘BASE-large’，提升程度较小。”

“我们相信，把基于GPT的TTS模型训练时间从1000小时扩展到1万小时，然后再将模型参数从1亿增加到5亿，会让我们的TTS开始出现‘新兴能力’（emergent abilities）的转折点。”

亚马逊有将这些AI声音上传到网页（https://www.amazon.science/base-tts-samples/），而当我聆听时，真的很难辨别声音真伪。目前，这个模型还在实验阶段，亚马逊担心这种能力很可能被滥用，所以决定不公开这个模型的源代码。

相关文章：
AIA引进AI面试 寻找合适人才变得容易？
谷歌生成视频把名画搞笑了
抖音测“AI搜” 想打搜索引擎主意？
AI工具太方便 “内容农场”8个月内膨胀12倍
AI新闻女王登场 24/7资讯不间断

百格视频

更多视频

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

AI也能模仿声音情绪了——亚马逊推出全新的文字转语音模型

热门新闻

百格视频

更多e潮新闻

【浅尝新品】长焦镜头市场卷疯了！HONOR Magic8 Pro，凭2亿超夜神长焦杀出重围

【科技简讯】法国邮政推“可颂邮票” ，真的是色香味俱全

全球AI普及排行榜：阿联酋位居榜首，大马需迎头赶上AI浪潮

【科技Talk】原创惨遭搬运？Meta出招侦测盗版Reels

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（下）

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（上）

热门话题

副刊

e潮

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

AI也能模仿声音情绪了——亚马逊推出全新的文字转语音模型

热门新闻

百格视频

更多e潮新闻

【浅尝新品】长焦镜头市场卷疯了！HONOR Magic8 Pro，凭2亿超夜神长焦杀出重围

【科技简讯】法国邮政推“可颂邮票” ，真的是色香味俱全

全球AI普及排行榜：阿联酋位居榜首，大马需迎头赶上AI浪潮

【科技Talk】原创惨遭搬运？Meta出招侦测盗版Reels

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（下）

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（上）

热门话题