登录
Newsletter 活动
09/09/2021
NVIDIA专研对话模型 AI语音更像人
记者:林德成
图:NVIDIA官方部落格
NVIDIA近期开发了一种人工智能技术,可以捕捉人类丰富的语音和细节,让AI语音变更有情感。

●报道:本刊 林德成
●图:NVIDIA官方部落格

科技以往再怎么日新月异,人工智能(AI)技术始终无法模仿真实的人声,所合成的声音终究与真人发音有所差距,毕竟我们说话有节奏、语调、情绪等等。不过,全球知名半导体公司英伟达(NVIDIA)日前在Interspeech 2021研讨会上,发布了最新的AI语音合成模型,可以捕捉和模仿人类说话的声调细节。

在过去一年,NVIDIA的文本转换语音研究团队开发了RAD-TTS语音合成模型。该团队使用真人的声音来训练RAD-TTS模型,让它可以将任何文本转换成真人说话的声音,同时还能转换声音的音调。在RAD-TTS模型的操作介面,人声被视为一种乐器,可以调整音调、持续时间和语音强度。根据NVIDIA早前上传了一段演示视频,这个AI模型可以将一段录制好的音频,从男声变成女声,还能调整音频,让声音强调特定的单词或更改语速。乍听之下,或许一时无法分辨,但仔细分析就会听得出有些偏差。

估计一般人最常听到的AI合成声音是来自导航系统和手机语音助理。

NVIDIA说,这项技术可以应用在银行、零售商店的客服热线,亦能让游戏中的人物在说话时,显得栩栩如生。此外,这个AI语音合成模型能用在配音领域,其文本转换语音的功能也可以帮助到语言障碍者。

相关稿件:

美国Pizza Hut出奇招 运用AI和天气推荐餐点?

网民仿造Windows 11介面 在网页免费测试练手

e潮
人工智能
AI语音
NVIDIA半导体公司
分享到:
热门话题:
3天前
3天前
3天前
5天前
1星期前
1星期前
更多新闻
你也可能感兴趣