发布: 3:47pm 12/03/2024

AI也能模仿聲音情緒了——亞馬遜推出全新的文字轉語音模型

报道：本刊林德成

大家近期都把焦點專注在文本轉視頻功能，尤其OpenAI的“Sora”和谷歌的“Lumiere”。亞馬遜則另闢方向，推出了一個全新的文字轉語音模型“BASE TTS”，而最大亮點是該模型能夠依照文本對白，表現出各種句子的“情緒”和語氣。

為了測試模型的能力，他們沒有為語音做任何降噪或剪輯，看看這個模型能不能生成清晰的語音。

“BASE TTS”全稱是“Big Adaptive Streamable TTS with Emergent abilities”，它一共有3種數據集版本，最大的版本是“BASE-large”，擁有9.8億個參數，並採用了來自公共網站的10萬個小時語音數據來訓練。另外兩個版本的規模較小，分別是“BASE-small”和“BASE-medium”。前者擁有1.5億個參數，用了1000個小時的語音數據來訓練；後者有4億個參數，用了1萬個小時的語音數據來訓練。

語音數據保留嘈雜的環境音

亞馬遜稱，整個語音數據集以英語為主（超過90%），其次是德語、荷蘭語和西班牙語。這些語音數據都不是在錄音室錄製的“乾淨”聲音，大多數有嘈雜的環境音。為了測試模型的能力，他們沒有為語音做任何降噪或剪輯，看看這個模型能不能生成清晰的語音。

為了加強“BASE TTS”理解文本的能力，亞馬遜還動手創建了一個“新興能力測試集”，一共有7個項目，比如問題、情感、複合名詞、外來詞彙、句法複雜性、副語言學（Paralinguistics）和標點符號。“我們的假設隨著增加‘BASE TTS’的模型容量和訓練數據，模型將開始獲得這些（解讀）能力。”

在整個測試過程，他們發現模型參數和數據多寡會影響“BASE TTS”的能力。例如“BASE-small”是無法解釋情感、語音、語調和外語詞彙。相比之下，“BASE-medium”模型沒問題，還能進一步掌握複合名詞。“從‘BASE-small’到‘BASE-medium’，語音的自然程度明顯提高了。但是從‘BASE-medium’到‘BASE-large’，提升程度較小。”

“我們相信，把基於GPT的TTS模型訓練時間從1000小時擴展到1萬小時，然後再將模型參數從1億增加到5億，會讓我們的TTS開始出現‘新興能力’（emergent abilities）的轉折點。”

亞馬遜有將這些AI聲音上傳到網頁（https://www.amazon.science/base-tts-samples/），而當我聆聽時，真的很難辨別聲音真偽。目前，這個模型還在實驗階段，亞馬遜擔心這種能力很可能被濫用，所以決定不公開這個模型的源代碼。

相關文章：
AIA引進AI面試 尋找合適人才變得容易？
谷歌生成視頻把名畫搞笑了
抖音測“AI搜” 想打搜索引擎主意？
AI工具太方便 “內容農場”8個月內膨脹12倍
AI新聞女王登場 24/7資訊不間斷

百格视频

更多视频

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

AI也能模仿聲音情緒了——亞馬遜推出全新的文字轉語音模型

热门新闻

百格视频

更多e潮新闻

【浅尝新品】长焦镜头市场卷疯了！HONOR Magic8 Pro，凭2亿超夜神长焦杀出重围

【科技简讯】法国邮政推“可颂邮票” ，真的是色香味俱全

全球AI普及排行榜：阿联酋位居榜首，大马需迎头赶上AI浪潮

【科技Talk】原创惨遭搬运？Meta出招侦测盗版Reels

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（下）

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（上）

热门话题

副刊

e潮

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

AI也能模仿聲音情緒了——亞馬遜推出全新的文字轉語音模型

热门新闻

百格视频

更多e潮新闻

【浅尝新品】长焦镜头市场卷疯了！HONOR Magic8 Pro，凭2亿超夜神长焦杀出重围

【科技简讯】法国邮政推“可颂邮票” ，真的是色香味俱全

全球AI普及排行榜：阿联酋位居榜首，大马需迎头赶上AI浪潮

【科技Talk】原创惨遭搬运？Meta出招侦测盗版Reels

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（下）

【多点AI】开源与知识产权：AI创新的双引擎——华为论坛观察（上）

热门话题