星洲网
星洲网
星洲网 登录
我的股票|星洲网 我的股票
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

副刊

|

e潮

|
发布: 3:47pm 12/03/2024

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

情绪

亚马逊

AI

OpenAI

Sora

Lumiere

AI也能模仿聲音情緒了——亞馬遜推出全新的文字轉語音模型

报道:本刊 林德成

大家近期都把焦點專注在文本轉視頻功能,尤其的“”和谷歌的“”。亞馬遜則另闢方向,推出了一個全新的文字轉語音模型“BASE TTS”,而最大亮點是該模型能夠依照文本對白,表現出各種句子的“情緒”和語氣。

為了測試模型的能力,他們沒有為語音做任何降噪或剪輯,看看這個模型能不能生成清晰的語音。

“BASE TTS”全稱是“Big Adaptive Streamable TTS with Emergent abilities”,它一共有3種數據集版本,最大的版本是“BASE-large”,擁有9.8億個參數,並採用了來自公共網站的10萬個小時語音數據來訓練。另外兩個版本的規模較小,分別是“BASE-small”和“BASE-medium”。前者擁有1.5億個參數,用了1000個小時的語音數據來訓練;後者有4億個參數,用了1萬個小時的語音數據來訓練。

ADVERTISEMENT

語音數據保留嘈雜的環境音

亞馬遜稱,整個語音數據集以英語為主(超過90%),其次是德語、荷蘭語和西班牙語。這些語音數據都不是在錄音室錄製的“乾淨”聲音,大多數有嘈雜的環境音。為了測試模型的能力,他們沒有為語音做任何降噪或剪輯,看看這個模型能不能生成清晰的語音。

為了加強“BASE TTS”理解文本的能力,亞馬遜還動手創建了一個“新興能力測試集”,一共有7個項目,比如問題、情感、複合名詞、外來詞彙、句法複雜性、副語言學(Paralinguistics)和標點符號。“我們的假設隨著增加‘BASE TTS’的模型容量和訓練數據,模型將開始獲得這些(解讀)能力。”

在整個測試過程,他們發現模型參數和數據多寡會影響“BASE TTS”的能力。例如“BASE-small”是無法解釋情感、語音、語調和外語詞彙。相比之下,“BASE-medium”模型沒問題,還能進一步掌握複合名詞。“從‘BASE-small’到‘BASE-medium’,語音的自然程度明顯提高了。但是從‘BASE-medium’到‘BASE-large’,提升程度較小。”

“我們相信,把基於GPT的TTS模型訓練時間從1000小時擴展到1萬小時,然後再將模型參數從1億增加到5億,會讓我們的TTS開始出現‘新興能力’(emergent abilities)的轉折點。”

亞馬遜有將這些聲音上傳到網頁(https://www.amazon.science/base-tts-samples/),而當我聆聽時,真的很難辨別聲音真偽。目前,這個模型還在實驗階段,亞馬遜擔心這種能力很可能被濫用,所以決定不公開這個模型的源代碼。

相關文章:
AIA引進AI面試 尋找合適人才變得容易?
谷歌生成視頻把名畫搞笑了
抖音測“AI搜” 想打搜索引擎主意?
AI工具太方便 “內容農場”8個月內膨脹12倍
AI新聞女王登場 24/7資訊不間斷

ADVERTISEMENT

热门新闻

百格视频

你也可能感兴趣
 

ADVERTISEMENT

点击 可阅读下一则新闻

ADVERTISEMENT