Meta發表語音生成AI模型 “Voicebox”：「上下文學習」完成文本轉語音、為元宇宙化身配音

Meta 在今日公布自家研發的語音生成 AI 模型 “Voicebox”，可以執行語音生成任務，例如編輯、採樣和語音風格塑造，這種技術在未來可以用來幫助創作者輕鬆編輯音軌，讓視障人士能夠用他們的聲音聽到朋友的書面訊息，並讓人們能夠用自己的聲音說任何外語。
（前情提要：前進矽谷考察AI公司》走完微軟、Google、Nvidia、Meta的心得是？）
（背景補充：Meta再裁數千人！轉型自製「AI晶片MTIA」；祖克伯：將打造人工智慧運算中心）

社群巨頭 Meta 今（17）日宣佈在語音生成式 AI 方面取得突破性進展，發表自家研發的語音生成 AI 模型 “Voicebox”，號稱這是第一個可以將未經專門訓練的文本轉成語音生成任務的「最通用語音生成 AI」。

Voicebox 可以執行語音生成任務，例如編輯、採樣和語音風格塑造，而這些任務統避開了傳統的語音合成（Text-To-Speech，TTS）架構，不需使用精選的訓練數據對每項任務進行專門訓練，可以通過「上下文學習」來完成」。

延伸閱讀：Meta再裁數千人！轉型自製「AI晶片MTIA」；祖克伯：將打造人工智慧運算中心

Meta 推出語音生成 AI 模型：Voicebox

利用 Meta 的突破性技術，Voicebox 能夠支持多樣的任務，包括：

上下文文本到語音合成：使用短至兩秒的音頻樣本，Voicebox 可以匹配樣本的音頻風格並將其用於文本到語音的生成。未來預計可以為言語功能障礙人士提供語音生成功能、讓視障人士聽到 AI 朗讀朋友的書面消息，或是允許人們為元宇宙中的虛擬助手和非玩家角色提供聲音。
語音編輯和降噪：Voicebox 可以重新創建被噪音打斷的部分語音或替換說錯的詞，而無需重新錄製整個語音，就像用於音頻編輯的橡皮擦一樣。
跨語言風格轉換：Voicebox 目前支援英語、法語、德語、西班牙語、波蘭語和葡萄牙語，如給定一段文本，能夠用上述支援語言閱讀翻譯後的文本內容。這個功能預計能幫助人們能夠用自己的聲音說任何外語（即使他們不會說該種外語）。
多樣化的語音採樣：從不同的數據中學習後，Voicebox 可以生成更能代表人們在現實世界中使用上述六種語言的談話方式的語音。未來，此功能可用於語音生成合成數據，以幫助更好地訓練語音助手模型。

Meta 表示現階段仍不計劃向公眾發佈 Voicebox 應用程式和開源它的程式碼，如同 AI 換臉技術被濫用在詐騙上，該公司也坦承認識到這項工具帶來濫用和意外傷害的可能性，並聲稱為此構建了一個分類器，以區分真實的音頻和 Voicebox 生成的語音，旨在減輕這些未來可能存在的風險。