新創 ElevenLab 推出 Multilingual v2 模型,能用你的聲音說 30 種語言

作者 | 發布日期 2023 年 08 月 30 日 8:30 | 分類 AI 人工智慧 , 網路 , 資訊安全 line share follow us in feedly line share
新創 ElevenLab 推出 Multilingual v2 模型,能用你的聲音說 30 種語言


AI 語音複製(Voice Clone)是一個發展迅速但卻充滿爭議的新興 AI 技術,它可以帶來正面的個性化體驗及商業效益,同時也會引發像是深度造假(Deepfake)等詐騙攻擊的安全疑慮。成立於美國舊金山的新創公司 ElevenLabs 22 日宣布推出可以流利模仿約莫 30 種不同語言聲音的全新多語言語音生成模型,這對多語言有聲書的製作是一大福音,但對於網路詐騙犯而言更是如虎添翼的攻擊利器。

在此之前,ElevenLabs 的多語言語音生成模型支援 8 種語言,如今全新 Eleven Multilingual v2 模型能夠精準生成近 30 種語言之「情感豐富」的 AI 音訊,可以捕捉到自然語音的細微變化。使用者只要輸入文字,並選擇用哪種語言表達, AI 就會生成一個毫無突兀感的無縫旁白。

目前該公司和 Lukeman Literary 出版商合作,該出版商每年會推出多種語言版本的各種有聲讀物。在合作之前,過去製作一本有聲書需要花費數周的時間,如今整個過程只需幾個小時便能完成。

基本上,提供兩種 AI 語音複製及生成選項:文字轉語音工具和專門複製特定聲音的「VoiceLab」。針對後者,使用者可以上傳語音樣本來創建客製化的語音複製,AI 會對其進行分析,以建立合成版本。然後,這個複製的聲音可以被操控說出任何你想說的話。最新版本的 Eleven Multilingual v2 還可讓使用者客製化的 AI 分身流利地開口說近 30 種的語言。

AI 語音複製技讓深度造假詐騙犯更如虎添翼

隨著深度造假技術的濫用,各種真假難分的詐騙攻擊讓我們更加防不勝防,當前各種 AI 語音複製技術與工具自然有被濫用的可能性。去年,ElevenLabs 平台就曾爆發被用來冒充和驟騷擾公眾人物的事件,該公司立即成為眾矢之的而遭到四方八面的強烈反對。

經此事件後,該公司開始實施了更嚴格的保障措施,但仍然無法解決可能的道德倫理疑慮。畢竟詐騙犯可以輕鬆複製你所愛之人的聲音,在當前技術的加持下,只需幾分鐘的音訊就可以複製出你深信不疑的聲音。

不論如何,AI 語音複製技術的發展似乎勢不可擋,不論好還是壞的面向都一樣。想要抑制負面的影響,儘情享受正面效益,有賴公部門與廠商不斷努力開發出更全面的安全防護機制與 AI 倫理道德規範,以及更普及的安全意識宣導與教育。 在此之前,我們勢必會有一段陳痛期得咬牙撐過。

(首圖來源:ElevenLabs