AI 偽造你聲音，連你爸媽都能騙！為何語音合成詐騙盛行？

作者遠見雜誌 | 發布日期 2023 年 03 月 12 日 10:00 | 分類 AI 人工智慧 , 資訊安全

AI 偽造你聲音，連你爸媽都能騙！為何語音合成詐騙盛行？

《華盛頓郵報》報導，美國聯邦貿易委員會（Federal Trade Commission，FTC）最新統計顯示，2022 年詐騙案以「冒名詐騙」數量最多，這 3.6 萬次舉報約 5 千件為電話詐騙，損失金額估計超過 1,100 萬美元。然而，FTC 的助理總監麥克森（Will Maxson）無奈表示，電話詐騙很難追蹤，因為發話者可能藏身世界任何角落，光要確定哪個單位有管轄權就有難度。

▲ 冒名詐騙數量高居第一，損失金額則排第二，僅次投資詐騙。（Source：FTC）

AI驅動的電話詐騙

除了成本低廉，只要一支電話就能展開詐騙，人工智慧技術進步，也替詐騙集團的百寶袋添柴加薪。

2019年，詐騙集團利用人工智慧（AI）技術，合成仿冒英國能源企業母公司主管聲音，向屬下誆稱公司供應商需要資金，要求1小時內立刻匯款，詐得24.3萬美元。

這是近年第一起利用合成語音詐騙的案例，此技術稱為「深度聲音」（deepvoice），和深度偽造（deepfake）類似，都是利用深度學習技術習得人類語言／相片特徵，接著再製出相似內容，以假亂真。

2020年，某香港銀行經理接到客戶電話，他認得對方的聲音，客戶表示要收購企業，要求他核准一筆高達3,500萬美元轉帳。後來警方調查才知道，該客戶的聲音也是合成音，這起案例是記錄在案的第一起。

隨著技術發展，合成聲音的門檻降低。

數位鑑識學教授法理德（Hany Farid）表示，兩年前還需要長時間樣本，才能將人聲複製得唯妙唯肖，現在只要簡短30秒音檔，就能捕捉到聲音特徵，含年齡、性別、口音等。「現在如果抖音上傳30秒影片，其他人就能複製你的聲音」。

執法困難，完美風暴就此展開

柏金（Benjamin Perkin）的家庭就是合成語音詐騙案的受害者。某天，他的雙親接到一通自稱律師的來電，對方表示柏金發生車禍，撞死美國外交官，現關在監獄，需柏金雙親支付費用處理法律事宜。

聽起來很像典型的冒名詐騙，但律師馬上將電話轉交給柏金，柏金告訴父母很愛他們，希望父母籌到足夠的金錢。

雖然很不尋常，但聽起來毫無疑問就是柏金，所以柏金的父母就這樣匯款1.5萬美元。直到晚上柏金本人例行打電話給父母，才知道自己受騙了。

柏金不確定犯罪者如何取得自己的聲音，不過他曾在YouTube分享雪上摩托車影片，裡面就有他的聲音。

要合成他人聲音不是難事。新創公司ElevenLabs就提供相關服務，使用者只要上傳一段聲音，就能產出其他合成語音，試用免費，付費版月費從5美元到330美元。今年ElevenLabs在pre-seed輪就募得200萬美元，不過也受到批評，因有使用者合成名人的聲音，假裝他們說出某些沒說過的話。

ElevenLabs官網強調重視人工智慧道德（ethical AI），針對上述事件，還推文表示會設法阻止濫用，除了限制免費使用者合成語音，也會開發能偵測AI生產聲音的工具。

不只新創，科技巨頭微軟也開發類似模型VALL-E，號稱3秒鐘樣本就合成人類聲音，不過微軟也開發能偵測是否人工合成語音的模型，避免先進技術拿來做壞事。

▲ 微軟開發的VALL-E模型不受語言限制，也能合成中文聲音。（Source：VALL-E）

現有法律無法處罰AI合成語音業者

然而事發當下，受害者不太可能有精力打開偵測系統；對執法者來說，可能沒有足夠資源調查此類案件，且因為受害者無法提供聲音相似以外線索，更不利破案；現行法律也沒有辦法處罰提供AI合成語音服務的廠商。

面對此類案件該如何自保？麥克森的建議是其實不脫傳統應對電話詐騙方法：保持冷靜，先放下手機，聯絡當事人，確認對方現況；且撥號來源也可能是偽造，不要馬上相信對方；若對方要求用很難追蹤的支付方式如禮品卡或比特幣轉帳，就可懷疑是詐騙。

技術進步、成本低廉、軟體開發商無法可罰、警方沒有辦案著力點，法理德認為，所有元素都會構成完美風暴。

（本文由遠見雜誌授權轉載；首圖來源：Unsplash）

延伸閱讀：

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

科技新報粉絲團

訂閱免費電子報

關鍵字: Deepvoice , VALL-E , 合成語音 , 詐騙 , 電話詐騙