
一種新興的監控形式「無線竊聽」(wireless-tapping),正在探索透過手機聽筒產生的微小震動來遠端解讀對話的可能性。為了保護使用者免於潛在惡意行為者的威脅,美國賓州州立大學的一組電腦科學研究人員展示了,透過距離手機最遠可達三公尺(約十英尺)的雷達測量,就能產生電話通話內容的文字轉錄。雖然準確率仍有限(在最多一萬個詞彙的情況下約 60%),但這項發現引發了對未來隱私風險的重要疑問。
研究成果發表於《WiSec 2025:第 18 屆 ACM 無線與行動網路安全與隱私會議論文集》,該研究是基於他們 2022 年的一項計畫延伸而來,當時團隊使用雷達感測器與語音辨識軟體,能以高達 83% 的準確率,無線識別 10 個預先定義的單字、字母與數字。
這項研究的第一作者、電腦科學博士生 Suryoday Basak 表示,當我們用手機講話時,往往會忽略聽筒傳出的震動,這些震動會讓整支手機振動。如果我們能用遠端雷達捕捉這些震動,再利用機器學習結合語境線索,就能判斷出整段對話。透過了解可能性,我們可以幫助公眾意識到潛在風險。
Basak 與共同作者、指導教授 Mahanth Gowda(電腦科學與工程副教授)使用毫米波雷達感測器(此技術與自駕車、動作感測器及 5G 無線網路所用的技術相同)探索將來是否能打造體積小巧的雷達裝置,甚至可縮小到能放進日常物品(如筆)內。研究人員表示,他們的實驗裝置僅供研究用途,目的是預先評估惡意行為者可能製造的工具。接著,他們將「Whisper」這款開源、大規模 AI 語音辨識模型進行改造,讓其能將震動解碼成可辨識的語音轉錄。
Basak 表示,過去三年,AI 能力與開源語音辨識模型有了巨大的爆發式成長,我們能利用這些模型,但它們更多是針對乾淨語音或日常應用情境設計,因此必須讓它們適應低品質、帶噪音的雷達數據。
為了在不重新訓練整個網路的情況下,將嘈雜數據轉換為可辨識語音,研究團隊使用了一種名為「低秩適應」(low-rank adaptation)的模型調整方法,只需重新訓練 Whisper 模型 1% 的參數,就能讓其專門處理雷達數據。
在錄製震動時,研究人員將毫米波雷達感測器放置在距手機數英尺的位置,捕捉聽筒播放語音時產生的細微表面震動。接著,他們將這些雷達信號輸入經過改造的 Whisper 模型,達到最高約 60% 的轉錄準確率。研究人員表示,若在已知對話內容的情況下加入基於語境的人工修正(如調整某些詞彙或片語),準確度還能進一步提升。
Gowda 指出,結果是可以得到帶有一定錯誤的對話轉錄,但這與我們 2022 年只能輸出少量詞彙的版本相比,有了顯著提升。即使僅能捕捉到部分關鍵詞,在安全情境中仍然具有價值。
研究團隊將其模型的能力與讀唇術做比較,發現讀唇術一般僅能辨識約 30% 至 40% 的口語詞彙,但許多讀唇者會利用語境線索來補足,從而參與對話。
Basak 表示,這與讀唇者透過有限資訊解讀對話的方式類似,我們的模型輸出結合語境資訊,也能從數公尺外推測出電話對話的一部分內容。我們的研究目的是探索這些工具是否有可能被惡意人士用來遠端竊聽手機通話。研究顯示,在特定條件下,技術上是可行的,我們希望藉此提升公眾意識,讓大家在敏感通話時更加謹慎。
(首圖來源:Pixabay)