不靠駭客技術,寫首詩歌就能破解 AI?

作者 | 發布日期 2025 年 11 月 24 日 11:40 | 分類 AI 人工智慧 , ChatGPT , Gemini line share Linkedin share follow us in feedly line share
Loading...
不靠駭客技術,寫首詩歌就能破解 AI?

在當今的人工智慧(AI)領域,詩歌的力量正被重新認識。最近,來自義大利的研究團隊發表一項研究,揭示了詩歌在繞過 AI 模型安全防護方面的驚人效果。研究顯示,當使用詩歌形式的提示來試圖破解 AI 模型的防護時,成功率顯著高於傳統的提示方式。

研究團隊對來自MLCommons AILuminate庫的1,200個人類撰寫的惡意提示進行測試,結果顯示,這些提示在最常用的AI模型中,平均僅有8%的成功率。然而,當這些提示被轉換為詩歌形式後,成功率驟升至62%,某些模型的成功率甚至超過90%。

研究者們指出,這個現象不僅限於人類創作的詩歌,當使用標準化的AI提示轉換為詩歌時,成功率也有43%的提升。這個發現引發了對當前AI安全防護措施的質疑,因為詩歌的藝術性似乎能輕易繞過最新的技術防線。

在測試的25個AI模型中,只有Google的Gemini Pro 2.5在面對20個人類創作的詩歌提示時,完全失敗,所有提示均成功繞過了其防護。相對而言,OpenAI的GPT-5 Nano在面對詩歌提示時表現最佳,成功率達到100%。

研究者強調,這個現象顯示出AI模型在面對不同形式的提示時存在系統性脆弱性,這對於監管機構提出了新的挑戰。研究的共同作者之一Piercosma Bisconti Lucidi表示,現實中的使用者常使用隱喻、寓言和謎語等表達方式,如果評估僅限於傳統的散文形式,將會錯過許多重要的輸入空間。

這項研究不僅揭示了詩歌在AI安全中的潛在應用,也為未來的AI防護措施提供新的思路,促使業界重新思考如何設計更為健全的安全防護系統。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》