不靠駭客技術，寫首詩歌就能破解 AI？

在當今的人工智慧（AI）領域，詩歌的力量正被重新認識。最近，來自義大利的研究團隊發表一項研究，揭示了詩歌在繞過 AI 模型安全防護方面的驚人效果。研究顯示，當使用詩歌形式的提示來試圖破解 AI 模型的防護時，成功率顯著高於傳統的提示方式。

研究團隊對來自MLCommons AILuminate庫的1,200個人類撰寫的惡意提示進行測試，結果顯示，這些提示在最常用的AI模型中，平均僅有8%的成功率。然而，當這些提示被轉換為詩歌形式後，成功率驟升至62%，某些模型的成功率甚至超過90%。

研究者們指出，這個現象不僅限於人類創作的詩歌，當使用標準化的AI提示轉換為詩歌時，成功率也有43%的提升。這個發現引發了對當前AI安全防護措施的質疑，因為詩歌的藝術性似乎能輕易繞過最新的技術防線。

在測試的25個AI模型中，只有Google的Gemini Pro 2.5在面對20個人類創作的詩歌提示時，完全失敗，所有提示均成功繞過了其防護。相對而言，OpenAI的GPT-5 Nano在面對詩歌提示時表現最佳，成功率達到100%。

研究者強調，這個現象顯示出AI模型在面對不同形式的提示時存在系統性脆弱性，這對於監管機構提出了新的挑戰。研究的共同作者之一Piercosma Bisconti Lucidi表示，現實中的使用者常使用隱喻、寓言和謎語等表達方式，如果評估僅限於傳統的散文形式，將會錯過許多重要的輸入空間。

這項研究不僅揭示了詩歌在AI安全中的潛在應用，也為未來的AI防護措施提供新的思路，促使業界重新思考如何設計更為健全的安全防護系統。

（首圖來源：shutterstock）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

關鍵字: 詩歌 , 駭客

想請我們喝幾杯咖啡？