「潛伏AI間諜」系統知道如何找到繞過檢查的方法,包括竊取數據、破壞系統或傳播惡意軟體
Ref
資安領域的攻防戰升級到 AI 領域了
Anthropic 在其研究論文《潛伏間諜:訓練能避過安全訓練的欺騙性大型語言模型》中指出,他們成功訓練出潛伏AI間諜,能繞過多種安全檢查,包括:機器學習模型的安全檢查、用於檢測惡意軟體的安全工具、保護資料的安全措施;研究人員進一步解釋,潛伏AI間諜可以學習如何辨識和繞過惡意軟體檢測工具、在機器學習模型中插入惡意程式碼,躲避模型的安全檢查以及存取受保護的數據,突破安全防線。

--- 以後是 AI 紅隊演練