オープンAIの最先端の言語モデルであるGPT-4oにおける新たなプロンプト・インジェクション技術が、安全ガードレールを回避する方法として注目されています。5月13日にリリースされたGPT-4oは、これまでのモデルよりも速く、効率的で多機能ですが、一部ではユーザー生成コンテンツ管理において未だ古風さが残っています。
MozillaのGenerative AI(GenAI)バグ報奨プログラムマネージャー、マルコ・フィゲロア氏は、新しいレポートで悪意ある行為者がどのようにしてGPT-4oを利用し、そのガードレールを迂回できるかを示しました。鍵となるのは、意図的にモデルを気を散らすことであり、不正な指示を変わった形式でエンコードし、それらを異なるステップに分散することです。
フィゲロア氏は実験で、ChatGPTに通常ならば不可能なこと—ソフトウェア脆弱性のエクスプロイトコードを書くこと—をさせることに成功しました。CVE-2024-41110というDocker内の認可プラグイン周りの脆弱性に対して、この手法が試されました。この脆弱性にはCVSSで9.9という「クリティカル」評価が付けられています。
彼は悪意ある入力を16進数形式でエンコードし、それをデコードするための手順を提供しました。結果として、ChatGPTはこの入力—長い数字とAからFまでの文字列—を受け取り、その指示通りにCVE-2024-41110について調査し、そのためのPythonエクスプロイトを書くようになりました。
この種の攻撃は、モデルが個々のステップではなく全体として何が生成されているかについて深い分析が欠如していることによって可能になります。この問題点についてフィゲロア氏は、「言語モデルはステップごとの指示には従うよう設計されているが、それぞれのステップが最終目標にどう影響するかという深い文脈把握には欠けている」と述べています。
これに対し、Anthropic社など他社製品ではより強固なセキュリティ対策が施されており、この種の攻撃への対応も難易度が高まっているとのことです。今後、OpenAIもこうした課題への対応策を強化する必要があります。
Source link
GIPHY App Key not set. Please check settings