Microsoft Foundry のリスクと安全性の評価 (プレビュー) 透明性に関するメモ

注

このドキュメントは、Microsoft Foundry (クラシック) ポータルに関するものです。

注

このドキュメントは、Microsoft Foundry (新規) ポータルに関するものです。

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

透過性のためのメモとは

AI システムには、テクノロジだけでなく、それを使用することになる人、それによって影響を受けるであろう人、それが展開される環境も含まれます。意図した用途に合ったシステムを作成するには、テクノロジがどのように機能するか、その機能と制限事項は何か、どのように最適なパフォーマンスを実現するかを理解する必要があります。 Microsoft の透明性のためのメモは、AI テクノロジのしくみ、システムのパフォーマンスと動作に影響を与える可能性のあるシステム所有者の選択肢、およびテクノロジ、人、環境を含むシステム全体について検討することの重要性を理解するためのものです。独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透過性のためのメモは、AI の原則を実践に移すための Microsoft の広範な取り組みの一環です。詳細については、Microsoft AI の原則に関するページを参照してください。

Microsoft Foundry のリスクと安全性の評価の基本 (プレビュー)

イントロダクション

Foundry のリスクと安全性の評価により、ユーザーは、テキストコンテンツリスク (ヘイトフルコンテンツ、不公平コンテンツ、性的コンテンツ、暴力コンテンツ、自傷に関連するコンテンツ、直接的および間接的な脱獄の脆弱性、コンテンツ内の保護された素材) に対する生成 AI アプリケーションの出力を評価できます。安全性評価は、敵対的なデータセットを生成して、レッドチーミング操作を加速および強化するのに役立つ場合もあります。 Foundry の安全性評価には、AI システムが安全かつ責任を持って構築され、責任ある AI 原則を運用可能にするという Microsoft のコミットメントが反映されています。

キーワード

憎悪に満ちた不公正なコンテンツ (テキストおよび画像) とは、人種、民族、国籍、性別、性的指向、宗教、移民状態、能力、個人の容姿、体型などを含むがこれらに限定されない要素に基づいて、個人や社会集団に対する憎悪や不公平な表現に関連するあらゆる言葉や描写を指します。不公平性は、AI システムが社会的グループを不公平に扱ったり、表したり、社会的な不公平を創出もしくは貢献したりする場合に発生します。
性的なコンテンツ (テキストおよび画像) には、解剖学的器官や性器、恋愛関係、性愛的な言葉で描写された行為、妊娠、身体的な性的行為 (暴行や性的暴力を含む)、売春、ポルノ、性的虐待に関する言葉や描写が含まれます。
暴力的なコンテンツ (テキストおよび画像) には、他者や物をを傷つける、負傷させる、損害を与える、または殺害することを意図した身体的行為に関する言葉や描写が含まれます。また、武器や銃 (および製造元や団体など関連があるエンティティ) に関する記述も含まれます。
自傷行為に関連するコンテンツ (テキストおよび画像) には、自分の身体を傷つける、負傷させる、損傷を与える、または自殺することを意図した行為に関する言葉や描写が含まれます。
保護された素材コンテンツ (テキスト) は、大規模言語モデルによって出力される可能性のある既知のテキストコンテンツ (歌詞、記事、レシピ、選択された Web コンテンツなど) です。保護された素材の表示を検出して防止すると、組織は知的財産権へのコンプライアンスを維持し、コンテンツの独創性を維持することができます。
保護された素材コンテンツ (画像) は、ロゴやブランド、アートワーク、架空のキャラクターなど、著作権で保護されている特定の保護されたビジュアルコンテンツを指します。画像からテキストへの基盤モデルを使用して、そのようなコンテンツが存在するかどうかがシステムによって識別されます。
直接的な脱獄、直接プロンプト攻撃、またはユーザープロンプトインジェクション攻撃とは、ユーザーがプロンプトを操作して LLM に有害な入力を挿入し、アクションと出力を歪める攻撃を指します。ジェイルブレイクコマンドの例として、'DAN' (Do Anything Now) 攻撃があります。これにより、LLM をだまして不適切なコンテンツを生成させたり、システムによって課された制限を無視させたりすることができます。
間接的な脱獄、間接的なプロンプト攻撃、またはクロスドメインプロンプトインジェクション攻撃とは、AI システムが処理したり基礎となるコンテンツを生成するデータ内に悪意のある命令が隠されている場合を指します。このデータには、開発者やユーザーが直接作成していない電子メール、ドキュメント、Web サイト、その他のソースが含まれる可能性があり、不適切なコンテンツの生成やシステムによって課せられた制限の無視につながる可能性があります。
欠陥率 (コンテンツリスク) は、データセット全体のサイズに関する重大度スケールのしきい値を超えるテストデータセット内のインスタンスの割合として定義されています。
レッドチーミングという用語はこれまで、セキュリティの脆弱性をテストするための体系的な敵対的攻撃を意味していました。大規模言語モデル (LLM) の台頭により、この用語の意味は従来のサイバーセキュリティを枠を超えて拡張され、AI システムのさまざまなプローブ、テスト、攻撃を示す用語として一般的に使用されるようになりました。 LLM では、無害な使用と敵対的な使用の両方によって有害となり得る出力が生成されることがあります。こうした出力は、ヘイトスピーチ、暴力の扇動や賛美、自傷行為に関連するコンテンツへの言及、性的コンテンツなどの有害なコンテンツといったさまざまな形態をとります。

能力

システムの動作

Foundry は、微調整された Azure OpenAI GPT-4o モデルをプロビジョニングし、アプリケーションに対する敵対的攻撃を調整して、高品質のテストデータセットを生成します。その後、コンテンツとセキュリティに関するテストデータセットに注釈を付けるために、別の GPT-4o モデルがプロビジョニングされます。ユーザーがテストする生成 AI アプリケーションエンドポイントを提供すると、セーフティ評価によって、そのエンドポイントに対する静的テストデータセットが、そのコンテンツリスクラベル (非常に低、低、中、高) またはコンテンツリスク検出ラベル (True または False) と AI 生成ラベルの理由とともに出力されます。

活用事例

使用目的

安全性評価は、生成 AI アプリケーションのコンテンツリスクとジェイルブレイクの脆弱性を評価する以外の目的で使用することを意図していません。

生成 AI アプリケーションの事前デプロイの評価: Foundry ポータルまたは Azure AI Python SDK の評価ウィザードを使用して、安全性評価を自動化された方法で評価し、潜在的なコンテンツまたはセキュリティリスクを評価できます。
レッドチーミング操作の強化: 敵対的シミュレーターを使用して、安全性評価では、生成 AI アプリケーションとの敵対的相互作用をシミュレートして、コンテンツとセキュリティのリスクの検出を試みることができます。
関係者にコンテンツとセキュリティのリスクを伝える: Foundry ポータルを使用すると、Foundry プロジェクトへのアクセスを、安全評価の結果と監査者またはコンプライアンス関係者と共有できます。

ユースケース選択時の考慮事項

革新的なソリューションやアプリケーションで Foundry の安全性評価を活用することをお勧めします。ただし、以下にユースケース選択時の考慮事項をいくつか示します。

安全性評価には、人間のループ内を含める必要があります。Foundry の安全性評価などの自動評価を使用するには、ドメインの専門家などの人間のレビュー担当者を含め、エンドユーザーにデプロイする前に生成 AI アプリケーションが徹底的にテストされたかどうかを評価する必要があります。
セーフティ評価には総合的かつ包括的な対象範囲が含まれない: セーフティ評価は、潜在的なコンテンツまたはセキュリティリスクに対するテストを強化する方法を提供できますが、アプリケーションのドメイン、ユースケース、エンドユーザーの種類に特化した手動のレッドチーミング操作を置き換えるよう設計されてはいません。
サポートされるシナリオ:
- 敵対的なシミュレーションの場合: 質問応答、マルチターンチャット、要約、検索、テキストの書き直し、根拠のないコンテンツと根拠のあるコンテンツの生成。
- 自動注釈の場合: 質問応答とマルチターンチャット。
現在、このサービスは、テキスト生成専用の英語ドメインでの使用に最適です。マルチモデルのサポートを含む追加機能は、今後のリリースで検討される予定です。
安全性評価で提供されるコンテンツリスクの対象範囲は、限られた数の疎外されたグループとトピックからサブサンプリングされます。
- ヘイトと不公平のメトリックには、性別 (男性、女性、ノンバイナリーなど)、人種、先祖、民族、国籍 (黒人、メキシコ人、ヨーロッパ人など) の人口統計学的要因について疎外されたグループの限られた数に関する一部の対象範囲が含まれます。性別、人種、先祖、民族、国籍について疎外されたグループがすべて網羅されるわけではありません。ヘイトや不公平に関連するその他の人口統計学的要因には現在、対象範囲がありません (障がい、性別、宗教など)。
- 性的コンテンツ、暴力的コンテンツ、自傷行為に関連するコンテンツのメトリックは、ヘイトや不公平よりも未発達であるこれらの害の暫定的な概念化に基づいています。つまり、測定範囲について、およびこれらの害が発生する可能性があるさまざまな方法を測定対象範囲がどの程度適切に表しているかについて行うことができる主張はより弱いものとなります。これらのコンテンツタイプの対象範囲には、性 (性的暴力、関係、性的行為など)、暴力 (虐待、他人への危害、誘拐など)、自傷行為 (意図的死亡、意図的自傷、摂食障害など) に関連する限られた数のトピックが含まれます。
Foundry の安全性評価では、プラグインや拡張性は現在許可されていません。
品質を最新の状態に保ち、対象範囲を広げるために、Microsoft は、サービスの敵対的シミュレーションと注釈の機能に対する改善の今後のリリースを周期的に行うことを目指します。

技術的な制限事項、運用上の要因、範囲

大規模言語モデル (LLM) の分野は急速なペースで進化し続けるため、安全で信頼性の高い AI システムの配置を確保するために評価手法を継続的に改善する必要があります。 Foundry の安全性評価は、LLM 評価の分野で革新を続ける Microsoft のコミットメントを反映しています。 Microsoft は、お客様の生成 AI アプリケーションの安全性を評価するのに役立つ最適なツールを提供することを目指していますが、効果的な評価は継続的な作業であることも認識しています。
Foundry の安全性評価のカスタマイズは現在制限されています。 Microsoft は、ユーザーが生成 AI アプリケーションエンドポイントに入力を提供することのみを想定しており、Microsoft のサービスが、コンテンツリスクのラベルが付けられた静的データセットを出力します。
最後に、このシステムはいかなるアクションやタスクも自動化せず、生成 AI アプリケーションの出力の評価のみを提供することに注意してください。関与する人間の意思決定者がこの出力を確認した後に、生成 AI アプリケーションまたはシステムをエンドユーザーの運用環境にデプロイする必要があります。

システムパフォーマンス

システムパフォーマンスを向上させるためのベストプラクティス

一部のコンテンツを他のコンテンツよりも機密性の高い方法で扱う可能性があるドメインについては、欠陥率を計算するためのしきい値を調整することを検討してください。
自動安全性評価を使用する場合、コンテンツリスクまたはその推論の重大度について、AI によって生成されたラベルにエラーが発生することがあります。人間が関与する自動安全評価結果の検証を有効にするための手動の人間のフィードバック列があります。

鋳造所の安全評価の検証

評価方法

サポートされているすべてのコンテンツリスクの種類について、0 から 7 の重大度スケールを使用する人間のラベラーと、同じデータセットで 0 から 7 の重大度スケールを使用するセーフティ評価の自動アノテーターの間であいまい一致率を比較することで、品質を内部的に確認しました。リスク領域ごとに、人間のラベラーと自動アノテーターの両方を使用して、500 件の英語のシングルターンテキスト、250 件のシングルターンテキストから画像への生成、および 250 件のマルチモーダルなテキストと画像からテキストへの生成にラベルを付けました。人間のラベラーと自動アノテーターは、まったく同じバージョンの注釈ガイドラインを使用しませんでした。自動アノテーターのガイドラインは人間のガイドラインに由来していましたが、その後、さまざまな程度に逸脱しました (ヘイトと不公平のガイドラインが最も逸脱しました)。これらのわずかな違いから中程度の違いにもかかわらず、Microsoft は、あいまい一致の比較から一般的な傾向や分析情報を共有することは依然として有用であると考えています。この比較では、2 レベルの許容範囲を持つ一致 (人間のラベルが自動アノテーターのラベルと厳密に一致したか、人間のラベルの重大度が 2 レベル未満上または下である)、1 レベルの許容範囲を持つ一致、0 レベルの許容範囲を持つ一致を探しました。

評価結果

全体として、すべての許容範囲レベルで自傷行為や性的コンテンツのリスクで高いあいまい一致率が得られました。暴力とヘイトと不公平については、許容範囲レベル全体のあいまい一致率が低くなりました。これらの結果の一部は、人間のラベラーと自動アノテーターの注釈ガイドラインコンテンツの逸脱の増加や、特定のガイドラインのコンテンツの量と複雑さの増加に起因します。

比較は、若干異なる注釈ガイドラインを使用したエンティティ間で行われますが (したがって、標準的な人間モデルアグリーメント比較ではありません)、これらの比較は、これらの比較のパラメーターを考えると、Foundry の安全性評価から期待できる品質の見積もりを提供します。具体的には、確認したのは英語のサンプルのみであるため、その所見は他の言語には一般化できない可能性があります。また、各データセットサンプルはシングルターンのみで構成されているため、マルチターンシナリオ (ユーザークエリやシステム応答を含む会話のやり取りなど) に対する評価所見の一般化の可能性を検証するために、より多くの実験が必要になります。これらの評価データセットで使用されるサンプルの種類は、サンプルのラベル付けが容易な場合 (たとえば、すべてのサンプルにコンテンツリスクがない場合など)、人間のラベラーと自動アノテーターの間のあいまい一致率にも大きく影響する可能性があります。Microsoft では、あいまい一致率が高くなると想定する場合があります。また、評価のための人間のラベルの品質も、所見の一般化に影響を与える可能性があります。

Foundry の安全性評価を使用目的に合わせて評価・統合

生成 AI アプリケーションの測定と評価は、AI リスク管理に対する包括的なアプローチの重要な部分です。 Foundry の安全性評価は補完的であり、他の AI リスク管理プラクティスと並行して使用する必要があります。ドメインの専門家と人間の関与するレビュー担当者は、生成 AI アプリケーションの設計、開発、配置サイクルで AI 支援の安全性評価を使用する場合に、適切な監視を提供する必要があります。安全性評価の制限事項と使用目的を理解し、Foundry AI 支援安全評価によって生成された出力を分離して利用しないように注意する必要があります。

LLM の非決定論的な性質により、重大度レベルの高い暴力的コンテンツが "非常に低い" または "低い" としてスコア付けされるなど、偽陰性または偽陽性が発生する可能性があります。また、評価結果は、対象ユーザーによって異なる意味を持つ場合があります。たとえば、セーフティ評価で、重大度が "低" である暴力的コンテンツのラベルが生成される可能性があり、これが、この特定の暴力的コンテンツの重大度に関する人間のレビュー担当者の定義と一致しない場合があります。 Foundry ポータルでは、評価結果を表示するときには人間のフィードバック列にサムズアップとサムズダウンが用意されており、人間のレビュー担当者によってどのインスタンスが承認されたか、不適切としてフラグ設定されたかが示されます。評価を共有できる他のユーザーが意思決定のために結果を解釈する方法に関するコンテキストを検討し、各生成 AI アプリケーションが動作する環境内のリスクのレベルに関する適切なレベルの調査を使用して評価結果を検証してください。

次の方法で共有

Microsoft Foundry のリスクと安全性の評価 (プレビュー) 透明性に関するメモ

透過性のためのメモとは

Microsoft Foundry のリスクと安全性の評価の基本 (プレビュー)

イントロダクション

キーワード

能力

システムの動作

活用事例

使用目的

ユース ケース選択時の考慮事項

技術的な制限事項、運用上の要因、範囲

システム パフォーマンス

システム パフォーマンスを向上させるためのベスト プラクティス

鋳造所の安全評価の検証

評価方法

評価結果

Foundry の安全性評価を使用目的に合わせて評価・統合

責任ある AI の詳細を確認する

Foundry の安全性評価の詳細を確認する

フィードバック

その他のリソース

ユースケース選択時の考慮事項

システムパフォーマンス

システムパフォーマンスを向上させるためのベストプラクティス