Azure AI Foundry に統合されたコンテンツ フィルタリング システムは、イメージ生成モデルを含むコア モデルと共に実行されます。 マルチクラス分類モデルのアンサンブルを使用して、有害なコンテンツ (暴力、憎悪、性的、自傷行為) の 4 つのカテゴリをそれぞれ 4 つの重大度レベル (安全、低、中、高) で検出し、オプションで二項分類器を使用して、脱獄リスク、既存のテキスト、パブリック リポジトリ内のコードを検出します。
既定のコンテンツ フィルタリング構成では、プロンプトと入力候補の両方で、4 つの有害なコンテンツ カテゴリすべてに対して重大度しきい値 "中" でフィルタリングするように設定されています。 つまり、重大度レベル "中" または "高" で検出されたコンテンツはコンテンツ フィルターによってフィルタリングされますが、重大度レベル "低" で検出されたコンテンツはフィルタリングされません。 コンテンツ カテゴリ、重大度レベル、およびコンテンツ フィルタリング システムの動作の詳細については、 こちらをご覧ください。
プロンプト シールドと保護されたテキストとコード モデルは省略可能であり、既定ではオンになっています。 プロンプト シールドと保護された素材テキストとコード モデルの場合、構成機能を使用すると、すべての顧客がモデルのオンとオフを切り替えられます。 モデルは既定ではオンになっており、シナリオに応じてオフにできます。 一部のモデルは、 お客様の著作権コミットメントに基づいてカバレッジを保持するために、特定のシナリオでオンになっている必要があります。
注
すべての顧客は、コンテンツ フィルターを変更し、重大度のしきい値 (低、中、高) を構成できます。 コンテンツ フィルターを部分的または完全にオフにする場合は、承認が必要です。 管理対象のお客様は、制限 付きアクセス レビュー: 変更されたコンテンツ フィルターのフォームを使用して、完全なコンテンツ フィルター制御のみを適用できます。 現時点では、管理対象のお客様になることはできません。
Von Bedeutung
GPT-image-1 シリーズ モデルでは、コンテンツ フィルターの構成はサポートされていません。既定のコンテンツ フィルターのみが使用されます。
コンテンツ フィルターは、リソース レベルで構成できます。 新しい構成を作成したら、1 つ以上のデプロイに関連付けることができます。 モデル デプロイの詳細については、リソース デプロイ ガイドを参照してください。
[前提条件]
- コンテンツ フィルターを構成するには、Azure OpenAI リソースと大規模言語モデル (LLM) のデプロイが必要です。 クイックスタートに従って作業を開始します。
コンテンツ フィルターの構成可否について
Azure AI Foundry Models の Azure OpenAI には、すべてのモデルに適用される既定の安全性設定が含まれています (ささやきなどのオーディオ API モデルを除く)。 これらの構成により、コンテンツ フィルタリング モデル、ブロックリスト、プロンプト変換、コンテンツ資格情報など、責任あるエクスペリエンスが既定で提供されます。 詳細については、こちらを参照してください。
また、すべての顧客がコンテンツ フィルターを構成し、ユース ケースの要件に合わせて調整されたカスタム コンテンツ ポリシーを作成することもできます。 この構成機能を使用すると、利用者はプロンプトと補完の設定を個別に調整し、以下の表に示す異なる重大度レベルで各コンテンツ カテゴリのコンテンツをフィルター処理できます。 "安全な" 重大度レベルで検出されたコンテンツは注釈出力でラベル付けされますが、フィルター処理の対象ではなく、構成できません。
重大度がフィルタリングされた | プロンプト用に構成可能 | 入力候補用に構成可能 | 説明 |
---|---|---|---|
[低]、[中]、[高] | イエス | イエス | 最も厳密なフィルタリング構成。 重大度レベルが低、中、高で検出されたコンテンツはフィルタリングされます。 |
中、高 | イエス | イエス | 低い重大度レベルの検出されたコンテンツはフィルター処理されず、中および高のコンテンツはフィルター処理されます。 |
高 | イエス | イエス | 重大度レベルが低および中で検出されたコンテンツはフィルター処理されません。 重大度レベルが高のコンテンツのみがフィルタリングされます。 |
フィルターなし | 承認された場合 1 | 承認された場合 1 | 重大度レベルの検出に関係なく、コンテンツはフィルタリングされません。 承認が必要1. |
注釈のみ | 承認された場合 1 | 承認された場合 1 | フィルター機能を無効にするため、コンテンツはブロックされませんが、注釈は API 応答を介して返されます。 承認が必要1. |
1 Azure OpenAI モデルの場合、変更されたコンテンツ フィルタリングを承認されたお客様のみコンテンツのフィルター処理を完全に制御でき、コンテンツ フィルターをオフにできます。 このフォーム「制限付きアクセスレビュー: 変更されたコンテンツフィルター」を使用して、変更されたコンテンツフィルターを申請してください。 Azure Government のお客様の場合は、次のフォームを使用して変更されたコンテンツ フィルターを申請します: Azure Government - 変更されたコンテンツ フィルター処理を要求します。
入力 (プロンプト) と出力 (入力候補) の構成可能なコンテンツ フィルターは、すべての Azure OpenAI モデルで利用できます。
コンテンツ フィルタリング構成は、Azure AI Foundry ポータルのリソース内に作成され、デプロイに関連付けることができます。 コンテンツ フィルターの構成の詳細については、こちらをご覧ください。
Azure OpenAI を統合するアプリケーションが倫理規定に準拠していることを確認する責任は、お客様にあります。
その他のフィルターについて
既定の危害カテゴリ フィルターに加えて、次のフィルター カテゴリを構成できます。
フィルター カテゴリー | ステータス | 既定の設定 | プロンプトと入力候補のどちらに適用されますか? | 説明 |
---|---|---|---|---|
直接攻撃に関するプロンプト シールド (ジェイルブレイク) | GA | On | ユーザー プロンプト | ジェイルブレイク リスクがあるかもしれないユーザー プロンプトをフィルター処理/注釈付けします。 注釈の詳細については、 Azure AI Foundry コンテンツ のフィルター処理に関するページを参照してください。 |
間接攻撃に関するプロンプト シールド | GA | Off | ユーザー プロンプト | 生成 AI システムがアクセスして処理できるドキュメント内に、第三者が悪意のある命令を配置する潜在的な脆弱性である間接攻撃 (別名、間接プロンプト攻撃またはクロスドメイン プロンプト インジェクション攻撃) をフィルター処理/注釈付けします。 必須: ドキュメントの埋め込みと書式設定。 |
保護された素材 - コード | GA | On | 完了 | 保護されたコードをフィルター処理するか、GitHub Copilot を利用して何らかのパブリック コード ソースと一致するコード スニペット用の注釈内の引用とライセンスの情報の例を取得します。 注釈の使用の詳細については、保護されたマテリアルの概念ガイドを参照してください。 |
保護された素材 - テキスト | GA | On | 完了 | 既知のテキスト コンテンツを識別し、モデル出力内でそれが表示されることをブロックします (たとえば、曲の歌詞、レシピ、選択した Web コンテンツなど)。 |
地に足のついた状態 | プレビュー | Off | 完了 | 大規模言語モデル (LLM) のテキスト応答が、ユーザーが提供するソース資料に基づいているかどうかを検出します。 根拠なしとは、ソース資料に存在していた事実に基づかない、または不正確な情報が LLM から生成されることを指します。 必須: ドキュメントの埋め込みと書式設定。 |
個人を特定できる情報 (PII) | プレビュー | Off | 完了 | 名前、住所、電話番号、電子メール アドレス、社会保障番号、運転免許証番号、パスポート番号、または同様の情報など、特定の個人を識別するために使用できる情報をフィルター処理します。 |
Azure AI Foundry でコンテンツ フィルターを作成する
Azure AI Foundry のモデル デプロイでは、既定のコンテンツ フィルターを直接使用できますが、より詳細な制御が必要な場合があります。 たとえば、フィルターをより厳密にしたり、より緩やかにしたり、プロンプト シールドや保護されたマテリアルの検出などのより高度な機能を有効にしたりできます。
Von Bedeutung
GPT-image-1 モデルでは、コンテンツ フィルタリング構成はサポートされていません。既定のコンテンツ フィルターのみが使用されます。
ヒント
Azure AI Foundry プロジェクトのコンテンツ フィルターに関するガイダンスについては、 Azure AI Foundry コンテンツ のフィルター処理に関するページを参照してください。
コンテンツ フィルターを作成するには、以下の手順に従います。
ヒント
Azure AI Foundry ポータルで 左側のウィンドウをカスタマイズ できるため、これらの手順に示されている項目とは異なる項目が表示される場合があります。 探しているものが表示されない場合は、左側のペインの下部にある… もっと見るを選択してください。
Azure AI Foundry に移動し、プロジェクトに移動します。 次に、左側のメニューから [Guardrails + controls ] ページを選択し、[ コンテンツ フィルター ] タブを選択します。
[ + コンテンツ フィルターの作成] を選択します。
[ 基本情報 ] ページで、コンテンツ フィルタリング構成の名前を入力します。 コンテンツ フィルターに関連付ける接続を選択します。 次に、[次へ] を選択します。
次に、入力フィルター (ユーザー プロンプト用) と出力フィルター (モデル補完用) を構成できます。
[ 入力フィルター ] ページでは、入力プロンプトのフィルターを設定できます。 最初の 4 つのコンテンツ カテゴリには、低、中、高の 3 つの重大度レベルを構成できます。 アプリケーションまたは使用シナリオで既定値とは異なるフィルター処理が必要であると判断した場合は、スライダーを使用して重大度のしきい値を設定できます。 フィルターの中には、たとえば "プロンプト シールド" や "保護されたマテリアルの検出" のように、モデルがコンテンツに注釈を付けたりブロックしたりする必要があるかどうかの判断に利用できるものがあります。 [注釈] を選択すると、それぞれのモデルのみが実行され、API 応答を介して注釈が返されますが、コンテンツはフィルター処理されません。 注釈を付けるだけでなく、コンテンツをブロックすることもできます。
お客様のユース ケースで修正済みコンテンツ フィルターの使用が承認された場合は、お客様はコンテンツ フィルタリング構成のあらゆる面の制御が可能であり、フィルタリングを部分的または完全にオフにするかどうか、または有害なコンテンツ カテゴリ (暴力、憎悪、性的、自傷行為) に対してのみ注釈を付けるかどうかを選択できます。
コンテンツはカテゴリによって注釈付けされ、ユーザーが設定したしきい値に従ってブロックされます。 暴力、憎悪、性的、自傷行為のカテゴリに関して、スライダーを調整して、重大度が高、中、または低のコンテンツをブロックします。
[ 出力フィルター ] ページでは、モデルによって生成されるすべての出力コンテンツに適用される出力フィルターを構成できます。 以前と同じように個々のフィルターを構成します。 このページには、ストリーミング モード オプションもあります。このオプションでは、モデルによって生成されるほぼリアルタイムのタイミングでコンテンツにフィルターを適用できます。待ち時間が短縮されます。 完了したら、[ 次へ] を選択します。
コンテンツは各カテゴリによって注釈付けされ、しきい値に従ってブロックされます。 暴力コンテンツ、憎悪コンテンツ、性的コンテンツ、自傷行為コンテンツ カテゴリに関して、しきい値を調整して、重大度レベルがそれ以上の有害なコンテンツをブロックします。
必要に応じて、[ 展開] ページで、コンテンツ フィルターを展開に関連付けることができます。 選択されたデプロイにフィルターが既にアタッチされている場合、それを置き換えることを確認する必要があります。 コンテンツ フィルターを後でデプロイに関連付けることもできます。 を選択してを作成します。
コンテンツ フィルター構成は、 Azure AI Foundry ポータルのハブ レベルで作成されます。 構成の詳細については、 Azure AI Foundry Models の Azure OpenAI ドキュメントを参照してください。
[ 確認 ] ページで、設定を確認し、[ フィルターの作成] を選択します。
ブロックリストをフィルターとして使用する
ブロックリストは、入力フィルター、出力フィルター、またはその両方として適用できます。 [入力フィルター] ページまたは [出力フィルター] ページで [ブロックリスト] オプションを有効にします。 ドロップダウンから 1 つ以上のブロックリストを選択するか、組み込みの不適切表現のブロックリストを使用します。 複数のブロックリストを同じフィルターに結合することができます。
コンテンツ フィルターを適用する
フィルター作成プロセスには、必要なデプロイにフィルターを適用するオプションがあります。 デプロイのコンテンツ フィルターはいつでも変更または削除することもできます。
コンテンツ フィルターをデプロイに適用するには、以下の手順に従います。
Azure AI Foundry に移動し、プロジェクトを選択します。
左側のウィンドウで [ モデルとエンドポイント ] を選択し、いずれかのデプロイを選択し、[ 編集] を選択します。
[ 展開の更新 ] ウィンドウで、展開に適用するコンテンツ フィルターを選択します。 [ 保存して閉じる] を選択します。
必要に応じて、コンテンツ フィルター構成を編集および削除することもできます。 コンテンツ フィルタリング構成を削除する前に、[ 展開 ] タブの展開から割り当てを解除して置き換える必要があります。
これで、プレイグラウンドに移動して、コンテンツ フィルターが想定どおりに動作するかどうかをテストできます。
ヒント
REST API を使用してコンテンツ フィルターを作成および更新することもできます。 詳細については、 API リファレンスを参照してください。 コンテンツ フィルターは、リソース レベルで構成できます。 新しい構成を作成したら、1 つ以上のデプロイに関連付けることができます。 モデルデプロイの詳細については、リソース デプロイガイドを参照してください。
要求時にコンテンツ フィルター構成を指定する (プレビュー)
デプロイ レベルのコンテンツ フィルタリング構成に加えて、API 呼び出しごとに要求時にカスタム構成を指定できる要求ヘッダーも用意されています。
curl --request POST \
--url 'URL' \
--header 'Content-Type: application/json' \
--header 'api-key: API_KEY' \
--header 'x-policy-id: CUSTOM_CONTENT_FILTER_NAME' \
--data '{
"messages": [
{
"role": "system",
"content": "You are a creative assistant."
},
{
"role": "user",
"content": "Write a poem about the beauty of nature."
}
]
}'
要求レベルのコンテンツ フィルター構成は、特定の API 呼び出しのデプロイ レベルの構成をオーバーライドします。
Von Bedeutung
要求時のコンテンツ フィルターの仕様は、画像入力 (画像とのチャット) シナリオでは使用できません。 このような場合は、既定のコンテンツ フィルターが使用されます。
存在しない構成が指定されている場合は、次のエラー メッセージが返されます。
{
"error":
{
"code": "InvalidContentFilterPolicy",
"message": "Your request contains invalid content filter policy. Please provide a valid policy."
}
}
コンテンツ フィルタリングのフィードバックを報告する
コンテンツ フィルタリングの問題が発生した場合は、プレイグラウンドの上部にある [フィードバックのフィルター] ボタンを選択します。 これは、プロンプトを送信すると 、[イメージ]、[チャット]、[完了] のプレイグラウンドで有効になります。
ダイアログが表示されたら、該当するコンテンツ フィルタリングの問題を選択します。 コンテンツ フィルタリングの問題に関連する情報をできるだけ詳しく記述してください。たとえば、具体的なプロンプトと発生したコンテンツ フィルタリング エラーです。 個人情報や機密情報が含まれないようにしてください。
サポートについては、 サポート チケットを送信してください。
ベスト プラクティスに従う
反復的な特定 (レッド チーム テスト、ストレス テスト、分析など) と測定のプロセスを通じてコンテンツ フィルタリング構成の決定を通知し、特定のモデル、アプリケーション、デプロイ シナリオに関連する潜在的な損害に対処することをお勧めします。 コンテンツ フィルタリングなどの軽減策を実装した後、測定を繰り返して有効性をテストします。 Microsoft Responsible AI Standard に基づいている Azure OpenAI の責任ある AI の推奨事項とベスト プラクティスについては、Azure OpenAI の責任ある AI の概要を参照してください。
関連コンテンツ
- Azure OpenAI の責任ある AI プラクティスの詳細については、Azure OpenAI モデルの責任ある AI プラクティスの概要を参照してください。
- Azure AI Foundry を使用 したコンテンツ フィルタリングのカテゴリと重大度レベル の詳細を確認します。
- 赤のチーミングの詳細については、「 赤いチーミングの大規模言語モデル (LLM) の概要」の記事を参照してください。
- API を使用してコンテンツ フィルターを構成する方法について説明します