Azure AI Foundry ポータルでのコンテンツのフィルター処理

Azure AI Foundry には、コアモデルとイメージ生成モデルと共に動作するコンテンツフィルタリングシステムが含まれています。

Important

コンテンツフィルタリングシステムは、Azure AI Foundry Models のささやきモデルによって処理されるプロンプトと入力候補には適用されません。 Azure OpenAI の Whisper モデルの詳細を確認してください。

動作方法

コンテンツフィルタリングシステムは Azure AI Content Safety を利用しており、有害なコンテンツを検出して防止するように設計された一連の分類モデルを使用して、モデルプロンプト入力と完了出力の両方を実行することで機能します。 API 設定の違いやアプリケーション設計の違いは、補完結果に影響を与え、そのためフィルター処理の動作にも影響を与える場合があります。

Azure OpenAI モデルのデプロイでは、既定のコンテンツフィルターを使用することも、独自のコンテンツフィルターを作成することもできます (後述)。 サーバーレス API デプロイで使用できるモデルでは、コンテンツフィルター処理が既定で有効になっています。サーバーレス API デプロイで有効になっている既定のコンテンツフィルターの詳細については、「 Azure によって直接販売されるモデルのコンテンツの安全性」を参照してください。

言語のサポート

コンテンツフィルタリングモデルは、英語、ドイツ語、日本語、スペイン語、フランス語、イタリア語、ポルトガル語、中国語の言語でトレーニングおよびテストされます。ただし、このサービスは他の多くの言語でも動作しますが、品質は異なる場合があります。いずれの場合も、独自のテストを実行して、アプリケーションに対して動作することを確認する必要があります。

コンテンツリスクフィルター (入力と出力のフィルター)

次の特殊なフィルターは、生成 AI モデルの入力と出力の両方で機能します。

Category	Description
Hate	憎悪カテゴリは、人種、民族、国籍、性同一性と性表現、性的指向、宗教、在留資格、能力状態、容姿、体格などを含む (ただし、これらに限定しない) これらのグループ特有の識別属性に基づいて、個人またはアイデンティティグループに関連した、軽蔑的または差別的な言葉などの言葉による攻撃または言葉の使用を表します。
Sexual	性的カテゴリは、解剖学的臓器や生殖器、恋愛関係、性愛的または情愛的な用語で描写された行為、物理的な性的行為 (暴行または意志に反した強制的な性的暴力行為として描写されたものを含む)、売春、ポルノ、虐待に関連する言葉を表します。
Violence	暴力カテゴリは、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意図した物理的行為に関連する言葉、武器などを表します。
Self-Harm	自傷行為カテゴリは、故意に自分の体に苦痛を与える、傷つける、損傷を与える、自死を意図した物理的行為に関連する言葉を表します。

重大度レベル

Category	Description
Safe	コンテンツは、暴力、自傷行為、性的、または憎悪カテゴリに関連している場合がありますが、用語は一般的に、報道、科学、医療、および同様の専門的なコンテキストで使用され、ほとんどの対象ユーザーに対して適切なものです。
Low	偏見、判断的、または意見的な見解を表すコンテンツには、言語の不快な使用、ステレオタイピング、架空の世界を探索するユースケース (ゲーム、文学など)、低強度での描写が含まれます。
Medium	特有のアイデンティティグループに対して、不快、侮辱的、嘲笑、威圧的、または屈辱的な言葉を使用するコンテンツには、(中程度の) 有害な指示、妄想、賛美、害悪の助長を求めて実行する描写が含まれます。
High	明示的で重大な害をもたらす指示、行為、ダメージ、または虐待を表示するコンテンツ。重大かつ有害な行為、極端または違法な形態の危害、急進化、または合意のない権力の交換や虐待の承認、賛美、促進が含まれます。

その他の入力フィルター

以下の生成 AI のシナリオに対しては、特別なフィルターを有効にすることもできます。

脱獄攻撃: 脱獄攻撃とは、生成 AI モデルが回避するようにトレーニングされた振舞いを示すように誘導したり、システムメッセージ内に設定されたルールを破ったりするように設計されたユーザープロンプトのことです。
間接攻撃: 間接プロンプト攻撃またはクロスドメインプロンプトインジェクション攻撃とも呼ばれる間接攻撃とは、生成 AI システムがアクセスして処理できるドキュメント内に、第三者が悪意のある命令を配置するという潜在的な脆弱性のことです。

その他の出力フィルター

以下の特殊な出力フィルターを有効にすることもできます。

テキストの保護された素材: 保護された素材テキストは、大きな言語モデルが出力する可能性がある既知のテキストコンテンツ (曲の歌詞、記事、レシピ、選択した Web コンテンツなど) を表します。
コードの保護されたマテリアル: 保護されたマテリアルコードは、パブリックリポジトリからの一連のソースコードに一致するソースコードを記述します。これは、大規模な言語モデルがソースリポジトリを適切に引用せずに出力する可能性があります。
典拠性: 典拠性検出フィルターは、大規模言語モデル (LLM) のテキスト応答が、ユーザーによって指定されたソース資料を典拠としているかどうかを検出します。
個人を特定できる情報 (PII): PII フィルターは、大規模言語モデル (LLM) のテキスト応答に個人を特定できる情報 (PII) が含まれているかどうかを検出します。 PII とは、名前、住所、電話番号、電子メールアドレス、社会保障番号、運転免許証番号、パスポート番号、または同様の情報など、特定の個人を識別するために使用できる情報を指します。

Azure AI Foundry でコンテンツフィルターを作成する

Azure AI Foundry のモデルデプロイでは、既定のコンテンツフィルターを直接使用できますが、より詳細な制御が必要な場合があります。たとえば、フィルターをより厳密にしたり、より緩やかにしたり、プロンプトシールドや保護されたマテリアルの検出などのより高度な機能を有効にしたりできます。

Important

GPT-image-1 モデルでは、コンテンツフィルタリング構成はサポートされていません。既定のコンテンツフィルターのみが使用されます。

Tip

Azure AI Foundry プロジェクトのコンテンツフィルターに関するガイダンスについては、 Azure AI Foundry コンテンツのフィルター処理に関するページを参照してください。

コンテンツフィルターを作成するには、以下の手順に従います。

Tip

Azure AI Foundry ポータルで左側のウィンドウをカスタマイズできるため、これらの手順に示されている項目とは異なる項目が表示される場合があります。探しているものが表示されない場合は、左側のペインの下部にある… もっと見るを選択してください。

Azure AI Foundry に移動し、プロジェクトに移動します。次に、左側のメニューから [Guardrails + controls ] ページを選択し、[ コンテンツフィルター ] タブを選択します。
[ + コンテンツフィルターの作成] を選択します。
[ 基本情報 ] ページで、コンテンツフィルタリング構成の名前を入力します。コンテンツフィルターに関連付ける接続を選択します。次に、[次へ] を選択します。

次に、入力フィルター (ユーザープロンプト用) と出力フィルター (モデル補完用) を構成できます。
[ 入力フィルター ] ページでは、入力プロンプトのフィルターを設定できます。最初の 4 つのコンテンツカテゴリには、低、中、高の 3 つの重大度レベルを構成できます。アプリケーションまたは使用シナリオで既定値とは異なるフィルター処理が必要であると判断した場合は、スライダーを使用して重大度のしきい値を設定できます。フィルターの中には、たとえば "プロンプトシールド" や "保護されたマテリアルの検出" のように、モデルがコンテンツに注釈を付けたりブロックしたりする必要があるかどうかの判断に利用できるものがあります。 [注釈] を選択すると、それぞれのモデルのみが実行され、API 応答を介して注釈が返されますが、コンテンツはフィルター処理されません。注釈を付けるだけでなく、コンテンツをブロックすることもできます。

お客様のユースケースで修正済みコンテンツフィルターの使用が承認された場合は、お客様はコンテンツフィルタリング構成のあらゆる面の制御が可能であり、フィルタリングを部分的または完全にオフにするかどうか、または有害なコンテンツカテゴリ (暴力、憎悪、性的、自傷行為) に対してのみ注釈を付けるかどうかを選択できます。

コンテンツはカテゴリによって注釈付けされ、ユーザーが設定したしきい値に従ってブロックされます。暴力、憎悪、性的、自傷行為のカテゴリに関して、スライダーを調整して、重大度が高、中、または低のコンテンツをブロックします。
[ 出力フィルター ] ページでは、モデルによって生成されるすべての出力コンテンツに適用される出力フィルターを構成できます。以前と同じように個々のフィルターを構成します。このページには、ストリーミングモードオプションもあります。このオプションでは、モデルによって生成されるほぼリアルタイムのタイミングでコンテンツにフィルターを適用できます。待ち時間が短縮されます。完了したら、[ 次へ] を選択します。

コンテンツは各カテゴリによって注釈付けされ、しきい値に従ってブロックされます。暴力コンテンツ、憎悪コンテンツ、性的コンテンツ、自傷行為コンテンツカテゴリに関して、しきい値を調整して、重大度レベルがそれ以上の有害なコンテンツをブロックします。
必要に応じて、[ 展開] ページで、コンテンツフィルターを展開に関連付けることができます。選択されたデプロイにフィルターが既にアタッチされている場合、それを置き換えることを確認する必要があります。コンテンツフィルターを後でデプロイに関連付けることもできます。 を選択してを作成します。

コンテンツフィルター構成は、 Azure AI Foundry ポータルのハブレベルで作成されます。構成の詳細については、 Azure AI Foundry Models の Azure OpenAI ドキュメントを参照してください。
[ 確認 ] ページで、設定を確認し、[ フィルターの作成] を選択します。

ブロックリストをフィルターとして使用する

ブロックリストは、入力フィルター、出力フィルター、またはその両方として適用できます。 [入力フィルター] ページまたは [出力フィルター] ページで [ブロックリスト] オプションを有効にします。ドロップダウンから 1 つ以上のブロックリストを選択するか、組み込みの不適切表現のブロックリストを使用します。複数のブロックリストを同じフィルターに結合することができます。

コンテンツフィルターを適用する

フィルター作成プロセスには、必要なデプロイにフィルターを適用するオプションがあります。デプロイのコンテンツフィルターはいつでも変更または削除することもできます。

コンテンツフィルターをデプロイに適用するには、以下の手順に従います。

Azure AI Foundry に移動し、プロジェクトを選択します。
左側のウィンドウで [ モデルとエンドポイント ] を選択し、いずれかのデプロイを選択し、[ 編集] を選択します。
[ 展開の更新 ] ウィンドウで、展開に適用するコンテンツフィルターを選択します。 [ 保存して閉じる] を選択します。

必要に応じて、コンテンツフィルター構成を編集および削除することもできます。コンテンツフィルタリング構成を削除する前に、[ 展開 ] タブの展開から割り当てを解除して置き換える必要があります。

これで、プレイグラウンドに移動して、コンテンツフィルターが想定どおりに動作するかどうかをテストできます。

Tip

REST API を使用してコンテンツフィルターを作成および更新することもできます。詳細については、 API リファレンスを参照してください。コンテンツフィルターは、リソースレベルで構成できます。新しい構成を作成したら、1 つ以上のデプロイに関連付けることができます。モデルデプロイの詳細については、リソースデプロイガイドを参照してください。

構成可能性 (プレビュー)

Azure AI Foundry Models の Azure OpenAI には、すべてのモデルに適用される既定の安全性設定が含まれています (ささやきなどのオーディオ API モデルを除く)。これらの構成により、コンテンツフィルタリングモデル、ブロックリスト、プロンプト変換、コンテンツ資格情報など、責任あるエクスペリエンスが既定で提供されます。詳細については、こちらを参照してください。

また、すべての顧客がコンテンツフィルターを構成し、ユースケースの要件に合わせて調整されたカスタムコンテンツポリシーを作成することもできます。この構成機能を使用すると、利用者はプロンプトと補完の設定を個別に調整し、以下の表に示す異なる重大度レベルで各コンテンツカテゴリのコンテンツをフィルター処理できます。 "安全な" 重大度レベルで検出されたコンテンツは注釈出力でラベル付けされますが、フィルター処理の対象ではなく、構成できません。

重大度がフィルタリングされた	プロンプト用に構成可能	入力候補用に構成可能	Descriptions
[低]、[中]、[高]	Yes	Yes	最も厳密なフィルタリング構成。重大度レベルが低、中、高で検出されたコンテンツはフィルタリングされます。
中、高	Yes	Yes	低い重大度レベルの検出されたコンテンツはフィルター処理されず、中および高のコンテンツはフィルター処理されます。
High	Yes	Yes	重大度レベルが低および中で検出されたコンテンツはフィルター処理されません。重大度レベルが高のコンテンツのみがフィルタリングされます。
フィルターなし	承認された場合 ¹	承認された場合 ¹	重大度レベルの検出に関係なく、コンテンツはフィルタリングされません。承認が必要¹.
注釈のみ	承認された場合 ¹	承認された場合 ¹	フィルター機能を無効にするため、コンテンツはブロックされませんが、注釈は API 応答を介して返されます。承認が必要¹.

¹ Azure OpenAI モデルの場合、変更されたコンテンツフィルタリングを承認されたお客様のみコンテンツのフィルター処理を完全に制御でき、コンテンツフィルターをオフにできます。このフォーム「制限付きアクセスレビュー: 変更されたコンテンツフィルター」を使用して、変更されたコンテンツフィルターを申請してください。 Azure Government のお客様の場合は、次のフォームを使用して変更されたコンテンツフィルターを申請します: Azure Government - 変更されたコンテンツフィルター処理を要求します。

入力 (プロンプト) と出力 (入力候補) の構成可能なコンテンツフィルターは、すべての Azure OpenAI モデルで利用できます。

コンテンツフィルタリング構成は、Azure AI Foundry ポータルのリソース内に作成され、デプロイに関連付けることができます。コンテンツフィルターの構成の詳細については、こちらをご覧ください。

Azure OpenAI を統合するアプリケーションが倫理規定に準拠していることを確認する責任は、お客様にあります。

Azure OpenAI をサポートする基になるモデルの詳細について説明します。
Azure AI Foundry のコンテンツのフィルター処理では、Azure AI Content Safety を利用します。
アプリケーションに関連するリスクの理解と軽減策について詳しくは、「Azure OpenAI モデルの責任ある AI プラクティスの概要」をご覧ください。
Azure AI 評価を使用した生成 AI モデルと AI システム評価の詳細について確認します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-07-28

次の方法で共有

Azure AI Foundry ポータルでのコンテンツのフィルター処理

動作方法

言語のサポート

コンテンツ リスク フィルター (入力と出力のフィルター)

Categories

重大度レベル

その他の入力フィルター

その他の出力フィルター

Azure AI Foundry でコンテンツ フィルターを作成する

ブロックリストをフィルターとして使用する

コンテンツ フィルターを適用する

構成可能性 (プレビュー)

関連コンテンツ

フィードバック

その他のリソース

コンテンツリスクフィルター (入力と出力のフィルター)

Azure AI Foundry でコンテンツフィルターを作成する

コンテンツフィルターを適用する