Azure AI Foundry には、コア モデルとイメージ生成モデルと共に動作するコンテンツ フィルタリング システムが含まれています。
重要
コンテンツ フィルタリング システムは、Azure AI Foundry Models の Azure OpenAI のささやきモデルによって処理されるプロンプトと入力候補には適用されません。 Azure OpenAI の Whisper モデルの詳細を確認してください。
動作方法
コンテンツ フィルタリング システムは Azure AI Content Safety を利用しており、有害なコンテンツの出力を検出して防止するように設計された一連の分類モデルを使用して、モデル プロンプトの入力と完了の両方の出力を実行することで機能します。 API 設定の違いやアプリケーション設計の違いは、補完結果に影響を与え、そのためフィルター処理の動作にも影響を与える場合があります。
Azure OpenAI モデルのデプロイでは、既定のコンテンツ フィルターを使用することも、独自のコンテンツ フィルターを作成することもできます (後述)。 サーバーレス API デプロイで使用できるモデルでは、コンテンツ フィルター処理が既定で有効になっています。 サーバーレス API デプロイで有効になっている既定のコンテンツ フィルターの詳細については、「 Azure によって直接販売されるモデルのコンテンツの安全性 」を参照してください。
言語のサポート
コンテンツ フィルター処理モデルは、英語、ドイツ語、日本語、スペイン語、フランス語、イタリア語、ポルトガル語、中国語でトレーニングおよびテストされています。 ただし、このサービスは他の多くの言語でも動作しますが、品質は異なる場合があります。 いずれの場合も、独自のテストを実行して、アプリケーションに対して動作することを確認する必要があります。
コンテンツ リスク フィルター (入力と出力のフィルター)
次の特殊なフィルターは、生成 AI モデルの入力と出力の両方で機能します。
カテゴリ
カテゴリ | 説明 |
---|---|
憎しみ | 憎悪カテゴリは、人種、民族、国籍、性同一性と性表現、性的指向、宗教、在留資格、能力状態、容姿、体格などを含む (ただし、これらに限定しない) これらのグループ特有の識別属性に基づいて、個人またはアイデンティティ グループに関連した、軽蔑的または差別的な言葉などの言葉による攻撃または言葉の使用を表します。 |
性的 | 性的カテゴリは、解剖学的臓器や生殖器、恋愛関係、性愛的または情愛的な用語で描写された行為、物理的な性的行為 (暴行または意志に反した強制的な性的暴力行為として描写されたものを含む)、売春、ポルノ、虐待に関連する言葉を表します。 |
暴力 | 暴力カテゴリは、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意図した物理的行為に関連する言葉、武器などを表します。 |
自傷行為 | 自傷行為カテゴリは、故意に自分の体に苦痛を与える、傷つける、損傷を与える、自死を意図した物理的行為に関連する言葉を表します。 |
重大度レベル
カテゴリ | 説明 |
---|---|
安全 | コンテンツは、暴力、自傷行為、性的、または憎悪カテゴリに関連している場合がありますが、用語は一般的に、報道、科学、医療、および同様の専門的なコンテキストで使用され、ほとんどの対象ユーザーに対して適切なものです。 |
低 | 偏見的、批判的、または独断的な見解を表明するコンテンツには、(小程度の) 不快な言葉の使用、定型化、架空の世界を彷徨うユース ケース (ゲーム、文学など) や描写が含まれます。 |
ミディアム | 特有のアイデンティティ グループに対して、不快、侮辱的、嘲笑、威圧的、または屈辱的な言葉を使用するコンテンツには、(中程度の) 有害な指示、妄想、賛美、害悪の助長を求めて実行する描写が含まれます。 |
高 | 明示的で重大な害をもたらす指示、行為、ダメージ、または虐待を表示するコンテンツ。重大かつ有害な行為、極端または違法な形態の危害、急進化、または合意のない権力の交換や虐待の承認、賛美、促進が含まれます。 |
その他の入力フィルター
以下の生成 AI のシナリオに対しては、特別なフィルターを有効にすることもできます。
- 脱獄攻撃: 脱獄攻撃とは、生成 AI モデルが回避するようにトレーニングされた振舞いを示すように誘導したり、システム メッセージ内に設定されたルールを破ったりするように設計されたユーザー プロンプトのことです。
- 間接攻撃: 間接プロンプト攻撃またはクロスドメイン プロンプト インジェクション攻撃とも呼ばれる間接攻撃とは、生成 AI システムがアクセスして処理できるドキュメント内に、第三者が悪意のある命令を配置するという潜在的な脆弱性のことです。
その他の出力フィルター
以下の特殊な出力フィルターを有効にすることもできます。
- テキストに関する保護されたマテリアル: 保護されたマテリアル テキストとは、大規模言語モデルによって出力される可能性のある既知のテキスト コンテンツ (たとえば、曲の歌詞、記事、レシピ、一部の Web コンテンツなど) のことを指します。
- コードに関する保護されたマテリアル: 保護されたマテリアル コードとは、大規模言語モデルによって適切なソース リポジトリの引用なしで出力される可能性がある、パブリック リポジトリの一連のソース コードと一致するソース コードのことを指します。
- 典拠性: 典拠性検出フィルターは、大規模言語モデル (LLM) のテキスト応答が、ユーザーによって指定されたソース資料を典拠としているかどうかを検出します。
Azure AI Foundry でコンテンツ フィルターを作成する
Azure AI Foundry のモデル デプロイでは、既定のコンテンツ フィルターを直接使用できますが、より詳細な制御が必要な場合があります。 たとえば、フィルターをより厳密にしたり、より緩やかにしたり、プロンプト シールドや保護されたマテリアルの検出などのより高度な機能を有効にしたりできます。
重要
GPT-image-1 モデルでは、コンテンツ フィルタリング構成はサポートされていません。既定のコンテンツ フィルターのみが使用されます。
ヒント
Azure AI Foundry プロジェクトのコンテンツ フィルターに関するガイダンスについては、 Azure AI Foundry コンテンツ のフィルター処理に関するページを参照してください。
コンテンツ フィルターを作成するには、以下の手順に従います。
ヒント
Azure AI Foundry ポータルで 左側のウィンドウをカスタマイズ できるため、これらの手順に示されている項目とは異なる項目が表示される場合があります。 探しているものが表示されない場合は、左側のペインの下部にある… もっと見るを選択してください。
Azure AI Foundry に移動し、プロジェクトに移動します。 次に、左側のメニューから [Guardrails + controls ] ページを選択し、[ コンテンツ フィルター ] タブを選択します。
[ + コンテンツ フィルターの作成] を選択します。
[ 基本情報 ] ページで、コンテンツ フィルタリング構成の名前を入力します。 コンテンツ フィルターに関連付ける接続を選択します。 次に、[次へ] を選択します。
次に、入力フィルター (ユーザー プロンプト用) と出力フィルター (モデル補完用) を構成できます。
[ 入力フィルター ] ページでは、入力プロンプトのフィルターを設定できます。 最初の 4 つのコンテンツ カテゴリには、低、中、高の 3 つの重大度レベルを構成できます。 アプリケーションまたは使用シナリオで既定値とは異なるフィルター処理が必要であると判断した場合は、スライダーを使用して重大度のしきい値を設定できます。 フィルターの中には、たとえば "プロンプト シールド" や "保護されたマテリアルの検出" のように、モデルがコンテンツに注釈を付けたりブロックしたりする必要があるかどうかの判断に利用できるものがあります。 [注釈] を選択すると、それぞれのモデルのみが実行され、API 応答を介して注釈が返されますが、コンテンツはフィルター処理されません。 注釈を付けるだけでなく、コンテンツをブロックすることもできます。
お客様のユース ケースで修正済みコンテンツ フィルターの使用が承認された場合は、お客様はコンテンツ フィルタリング構成のあらゆる面の制御が可能であり、フィルタリングを部分的または完全にオフにするかどうか、または有害なコンテンツ カテゴリ (暴力、憎悪、性的、自傷行為) に対してのみ注釈を付けるかどうかを選択できます。
コンテンツはカテゴリによって注釈付けされ、ユーザーが設定したしきい値に従ってブロックされます。 暴力、憎悪、性的、自傷行為のカテゴリに関して、スライダーを調整して、重大度が高、中、または低のコンテンツをブロックします。
[ 出力フィルター ] ページでは、モデルによって生成されるすべての出力コンテンツに適用される出力フィルターを構成できます。 以前と同じように個々のフィルターを構成します。 このページには、ストリーミング モード オプションもあります。このオプションでは、モデルによって生成されるほぼリアルタイムのタイミングでコンテンツにフィルターを適用できます。待ち時間が短縮されます。 完了したら、[ 次へ] を選択します。
コンテンツは各カテゴリによって注釈付けされ、しきい値に従ってブロックされます。 暴力コンテンツ、憎悪コンテンツ、性的コンテンツ、自傷行為コンテンツ カテゴリに関して、しきい値を調整して、重大度レベルがそれ以上の有害なコンテンツをブロックします。
必要に応じて、[ 展開] ページで、コンテンツ フィルターを展開に関連付けることができます。 選択されたデプロイにフィルターが既にアタッチされている場合、それを置き換えることを確認する必要があります。 コンテンツ フィルターを後でデプロイに関連付けることもできます。 を選択してを作成します。
コンテンツ フィルター構成は、 Azure AI Foundry ポータルのハブ レベルで作成されます。 構成の詳細については、 Azure AI Foundry Models の Azure OpenAI ドキュメントを参照してください。
[ 確認 ] ページで、設定を確認し、[ フィルターの作成] を選択します。
ブロックリストをフィルターとして使用する
ブロックリストは、入力フィルター、出力フィルター、またはその両方として適用できます。 [入力フィルター] ページまたは [出力フィルター] ページで [ブロックリスト] オプションを有効にします。 ドロップダウンから 1 つ以上のブロックリストを選択するか、組み込みの不適切表現のブロックリストを使用します。 複数のブロックリストを同じフィルターに結合することができます。
コンテンツ フィルターを適用する
フィルター作成プロセスには、必要なデプロイにフィルターを適用するオプションがあります。 デプロイのコンテンツ フィルターはいつでも変更または削除することもできます。
コンテンツ フィルターをデプロイに適用するには、以下の手順に従います。
Azure AI Foundry に移動し、プロジェクトを選択します。
左側のウィンドウで [ モデルとエンドポイント ] を選択し、いずれかのデプロイを選択し、[ 編集] を選択します。
[ 展開の更新 ] ウィンドウで、展開に適用するコンテンツ フィルターを選択します。 [ 保存して閉じる] を選択します。
必要に応じて、コンテンツ フィルター構成を編集および削除することもできます。 コンテンツ フィルタリング構成を削除する前に、[ 展開 ] タブの展開から割り当てを解除して置き換える必要があります。
これで、プレイグラウンドに移動して、コンテンツ フィルターが想定どおりに動作するかどうかをテストできます。
ヒント
REST API を使用してコンテンツ フィルターを作成および更新することもできます。 詳細については、 API リファレンスを参照してください。 コンテンツ フィルターは、リソース レベルで構成できます。 新しい構成を作成したら、1 つ以上のデプロイに関連付けることができます。 モデルデプロイの詳細については、リソース デプロイガイドを参照してください。
構成可能性 (プレビュー)
Azure AI Foundry Models の Azure OpenAI には、すべてのモデルに適用される既定の安全性設定が含まれています (ささやきなどのオーディオ API モデルを除く)。 これらの構成により、コンテンツ フィルタリング モデル、ブロックリスト、プロンプト変換、コンテンツ資格情報など、責任あるエクスペリエンスが既定で提供されます。 詳細については、こちらを参照してください。
また、すべての顧客がコンテンツ フィルターを構成し、ユース ケースの要件に合わせて調整されたカスタム コンテンツ ポリシーを作成することもできます。 この構成機能を使用すると、利用者はプロンプトと補完の設定を個別に調整し、以下の表に示す異なる重大度レベルで各コンテンツ カテゴリのコンテンツをフィルター処理できます。 "安全な" 重大度レベルで検出されたコンテンツは注釈出力でラベル付けされますが、フィルター処理の対象ではなく、構成できません。
重大度がフィルタリングされた | プロンプト用に構成可能 | 入力候補用に構成可能 | 説明 |
---|---|---|---|
[低]、[中]、[高] | イエス | イエス | 最も厳密なフィルタリング構成。 重大度レベルが低、中、高で検出されたコンテンツはフィルタリングされます。 |
中、高 | イエス | イエス | 低い重大度レベルの検出されたコンテンツはフィルター処理されず、中および高のコンテンツはフィルター処理されます。 |
高 | イエス | イエス | 重大度レベルが低および中で検出されたコンテンツはフィルター処理されません。 重大度レベルが高のコンテンツのみがフィルタリングされます。 |
フィルターなし | 承認された場合 1 | 承認された場合 1 | 重大度レベルの検出に関係なく、コンテンツはフィルタリングされません。 承認が必要1. |
注釈のみ | 承認された場合 1 | 承認された場合 1 | フィルター機能を無効にするため、コンテンツはブロックされませんが、注釈は API 応答を介して返されます。 承認が必要1. |
1 Azure OpenAI モデルの場合、変更されたコンテンツ フィルタリングを承認されたお客様のみコンテンツのフィルター処理を完全に制御でき、コンテンツ フィルターをオフにできます。 次のフォームから修正コンテンツ フィルターを申請してください: Azure OpenAI 制限付きアクセス レビュー: 修正コンテンツ フィルター。 Azure Government のお客様の場合は、次のフォームを使用して変更されたコンテンツ フィルターを申請します。 Azure Government - Azure OpenAI の変更されたコンテンツ フィルター処理を要求します。
入力 (プロンプト) と出力 (入力候補) の構成可能なコンテンツ フィルターは、すべての Azure OpenAI モデルで利用できます。
コンテンツ フィルタリング構成は、Azure AI Foundry ポータルのリソース内に作成され、デプロイに関連付けることができます。 コンテンツ フィルターの構成の詳細については、こちらをご覧ください。
Azure OpenAI を統合するアプリケーションが倫理規定に準拠していることを確認する責任は、お客様にあります。
関連コンテンツ
- Azure OpenAI をサポートする基になるモデルの詳細について説明します。
- Azure AI Foundry のコンテンツのフィルター処理では、Azure AI Content Safety を利用します。
- アプリケーションに関連するリスクの理解と軽減策について詳しくは、「Azure OpenAI モデルの責任ある AI プラクティスの概要」をご覧ください。
- Azure AI 評価を使用した生成 AI モデルと AI システム評価の詳細について確認します。