Azure AI Content Safety は、アプリケーションおよびサービス内の有害なユーザー生成コンテンツや AI 生成コンテンツを検出する AI サービスです。 Azure AI Content Safety には、有害なコンテンツの出力を検出して防ぐのに役立つ API が含まれています。 Azure AI Foundry ポータルの対話型の Content Safety 試してみるページでは、異なるモードで有害なコンテンツを検出するためのサンプルコードを表示、調査、試すことができます。
Features
次のシナリオでは、Azure AI Content Safety を使用します。
Text content
- テキスト コンテンツをモデレートする: テキスト コンテンツをスキャンしてモデレートします。 適切な応答を確保するために、さまざまなレベルの重大度に基づいてテキストを識別して分類します。
- 接地検出: AI の応答が、信頼できるユーザー指定のソースに基づいているかどうかを判断します。 この機能により、回答が意図した資料に "接地" されます。 接地検出は、応答の信頼性と実際の精度の向上に役立ちます。
- テキストの保護された素材検出: 既知の曲の歌詞、記事、その他のコンテンツなど、保護されたテキスト 素材を識別します。 この機能により、AI がアクセス許可なしにこのコンテンツを出力しないようにします。
- コードの保護されたマテリアル検出: パブリック リポジトリの既知のコードと一致するモデルの出力内のコード セグメントを検出します。 この機能は、ソース コードの編集されていない、または未承認の複製を防ぐのに役立ちます。
- プロンプト シールド: "脱獄" と "間接攻撃" に対処するための統合 API を提供します。
- ジェイルブレイク攻撃: ユーザーが AI を操作して、その安全プロトコルや倫理的ガイドラインを回避しようとする試み。 たとえば、AI をだまして不適切な応答を提供したり、回避するようにプログラミングされたタスクを実行したりするように設計されたプロンプトがあります。
- 間接攻撃: クロスドメイン プロンプトインジェクション攻撃とも呼ばれます。 間接攻撃には、AI が処理する可能性があるドキュメント内に悪意のあるプロンプトを埋め込む必要があります。 たとえば、ドキュメント内に隠された指示がある場合、AI が誤ってそれらに従い、意図しない出力や安全でない出力につながる可能性があります。
Image content
- 画像コンテンツのモデレート: テキスト モデレーションと同様に、この機能は画像コンテンツをフィルター処理して評価し、不適切または有害なビジュアルを検出します。
- マルチモーダル コンテンツのモデレート: テキストと画像の組み合わせを処理するように設計されています。 コンテキスト全体と、複数の種類のコンテンツにわたる潜在的なリスクを評価します。
Custom filtering
- カスタム カテゴリ: ユーザーがコンテンツをモデレートおよびフィルター処理するための特定のカテゴリを定義できます。 独自のニーズに合わせて安全プロトコルを調整します。
- 安全システム メッセージ: "システム メッセージ" を設定して、目的の動作と制限事項について AI に指示する方法を提供します。 これは、安全境界を強化し、不要な出力を防ぐのに役立ちます。
損害カテゴリを理解する
Harm categories
| Category | Description | API term |
|---|---|---|
| ヘイトと公平性 | ヘイトや公平性に関する害とは、特定の区別される属性に基づいて、人やアイデンティティグループに攻撃を加えたり、差別的な言葉を使用したりするコンテンツを指します。 限定されませんが、次のものが含まれます。
|
Hate |
| Sexual | 性的とは、解剖学的臓器や生殖器、恋愛関係、性行為、性愛的または情愛的な用語で描写された行為 (暴行または意志に反した強制的な性的暴力行為として描写されたものを含む) に関連する言葉を表します。 これには次のようなものが含まれますが、これに限定されるわけではありません。
|
Sexual |
| Violence | 暴力は、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意図した物理的行為に関連する言葉、武器、銃器などを表します。 これには、次のようなものが含まれますが、これに限定されるものではありません。
|
Violence |
| Self-Harm | 自傷行為とは、故意に自分の体に苦痛を与える、傷つける、ダメージを与える、または自殺することを意図した物理的行為に関連する言葉を表します。 これには、次のようなものが含まれますが、これに限定されるものではありません。
|
SelfHarm |
Severity levels
| Level | Description |
|---|---|
| Safe | コンテンツは、暴力、自傷行為、性的、またはヘイトのカテゴリに関連している可能性があります。 ただし、用語は一般的に、報道、科学、医療、および同様の専門的な文脈で使用され、ほとんどの対象ユーザーに対して適切なものです。 |
| Low | 偏見的、批判的、または独断的な見解を表明するコンテンツには、(小程度の) 不快な言葉の使用、定型化、架空の世界を彷徨うユース ケース (ゲーム、文学など) や描写が含まれます。 |
| Medium | 特有のアイデンティティ グループに対して、不快、侮辱的、嘲笑、威圧的、または屈辱的な言葉を使用するコンテンツには、(中程度の) 有害な指示、妄想、賛美、害悪の助長を求めて実行する描写が含まれます。 |
| High | 明示的で重大な害をもたらす指示、行為、ダメージ、または虐待を表示するコンテンツ。重大かつ有害な行為、極端または違法な形態の危害、急進化、または合意のない権力の交換や虐待の承認、賛美、促進が含まれます。 |
Limitations
すべての機能でサポートされているリージョン、レート制限、入力要件については、 コンテンツの安全性の概要を参照してください。 サポートされている言語については、「 言語サポート 」ページを参照してください。
Next step
攻略ガイドに従って、Azure AI Foundry ポータルで Azure AI Content Safety の使用を開始します。