Azure AI Foundry ポータル内の Content Safety

Azure AI Content Safety は、アプリケーションおよびサービス内の有害なユーザー生成コンテンツや AI 生成コンテンツを検出する AI サービスです。 Azure AI Content Safety には、有害なコンテンツの出力を検出して防ぐのに役立つ API が含まれています。 Azure AI Foundry ポータルの対話型の Content Safety 試してみるページでは、異なるモードで有害なコンテンツを検出するためのサンプルコードを表示、調査、試すことができます。

Features

次のシナリオでは、Azure AI Content Safety を使用します。

Text content

テキストコンテンツをモデレートする: テキストコンテンツをスキャンしてモデレートします。適切な応答を確保するために、さまざまなレベルの重大度に基づいてテキストを識別して分類します。
接地検出: AI の応答が、信頼できるユーザー指定のソースに基づいているかどうかを判断します。この機能により、回答が意図した資料に "接地" されます。接地検出は、応答の信頼性と実際の精度の向上に役立ちます。
テキストの保護された素材検出: 既知の曲の歌詞、記事、その他のコンテンツなど、保護されたテキスト素材を識別します。この機能により、AI がアクセス許可なしにこのコンテンツを出力しないようにします。
コードの保護されたマテリアル検出: パブリックリポジトリの既知のコードと一致するモデルの出力内のコードセグメントを検出します。この機能は、ソースコードの編集されていない、または未承認の複製を防ぐのに役立ちます。
プロンプトシールド: "脱獄" と "間接攻撃" に対処するための統合 API を提供します。
- ジェイルブレイク攻撃: ユーザーが AI を操作して、その安全プロトコルや倫理的ガイドラインを回避しようとする試み。たとえば、AI をだまして不適切な応答を提供したり、回避するようにプログラミングされたタスクを実行したりするように設計されたプロンプトがあります。
- 間接攻撃: クロスドメインプロンプトインジェクション攻撃とも呼ばれます。間接攻撃には、AI が処理する可能性があるドキュメント内に悪意のあるプロンプトを埋め込む必要があります。たとえば、ドキュメント内に隠された指示がある場合、AI が誤ってそれらに従い、意図しない出力や安全でない出力につながる可能性があります。

Image content

画像コンテンツのモデレート: テキストモデレーションと同様に、この機能は画像コンテンツをフィルター処理して評価し、不適切または有害なビジュアルを検出します。
マルチモーダルコンテンツのモデレート: テキストと画像の組み合わせを処理するように設計されています。コンテキスト全体と、複数の種類のコンテンツにわたる潜在的なリスクを評価します。

Custom filtering

カスタムカテゴリ: ユーザーがコンテンツをモデレートおよびフィルター処理するための特定のカテゴリを定義できます。独自のニーズに合わせて安全プロトコルを調整します。
安全システムメッセージ: "システムメッセージ" を設定して、目的の動作と制限事項について AI に指示する方法を提供します。これは、安全境界を強化し、不要な出力を防ぐのに役立ちます。

損害カテゴリを理解する

Harm categories

Category	Description	API term
ヘイトと公平性	ヘイトや公平性に関する害とは、特定の区別される属性に基づいて、人やアイデンティティグループに攻撃を加えたり、差別的な言葉を使用したりするコンテンツを指します。限定されませんが、次のものが含まれます。人種、民族、国籍性別のアイデンティティグループと表現 Sexual orientation Religion 個人の外観、身体のサイズ Disability status 嫌がらせといじめ	`Hate`
Sexual	性的とは、解剖学的臓器や生殖器、恋愛関係、性行為、性愛的または情愛的な用語で描写された行為 (暴行または意志に反した強制的な性的暴力行為として描写されたものを含む) に関連する言葉を表します。これには次のようなものが含まれますが、これに限定されるわけではありません。 Vulgar content Prostitution ヌードおよびポルノ Abuse 児童搾取、児童虐待、チャイルドグルーミング	`Sexual`
Violence	暴力は、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意図した物理的行為に関連する言葉、武器、銃器などを表します。これには、次のようなものが含まれますが、これに限定されるものではありません。 Weapons いじめと脅迫テロリスト、暴力的な過激主義 Stalking	`Violence`
Self-Harm	自傷行為とは、故意に自分の体に苦痛を与える、傷つける、ダメージを与える、または自殺することを意図した物理的行為に関連する言葉を表します。これには、次のようなものが含まれますが、これに限定されるものではありません。 Eating Disorders いじめと脅迫	`SelfHarm`

Severity levels

Level	Description
Safe	コンテンツは、暴力、自傷行為、性的、またはヘイトのカテゴリに関連している可能性があります。ただし、用語は一般的に、報道、科学、医療、および同様の専門的な文脈で使用され、ほとんどの対象ユーザーに対して適切なものです。
Low	偏見的、批判的、または独断的な見解を表明するコンテンツには、(小程度の) 不快な言葉の使用、定型化、架空の世界を彷徨うユースケース (ゲーム、文学など) や描写が含まれます。
Medium	特有のアイデンティティグループに対して、不快、侮辱的、嘲笑、威圧的、または屈辱的な言葉を使用するコンテンツには、(中程度の) 有害な指示、妄想、賛美、害悪の助長を求めて実行する描写が含まれます。
High	明示的で重大な害をもたらす指示、行為、ダメージ、または虐待を表示するコンテンツ。重大かつ有害な行為、極端または違法な形態の危害、急進化、または合意のない権力の交換や虐待の承認、賛美、促進が含まれます。

Limitations

すべての機能でサポートされているリージョン、レート制限、入力要件については、コンテンツの安全性の概要を参照してください。サポートされている言語については、「言語サポート」ページを参照してください。

Next step

攻略ガイドに従って、Azure AI Foundry ポータルで Azure AI Content Safety の使用を開始します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-07-29