Important
英語以外の翻訳は便宜上のみ提供されています。 バインドのバージョンについては、このドキュメントの EN-US
バージョンを参照してください。
Azure OpenAI モデルの多くは、コンテンツやコードの生成、要約、検索などの高度な機能の改善を示す生成 AI モデルです。 これらの改善の多くでは、有害なコンテンツ、操作、人間のような行動、プライバシーなど、責任ある AI の課題も増えています。 これらのモデルの機能、制限事項、および適切なユース ケースの詳細については、「 透明性に関するメモ」を参照してください。
透明性に関するメモに加えて、Azure OpenAI モデルを責任を持って実装する AI システムの設計、開発、デプロイ、使用に役立つ技術的な推奨事項とリソースを提供します。 Microsoft の推奨事項は、 Microsoft の責任ある AI Standard に基づき、独自のエンジニアリング チームが従うポリシー要件を設定します。 Standard のコンテンツの多くはパターンに従い、チームに潜在的な損害の特定、測定、軽減を依頼し、AI システムの運用方法を計画します。 これらのプラクティスに合わせて、これらの推奨事項は 4 つの段階に分かれています。
- 識別 : 反復的なレッド チーミング、ストレス テスト、分析を通じて、AI システムから生じる可能性のある潜在的な損害を特定し、優先順位を付けます。
- 測定 : 明確なメトリックを確立し、測定テスト セットを作成し、反復的で体系的なテスト (手動と自動化の両方) を完了することによって、これらの害の頻度と重大度を測定します。
- 軽減 : 迅速なエンジニアリング や コンテンツ フィルターの使用などのツールと戦略を実装することで、害を軽減します。 軽減策を実装した後に、測定を繰り返して有効性をテストします。
- 運用 : デプロイと運用の準備計画を定義して実行します。
これらのステージは、Microsoft Responsible AI Standard との対応に加えて、 NIST AI リスク管理フレームワークの機能に密接に対応しています。
Identify
責任ある AI ライフサイクルの最初の段階は、AI システムで発生した、または AI システムによって引き起こされる可能性のある潜在的な損害を特定することです。 潜在的な損害を早期に特定し始めるほど、それらを軽減する効果が高まります。 潜在的な損害を評価する場合は、特定のコンテキストで Azure OpenAI サービスを使用した結果として生じる可能性のある損害の種類について理解を深めます。 このセクションでは、影響評価、反復的なレッド チーム テスト、ストレス テスト、分析を通じて損害を特定するために使用できる推奨事項とリソースについて説明します。 レッド チーミングとストレス テストは、テスト担当者のグループが意図的にシステムをプローブして、その制限事項、リスクの表面、脆弱性を特定するアプローチです。
これらの手順により、特定のシナリオごとに潜在的な損害の優先順位付けされた一覧が生成されます。
- 特定のモデル、アプリケーション、デプロイシナリオに関連する害を特定します。
- システムで使用するモデルとモデルの機能 (GPT-3 モデルと GPT-4 モデルなど) に関連する潜在的な損害を特定します。 各モデルには、さまざまな機能、制限事項、およびリスクがあります。
- 開発しているシステムの意図された使用によって提示されるその他の損害または損害の範囲の拡大を特定します。 責任ある AI 影響評価を使用して、潜在的な損害を特定することを検討してください。
- たとえば、テキストを要約する AI システムを考えてみましょう。 テキスト生成には、用途によってリスクが低いものがあります。 システムが医師のメモを要約するために医療分野で使用されている場合、システムがオンライン記事を要約している場合よりも、不正確さから生じる損害のリスクが高くなります。
- 頻度や重大度などのリスク要素に基づいて、害の優先順位を付けます。 各損害のリスク レベルと、特定した損害の一覧に優先順位を付けるために発生する各リスクの可能性を評価します。 適切な場合は、組織内の領域専門家やリスク マネージャー、および関係する外部の利害関係者と連携することを検討してください。
- 最も優先度の高い損害から始めて、赤いチーム テストとストレス テストを実施します。 特定された損害がシナリオでどのように発生するかについて、より深く理解を深めます。 最初に予想していなかった新しい損害を特定します。
- 組織の内部コンプライアンス プロセスを使用して、関連する利害関係者とこの情報を共有します。
この識別ステージの最後には、ドキュメント化された優先順位付けされた損害の一覧が表示されます。 システムのテストと使用によって新しい損害や新しい損害のインスタンスが発生した場合は、このリストを更新して改善してください。
Measure
問題の優先順位付けされた一覧を特定したら、各損害を体系的に測定するためのアプローチを開発し、AI システムの評価を行います。 測定には手動および自動のアプローチを使用できます。 手動測定から始めて、両方の方法を使用することをお勧めします。
手動測定は次の場合に役立ちます。
- 少数の優先度が高い問題の進行状況を測定する。 特定の損害を軽減する場合、自動測定に移行する前に、損害が観察されなくなるまで、小さなデータセットに対して手動で進行状況を確認し続けることが多くの場合最も生産性が高くなります。
- 自動測定が単独で使用できるほど信頼できるものになるまで、メトリックを定義して報告する。
- スポット チェックを定期的に行い、自動測定の品質を測定します。
自動測定は次の場合に役立ちます。
- より包括的な結果を提供するために、カバレッジを上げて大規模に測定を行う。
- システム、使用状況、軽減策の進化に伴う回帰を監視するための継続的な測定を行う。
次の推奨事項は、潜在的な損害について AI システムを測定するのに役立ちます。 最初にこのプロセスを手動で完了してから、このプロセスを自動化する計画を策定することをお勧めします。
優先順位付けされた各損害を生成する可能性が高い入力を作成します 。優先順位付けされた各損害を生み出す可能性が高いターゲット入力の多くの多様な例を生成することで、測定セットを作成します。
システム出力の生成: システム出力を生成するための入力として、測定セットの例をシステムに渡します。 出力を文書化します。
システム出力を評価して関連する利害関係者に結果を報告する
- 明確なメトリックを定義します。 システムの使用目的ごとに、有害な可能性がある各出力の頻度と重大度を測定するメトリックを確立します。 明確な定義を作成して、システムとシナリオのコンテキストで有害または問題があると考える出力を、特定した優先順位付けされた損害の種類ごとに分類します。
- 明確なメトリック定義に対して出力を評価します。 有害な出力の発生を記録し、定量化します。 定期的に測定を繰り返して軽減策を評価し、回帰を監視します。
- 組織の内部コンプライアンス プロセスを使用して、関連する利害関係者とこの情報を共有します。
この測定ステージの最後には、潜在的な損害ごとにシステムがどのように実行されるかをベンチマークするための定義済みの測定アプローチと、文書化された結果の初期セットが必要です。 軽減策の実装とテストを続ける際に、メトリックと測定セットを調整します。 たとえば、最初は予想していなかった新しい損害のメトリックを追加します。 結果を更新します。
Mitigate
Azure OpenAI などの大規模言語モデルによって引き起こされる損害を軽減するには、実験と継続的な測定を含む反復的な多層アプローチが必要です。 このプロセスの前の段階で特定した損害に対する軽減策の 4 つのレイヤーを含む軽減計画を開発することをお勧めします。
- モデル レベルで、使用するモデルと、モデル開発者がモデルを意図した用途に合わせ、有害な可能性のある使用や結果のリスクを軽減するために実行する微調整手順を理解します。
- たとえば、開発者は責任ある AI ツールとして強化学習方法を使用して、GPT-4 をデザイナーの意図した目標に合わせて調整します。
- 安全システム レベルでは、有害なコンテンツの出力をブロックするのに役立つ Azure OpenAI コンテンツ フィルターなど、開発者が実装するプラットフォーム レベルの軽減策を理解します。
- アプリケーション レベルでは、アプリケーション開発者は metaprompt とユーザー中心の設計とユーザー エクスペリエンスの軽減策を実装できます。 メタプロンプトは、モデルの動作をガイドするために提供する命令です。 それらの使用は、システムが期待に従って動作するように導く上で重要な違いを生み出すことができます。 ユーザー中心の設計とユーザー エクスペリエンス (UX) の介入も、AI への誤用や過度の依存を防ぐための主要な軽減ツールです。
- 配置レベルでは、システムを使用するユーザー、またはシステムの機能と制限事項について影響を受けるユーザーを教育します。
次のセクションでは、さまざまなレイヤーで軽減策を実装するための具体的な推奨事項について説明します。 これらの軽減策のすべてがすべてのシナリオに適しているわけではありません。 逆に、これらの軽減策は、一部のシナリオでは不十分な場合があります。 シナリオと、特定した優先順位付けされた損害について慎重に検討してください。 軽減策を実装する際に、システムとシナリオの 有効性を測定して文書化 するプロセスを開発します。
モデル レベルの軽減策: 構築するシステムに最適な Azure OpenAI ベース モデルを確認して特定します。 その機能、制限事項、および特定した潜在的な損害のリスクを軽減するために講じるあらゆる措置について、自分自身を教育します。 たとえば、GPT-4 を使用する場合は、この透明性に関するメモを読むだけでなく、OpenAI の GPT-4 システム カード を確認してください。このカードでは、モデルによって提示される安全性の課題と、デプロイ用に GPT-4 を準備するために OpenAI が採用した安全プロセスについて説明します。 さまざまなバージョンのモデル(レッドチーミングと測定を含む)を試みて、どのように害が異なるか確認します。
安全システム レベルの軽減策: 特定した潜在的な損害を軽減するために、 Azure OpenAI コンテンツ フィルター などのプラットフォーム レベルのソリューションの有効性を特定して評価します。
アプリケーション レベルの軽減策: metaprompt チューニングを含むプロンプト エンジニアリングは、さまざまな種類の損害に対する 効果的な軽減策となる可能性があります 。 ここに記載されている metaprompt ("システム メッセージ" または "システム プロンプト" とも呼ばれます) のガイダンスとベスト プラクティスを確認して実装 します。
次のユーザー中心の設計とユーザー エクスペリエンス (UX) の介入、ガイダンス、ベスト プラクティスを実装して、ユーザーが意図したとおりにシステムを使用し、AI システムへの過度の依存を防ぎます。
- 介入の確認と編集: ユーザー エクスペリエンス (UX) を設計して、システムを使用するユーザーが、AI によって生成された出力を受け入れる前にレビューおよび編集することを奨励します ( HAX G9: 効率的な修正のサポートを参照)。
- ユーザーがシステムを使用し始めたときや使用中の適切なタイミングで、AI によって生成された出力に潜在的な不正確さがあることを強調し、システムがどれくらい効果的に機能できるかを明確に示します (HAX G2 を参照してください)。 最初の実行エクスペリエンス (FRE) では、AI によって生成された出力に不正確さが含まれている可能性があること、および情報を検証する必要があることをユーザーに通知します。 エクスペリエンス全体を通じて、全体的に、およびシステムによって誤って生成された可能性のある特定の種類のコンテンツに関連して、AI によって生成された出力に潜在的な不正確さがないかどうかを確認するためのリマインダーを含めます。 たとえば、測定プロセスでシステムの精度が数値の精度が低い場合は、生成された出力の数値をマークしてユーザーに警告し、数値を確認するか、または検証のために外部ソースを探すように促します。
- ユーザーの責任。 AI で生成されたコンテンツをユーザーがレビューするときに、最終的なコンテンツに対して責任があることを認識させます。 たとえば、コードの提案を行うときに、開発者に提案を受け入れる前にレビューとテストを行うよう促します。
- 対話での AI の役割を開示します。 (他人ではなく) AI システムと対話していることを人々に認識させます。 必要に応じて、コンテンツが AI モデルによって部分的または完全に生成されることをコンテンツ コンシューマーに通知します。 このような通知は、法律または適用されるベスト プラクティスによって要求される場合があります。 AI によって生成された出力への不適切な依存を減らし、消費者がそのようなコンテンツを解釈して行動する方法について独自の判断を行うのに役立ちます。
- システムの擬人化を防止します。 AI モデルは、意見、感情表現、または人間に似ている可能性のあるその他の定式化を含むコンテンツを出力する場合があります。 このようなコンテンツは、人間の ID と誤解される可能性があります。 このようなコンテンツは、システムが機能していない場合に特定の機能を備えると人々に誤解を与える可能性があります。 こうした出力のリスクを軽減するメカニズムを実装するか、出力の誤解を防ぐのに役立つ開示を組み込んでください。
- 参照と情報源を引用します。 システムで、モデルに送信された参照に基づいてコンテンツが生成される場合、情報源を明確に引用すると、AI で生成されたコンテンツの出所をユーザーが理解するのに役立ちます。
- 必要に応じて、入力と出力の長さを制限します。 入力と出力の長さを制限すると、望ましくないコンテンツの生成、意図した用途以外のシステムの誤用、その他の有害なまたは意図しない使用の可能性を低減できます。
- 構造入力および/またはシステム出力。 アプリケーション内で プロンプト エンジニアリング 手法を使用してシステムへの入力を構造化し、オープンエンドの応答を防ぎます。 出力を特定の形式またはパターンで構造化するように制限することもできます。 たとえば、システムがクエリに応じて架空のキャラクターのダイアログを生成する場合は、入力を制限して、ユーザーがあらかじめ定められた概念のセットに対してのみ問い合わせできるようにします。
- 事前に決定された応答を準備します。 モデルによって攻撃的、不適切、またはその他の有害な応答が生成される危険性のある特定のクエリがあります。 有害または攻撃的なクエリや応答が検出された場合、事前に決められた応答をユーザーに返すようにシステムを設計できます。 事前に定義する応答は、慎重に作成する必要があります。 たとえば、アプリケーションは、"あなたは誰ですか" などの質問に対して、システムが擬人化された応答を返さないように、事前に作成された回答を提供することができます。 また、"使用条件は何ですか" などの質問に対して事前に定義された回答を使用して、ユーザーを適切なポリシーに誘導することもできます。
- ソーシャル メディアへの自動投稿を制限します。 ユーザーが製品やサービスを自動化する方法を制限します。 たとえば、AI によって生成されたコンテンツの外部サイトへの自動投稿 (ソーシャル メディアを含む) を禁止したり、生成されたコードの自動実行を禁止したりできます。
- ボットの検出。 ユーザーが製品上に API を構築することを禁止するメカニズムを考案して実装します。
配置レベルの軽減策:
- 適切な透明性を提供します。 システムを使用するユーザーに適切なレベルの透明性を提供して、システムの使用に関する情報に基づいた意思決定を行えるようにします。
- システム ドキュメントを提供します。 システムの機能と制限の説明を含む、システムに関する教材を作成して提供します。 たとえば、このコンテンツは、システムからアクセスできる "詳細情報" ページの形式である可能性があります。
- ユーザー ガイドラインとベスト プラクティスを公開します。 プロンプトの作成、世代を受け入れる前の世代のレビューなど、ベスト プラクティスを公開して、ユーザーと利害関係者がシステムを適切に使用できるようにします。 このようなガイドラインは、システムのしくみを理解するのに役立ちます。 可能な場合、ガイドラインとベスト プラクティスを UX に直接組み込みます。
特定された潜在的な損害に対処するための軽減策を実装するときは、そのような軽減策の有効性を継続的に測定するためのプロセスを開発します。 測定結果を文書化します。 これらの測定結果を確認して、システムを継続的に改善します。
Operate
測定および軽減システムを導入したら、デプロイと運用の準備計画を定義して実行します。 このステージでは、関係する利害関係者と共にシステムと軽減計画の適切なレビューを行い、テレメトリとフィードバックを収集するためのパイプラインを確立し、インシデント応答とロールバックの計画を作成します。
Azure OpenAI サービスを使用するシステムをデプロイして運用し、適切な標的型の損害軽減策を適用する場合は、次の推奨事項を検討してください。
組織内のコンプライアンス チームと協力して、システムに必要なレビューの種類と、それらを完了するタイミングを理解します。 レビューには、法的レビュー、プライバシー レビュー、セキュリティ レビュー、アクセシビリティ レビューなどが含まれます。
次のコンポーネントを開発して実装します。
- 段階的デリバリー計画。 段階的な配信アプローチで Azure OpenAI サービスを使用するシステムを段階的に起動します。 このアプローチにより、限られた一連のユーザーがシステムを試し、フィードバックを提供し、問題や懸念事項を報告し、システムがより広くリリースされる前に改善を提案することができます。 また、予期しない障害モード、予期しないシステム動作、および予期しない懸念が報告されるリスクを管理するのにも役立ちます。
- インシデント対応計画。 インシデント対応計画を策定し、インシデント 1 件の対応に必要な時間を評価します。
- ロールバック計画。 予期しないインシデントが発生した場合に、システムを迅速かつ効率的にロールバックできることを確認します。
- 予期しない損害に対する即時の措置。 問題のあるプロンプトや応答が検出されたときに、可能な限りリアルタイムに近いタイミングでブロックするのに必要な、機能とプロセスを構築します。 予期しない損害が発生した場合は、問題のあるプロンプトと応答をできるだけ早くブロックします。 適切な軽減策を開発してデプロイします。 インシデントを調査し、長期的なソリューションを実装します。
- システムを悪用するユーザーをブロックするメカニズム。 コンテンツ ポリシーに違反しているユーザー (ヘイト スピーチを生成するなど) や、意図しない目的や有害な目的でシステムを使用しているユーザーを特定するメカニズムを開発します。 さらなる不正使用に対する対策を講じてみましょう。 たとえば、あるユーザーがシステムを頻繁に使用しており、生成したコンテンツがコンテンツ安全性システムによってブロックまたは報告された場合は、それ以降はそのユーザーによるシステムの使用を禁止することを検討します。 必要に応じて、異議申し立てメカニズムを実装します。
- 効果的なユーザー フィードバック チャネル。 フィードバック チャネルを実装して、これを通して利害関係者 (および該当する場合は一般の人々) がフィードバックを提出したり、生成されたコンテンツの問題など、システムの使用中に発生したことを報告したりできるようにします。 このようなフィードバックを処理、検討、対処する方法を文書化します。 フィードバックを評価し、ユーザーのフィードバックに基づいてシステムを改善する作業を行います。 1 つのアプローチとして、生成されたコンテンツを含むボタンを含めることができます。これにより、ユーザーはコンテンツを "不正確"、"有害"、または "不完全" と識別できます。このアプローチでは、分析のために、より広く使用され、構造化され、フィードバック信号が提供される可能性があります。
- テレメトリ データ。 ユーザーの満足度やシステムを意図したとおりに使用できる能力を示すシグナルを (適用されるプライバシー法、ポリシー、コミットメントに従って) 特定して記録します。 利用統計情報を使用してギャップを特定し、システムを改善します。
このドキュメントは法的助言を提供することを意図したものではなく、またそのように解釈されるべきではありません。 事業を展開している管轄によっては、AI システムに適用されるさまざまな規制または法的要件がある場合があります。 お客様のシステムに適用される可能性のある法律や規制について不明な場合、特にその法律や規制がここで示した推奨事項に影響を与える可能性があると考えられる場合は、法務の専門家に相談してください。 ここで示している推奨事項のすべてが、どのシナリオにも適しているとは限らないことと、逆にここで示した推奨事項とリソースだけでは、シナリオによっては不十分な場合があることに注意してください。