潜在的な損害を軽減する

完了

ベースラインを決定し、ソリューションによって生成される有害な出力を測定する方法を決定した後、潜在的な損害を軽減するための手順を実行できます。また、適切に変更されたシステムを再テストし、ベースラインと害レベルを比較できます。

生成型 AI ソリューションにおける潜在的な損害の軽減には、次に示すように、4 つの各レイヤーで軽減手法を適用できる階層化されたアプローチが含まれます。

生成 AI ソリューションのモデル、安全システム、アプリケーション、および配置レイヤーを示す図。

  1. モデル
  2. 安全システム
  3. システム メッセージと基盤
  4. ユーザー エクスペリエンス

1: モデル レイヤー

モデル レイヤーは、ソリューションの中心にある 1 つ以上の生成 AI モデルで構成されます。 たとえば、ソリューションは GPT-4 などのモデルを中心に構築できます。

モデル レイヤーで適用できる軽減策は次のとおりです。

  • 目的のソリューションの使用に適したモデルを選択する。 たとえば、GPT-4 は強力で汎用性の高いモデルですが、小さな特定のテキスト入力のみを分類するために必要なソリューションでは、よりシンプルなモデルが必要な機能を提供し、有害なコンテンツ生成のリスクが低くなる可能性があります。
  • 独自のトレーニング データを使用して基本モデルを微調整し、生成される応答がソリューション シナリオに関連し、スコープ設定される可能性が高くなります。

2: 安全システム

安全システムレイヤーには、害を軽減するのに役立つプラットフォーム レベルの構成と機能が含まれています。 たとえば、Azure AI Foundry には、潜在的な危害 (ヘイト性的暴力自傷行為) の 4 つのカテゴリに対する 4 つの重大度レベル (安全) へのコンテンツの分類に基づいてプロンプトと応答を抑制する条件を適用するコンテンツ フィルターのサポートが含まれています。

その他の安全システムレイヤーの軽減策には、ソリューションが体系的に悪用されているかどうかを判断するための不正使用検出アルゴリズム (ボットからの大量の自動要求など) や、システムの悪用や有害な動作の可能性に対する迅速な対応を可能にするアラート通知が含まれます。

3: システム メッセージと接地

このレイヤーでは、モデルに送信されるプロンプトの構築に焦点を当てます。 このレイヤーで適用できる損害軽減手法は次のとおりです。

  • モデルの動作パラメーターを定義するシステム入力の指定。
  • プロンプト エンジニアリングを適用して、入力プロンプトにグラウンド データを追加し、関連する非共有出力の可能性を最大化します。
  • 取得拡張生成 (RAG) アプローチを使用して、信頼できるデータ ソースからコンテキスト データを取得し、プロンプトに含めます。

4: ユーザー エクスペリエンス レイヤー

ユーザー エクスペリエンス レイヤーには、ユーザーが生成型 AI モデルとドキュメントを操作するソフトウェア アプリケーションや、ソリューションの使用をユーザーと利害関係者に説明するその他のユーザー資料が含まれます。

入力を特定のサブジェクトまたは型に制限するようにアプリケーション ユーザー インターフェイスを設計したり、入力と出力の検証を適用したりすると、有害な可能性のある応答のリスクを軽減できます。

生成型 AI ソリューションのドキュメントやその他の説明は、システムの機能と制限、それに基づくモデル、および配置した軽減策によって常に対処されない可能性のある潜在的な損害について、適切に透過的である必要があります。