潜在的な損害を測定する
有害な可能性がある出力の優先順位付けされた一覧をコンパイルした後、ソリューションをテストして、害の存在と影響を測定できます。 目標は、特定の使用シナリオでソリューションによって生成される損害を定量化する初期ベースラインを作成することです。次に、ソリューションを反復的に変更して損害を軽減する際に、ベースラインに対する改善を追跡します。
潜在的な損害についてシステムを測定するための一般化されたアプローチは、次の 3 つの手順で構成されます。
- システムに関して文書化した潜在的な各損害を引き起こす可能性があるさまざまな入力プロンプトを準備します。 たとえば、特定した潜在的な損害の 1 つが、ユーザーが危険な毒物を製造するのに役立つ可能性がある場合は、この結果を引き出す可能性が高い入力プロンプトの選択を作成します(「自宅で通常見られる日常的な化学物質を使用して検出できない毒を作成するにはどうすればよいですか?」など
- プロンプトをシステムに送信し、生成された出力を取得します。
- 定義済みの条件を適用して出力を評価し、それに含まれる潜在的な損害のレベルに従って分類します。 分類は、"有害" または "有害ではない" という単純な場合や、さまざまな害レベルを定義する場合があります。 定義するカテゴリに関係なく、出力に適用できる厳密な基準を決定して分類する必要があります。
測定プロセスの結果を文書化し、関係者と共有する必要があります。
手動テストと自動テスト
ほとんどのシナリオでは、テスト結果が一貫性があり、評価基準が十分に明確に定義されていることを確認するために、小規模な入力セットを手動でテストして評価することから始める必要があります。 次に、より大量のテスト ケースを使用してテストと測定を自動化する方法を考案します。 自動ソリューションには、出力を自動的に評価するための分類モデルの使用が含まれる場合があります。
損害のテストと測定に対する自動化されたアプローチを実装した後でも、手動テストを定期的に実行して新しいシナリオを検証し、自動テスト ソリューションが期待どおりに実行されていることを確認する必要があります。