この記事では、ライフサイクル全体で AI ワークロードを管理するためのガイダンスを提供します。 組織は、構造化された運用プロセスを確立し、適切なデプロイ ガバナンスを実装し、包括的な監視プラクティスを維持すると、一貫した AI パフォーマンスを実現します。
AI 操作を管理する
運用フレームワークは、複雑な AI プロジェクトを管理するための構造を提供します。 これらのフレームワークにより、開発チーム間の一貫性が確保され、配信サイクルが遅くなるエラーが減ります。 信頼性の高い AI ワークロード管理を実現するには、明確な運用プロセスを確立する必要があります。 その方法は次のとおりです。
- 戦略的ガイダンスのための AI センター オブ エクセレンスを確立します。 AI センター オブ エクセレンスは、組織全体の AI デプロイに対する戦略的な監視と技術的なガイダンスを提供します。 このグループは、AI アプローチがビジネス目標と技術的要件と一致することを保証します。 AI センター オブ エクセレンスを使用して、組織のニーズに合った管理アプローチを評価し、ガバナンスとイノベーションをサポートするデプロイ標準を作成します。 
- ワークロードの種類に適した運用フレームワークを選択します。 AI ワークロードが異なると、チーム のプロセスとツールの決定に影響を与えるさまざまな運用アプローチが必要になります。 この選択によって、開発手法とテクノロジ スタックの統合が決まります。 従来の機械学習ワークフローには MLOps フレームワークを使用し、生成 AI ワークロードには GenAIOps を使用します。 
- すべてのチームで開発ツールを標準化します。 一貫性のあるツールを使用すると、チーム環境間の互換性の問題を排除し、開発者の学習曲線を減らすことができます。 この方法では、統合の問題を回避し、開発サイクルを高速化します。 開発チーム間で一貫性を保つため、SDK と API の使用を定義して標準化します。 詳細については、「ユース ケースをサポートする適切な SDK の選択」を参照してください。 
- 実験用の専用サンドボックス環境を作成します。 サンドボックス環境では、運用システムに影響を与えることなく安全なテストが可能になり、チームは新しいアプローチを自由にテストできます。 これらの環境では、実験用コードが安定したワークロードに影響を与えるのを防ぎます。 AI 開発ライフサイクルの開発、テスト、運用環境とは異なるサンドボックス環境を使用します。 開発環境、テスト環境、および運用環境間で一貫性を維持し、環境間の昇格中に重大な変更を防ぎます。 
- 可能な場合は操作を簡略化します。 新しい機能により、特殊な専門知識がなくても、エージェントや微調整されたモデルを簡単にカスタマイズしてデプロイできます。 従来の微調整では、専門家のデータ サイエンティストがデータセットをキュレーションし、タスク固有のパイプラインを構築し、運用の複雑さを生み出す必要があります。 Microsoft 365 の Copilot Tuning (プレビュー) を使用して、特殊な専門知識を必要とせずに、内部タスクのモデルを微調整します。 
AI のデプロイを管理する
AI デプロイ管理では、AI リソースをデプロイできるユーザーを定義し、これらのエンドポイントを管理します。 構造化されたアプローチにより、組織は開発速度とガバナンス要件のバランスを取ります。 一貫した AI リソース管理を実現するには、明確なデプロイ機関を確立する必要があります。 その方法は次のとおりです。
- 定義されたガバナンス境界内でワークロード チームのデプロイ権限を付与します。 ワークロード チームは、中央の承認プロセスを待たずに AI リソースのデプロイを制御すると、開発を高速化します。 この自律性により、ボトルネックが軽減され、組織の標準を維持しながら、ビジネス要件に迅速に対応できます。 Azure Policy を使用して、ワークロード環境全体でガバナンスを一貫して適用し、ガバナンスのギャップに対処する AI ポリシーを作成します。 Azure AI Foundry の場合は、ビジネス ユニット間で一元化された共有リソースを作成するのではなく、ビジネス ユニットごとにインスタンスをデプロイし、ビジネス ユニット内のユース ケースごとに Azure AI Foundry プロジェクトを使用します。 
- 両方の管理アプローチに対して明確な AI デプロイ ポリシーを定義します。 AI ポリシーは、構成の誤差とセキュリティのギャップを防ぎ、組織の標準への準拠を保証するガードレールを提供します。 これらのポリシーにより、承認されていない AI リソースの使用のリスクが軽減されます。 コンテンツ フィルター設定を適用し、許可されていないモデルの使用を防止する AI ポリシーを作成し、これらのポリシーをすべてのチームに明確に伝えます。 コンプライアンスを確保するために定期的な監査を実施します。 
- デプロイ用の継続的インテグレーションと配信パイプラインを作成します。 自動化されたパイプラインにより、手動エラーが削減され、環境間で一貫したデプロイが保証される一方で、問題を早期にキャッチする反復可能なプロセスが提供されます。 これらのパイプラインは、開発全体を通じて品質基準を維持します。 コード品質チェック、単体および統合テスト、実験フローをカバーするデータ パイプラインを作成します。 リリースを昇格させるための手動承認プロセスを伴う本番環境へのデプロイ手順を含めます。 独立したコンポーネントの更新を保証するために、モデルとクライアント インターフェイスの間の分離を維持します。 
AI モデルを管理する
AI モデル管理には、ガバナンス構造、継続的な監視、および時間の経過に伴うパフォーマンス メンテナンスが含まれます。 このプロセスは、組織がモデルを倫理基準に合わせ、モデルのパフォーマンスを追跡し、AI システムが効果的でビジネス目標に合わせて維持されるようにするのに役立ちます。 信頼性の高い AI パフォーマンスを実現するには、包括的なモデル管理プロセスを確立する必要があります。 その方法は次のとおりです。
- パフォーマンス追跡用の AI 測定ベースラインを定義します。 測定ベースラインにより、AI モデルがビジネス目標と倫理的基準と一致することを保証します。 これらのベースラインは、組織全体でモデルのパフォーマンスと責任ある AI コンプライアンスを評価するための客観的な基準を提供します。 公平性、透明性、正確性などの責任ある AI 原則に関連する KPI を確立し、これらの KPI を特定の AI ワークロードにマップします。 
- パフォーマンスの問題の根本原因をすばやく特定します。 AI 対話の各段階を可視化することで、問題を分離し、効率的に是正措置を実装し、システム間で連鎖的な障害を防ぐことができます。 たとえば、チャットボットのエラーがプロンプトの作成またはモデル コンテキストの理解から発生したかどうかを判断します。 Azure Monitor や Application Insights などの組み込みツールを使用して、パフォーマンスのボトルネックや異常を事前に特定します。 
- パフォーマンス基準に基づいて AI モデルを再トレーニングします。 モデルは、データの変更により時間の経過と同時に低下し、関連性を維持するために再トレーニングが必要になります。 定期的な再トレーニングにより、AI システムはビジネス ニーズとデータ パターンを常に最新の状態に保ちます。 モデルのパフォーマンス メトリックまたはビジネス要件に基づいて再トレーニングをスケジュールし、AI システムの関連性を維持します。 再トレーニングにはコストがかかる可能性があるため、初期トレーニング コストを評価して最適な再トレーニング頻度を評価します。 モデルのバージョン管理を維持し、パフォーマンスの低いバージョンのロールバック メカニズムを確保します。 
- 品質ゲートを使用してモデルの昇格プロセスを確立します。 品質ゲートにより、検証済みのモデルのみが運用環境に到達することを保証します。 これらのプロセスは、パフォーマンスの低いモデルが業務に影響を与えるのを防ぎ、一貫した品質基準を維持します。 パフォーマンス基準を使用して、トレーニング済み、微調整済み、再トレーニング済みのモデルを上位の環境に昇格させます。 各アプリケーションに固有のパフォーマンス基準を定義し、テストと検証の手順を含む明確な昇格ワークフローを確立します。 
- サービスの中断を防ぐために、モデルの提供終了スケジュールを追跡します。 モデルの提供終了の追跡により、ベンダーのサポートが終了したときにパフォーマンスの問題が回避されます。 提供終了日を逃した組織は、予期しないサービスの低下や互換性の問題に直面します。 ベンダーがサービスを非推奨にした場合に機能を維持するために、事前トレーニング済みモデルの提供終了日を監視します。 たとえば、システムの機能を維持するために、非推奨となる前に生成 AI モデルを更新します。 Azure AI Foundry ポータルを使用して、すべてのデプロイのモデル提供終了日を表示します。 
AI コストを管理する
AI コスト管理により、組織はコンピューティング、ストレージ、トークンの使用全体でパフォーマンスを維持しながら、経費を管理できます。 組織には、予算超過を防ぎ、リソース効率を最大化するために、構造化されたコスト監視と最適化戦略が必要です。 予測可能な AI 支出を実現するには、包括的なコスト管理プロセスを確立する必要があります。 その方法は次のとおりです。
- 各 Azure AI サービスのコスト管理のベスト プラクティスを実装します。 異なる Azure AI サービスには、総保有コストに影響を与える独自の価格モデルと最適化機能があります。 サービス固有のコスト構造を理解することは、組織がワークロードに最もコスト効率の高いオプションを選択するのに役立ちます。 たとえば、 Azure AI Foundry のコスト管理ガイダンスに従って、サービスの種類ごとにコストを最適化します。 
- 使用パターンを監視して、課金効率を最大化します。 コスト ブレークポイントを理解すると、不要な料金が発生するのを防ぎ、組織がリソースの割り当てを最適化するのに役立ちます。 使用パターンを追跡すると、コスト パフォーマンスを向上させるためにモデルとアーキテクチャを調整する機会が明らかになります。 1 分あたりのトークン (TPM) と 1 分あたりの要求 (RPM) を監視して使用パターンを理解し、これらのパターンに基づいてモデルとアーキテクチャを調整します。 予期しない料金を回避するために、イメージの生成や時間単位の微調整などのサービスには、固定価格のしきい値を使用します。 全体的なコストを削減するために、一貫した使用パターンのコミットメントベースの課金モデルを検討してください。 
- コストの自動監視とアラートを確立します。 自動アラートは、プロジェクトの予算に影響を与える前に予期しない料金をチームに通知することで、予算超過を防ぎます。 これらのアラートは、プロアクティブなコスト管理を可能にし、組織が AI イニシアチブに対する財務管理を維持するのに役立ちます。 Azure Cost Management で予算アラートを設定して、定義済みのしきい値に対する支出を追跡し、ビジネス目標に合った予算戦略を確立します。 複数のしきい値でアラートを作成して、コストの増加を早期に警告します。 
AI データを管理する
AI データ管理により、AI ライフサイクル全体の正確性、整合性、コンプライアンスが保証されます。 組織では、信頼性の高い AI パフォーマンスを維持するために、構造化されたデータ ガバナンスと品質管理プロセスが必要です。 一貫した AI 成果を達成するには、包括的なデータ管理プラクティスを確立する必要があります。 その方法は次のとおりです。
- 一貫性のある検証のためにゴールデン データセットを作成して維持します。 ゴールデン データセットは、さまざまな環境とバージョンにわたって AI モデルをテストするための標準化されたベンチマークを提供します。 これらの権限のあるデータセットは、一貫性のある評価基準を保証し、時間の経過と同時にパフォーマンスの低下を検出するのに役立ちます。 運用データ パターンを表すゴールデン データセットを開発し、これらのデータセットを使用して、すべての AI ワークロードで定期的なテストと検証を行います。 現在のビジネス要件とデータ パターンを反映するように、ゴールデン データセットを定期的に更新します。 
- 整合性制御を使用して、セキュリティで保護されたデータ パイプラインを実装します。 データ パイプラインの整合性により、破損が防止され、信頼性の高い AI モデルのパフォーマンスが保証されます。 セキュリティで保護されたパイプラインは、前処理とストレージを通じて機密情報を保護し、収集からデータ品質を維持します。 各段階で検証チェックを含むカスタム データ パイプラインを構築し、パイプライン プロセス全体でデータを保護するためのセキュリティ制御を実装します。 AI モデルにデータを供給する前に、自動テストを使用してデータの品質と一貫性を確認します。 
- データの機密性の分類を監視し、変更に対応します。 ビジネス要件と規制の更新により、データの機密性の分類が変更されます。 組織は、コンプライアンスとセキュリティを維持するために、これらの変更を追跡し、それに応じて AI システムを更新する必要があります。 データの機密性がいつ変化するかを識別するプロセスを開発し、ダウンストリーム AI システムで機密データを削除または置換する手順を実装します。 Microsoft Defender for Cloud と Microsoft Purview を使用して、組織全体の機密データのラベル付けと管理を行います。 秘密度の変更が発生したら、影響を受けるデータを使用するすべての AI モデルを特定し、再分類された機密情報を除外するデータセットを使用してモデルを再トレーニングします。 
AI のビジネス継続性を管理する
ビジネス継続性管理は、AI システムを中断から保護し、インシデントが発生したときに迅速な復旧を保証します。 組織では、AI サービスの可用性を維持するために、マルチリージョン戦略とテスト済みの復旧手順が必要です。 効果的な継続性計画により、ビジネス運用に影響を与える長時間の停止を防ぐことができます。 信頼性の高い AI システムの回復性を実現するには、包括的なビジネス継続性プロセスを確立する必要があります。 その方法は次のとおりです。
- すべての AI コンポーネントに継続的な監視を実装します。 AI ワークロードは、データの進化、モデルの更新、またはユーザーの動作の変化により、時間の経過と同時に変化します。 継続的な監視は、これらの変更を早期に検出し、ビジネス成果に影響を与えるパフォーマンスの低下を防ぎます。 AI のデプロイ、AI モデル、AI データを監視して、ワークロードが確立された KPI と一致していることを確認します。 定義された責任ある AI の原則とメトリックに対して AI システムを評価するための定期的な監査を実施します。 
- 高可用性を実現するために、複数のリージョンに AI システムをデプロイします。 複数リージョンのデプロイにより、単一障害点が防止され、リージョンの停止中も AI サービスにアクセスし続けることができます。 このアプローチでは、インフラストラクチャの障害や自然災害から保護する地理的冗長性が提供されます。 複数の Azure リージョンに生成型 AI システムと従来の AI システムの両方をデプロイし、トレーニング済みおよび微調整されたモデルに必要な冗長性を実装して、停止中の再トレーニングを回避します。 Azure Front Door または Azure Traffic Manager を使用して、リージョン間でトラフィックを自動的にルーティングします。 
- ディザスター リカバリー計画を定期的にテストして、有効性を検証します。 定期的なテストでは、復旧手順のギャップを特定し、チームが実際のインシデント時に AI システムを効果的に復元できるようにします。 これらのテストでは、復旧後にすべてのコンポーネントが正常に連携することが検証され、組織が応答手順を調整するのに役立ちます。 すべての AI コンポーネントのデータ復元プロセスと検証手順を含むディザスター リカバリー計画の四半期ごとのテストを実行します。 各テスト サイクルから学習した教訓に基づいて、テスト結果を文書化し、回復手順を更新します。 
- すべての AI システム コンポーネントのバージョン管理を実装します。 バージョン管理システムは変更を追跡し、復旧シナリオ中に以前の構成を迅速に復元できるようにします。 このアプローチでは、変更の監査証跡が提供され、チームが問題のある変更を効率的に特定して元に戻すことができます。 Git を使用して、すべての AI ワークロードにわたるモデル、データ パイプライン、およびシステム構成の変更を管理します。 モデルとシステムの変更を追跡する自動監査を実装して、チームがパフォーマンスに影響を与える計画外の変更をすばやく特定して元に戻すことができるようにします。 
- AI 資産の自動バックアップ戦略を作成します。 自動バックアップにより、重要な AI コンポーネントは手動で介入することなく保護されたままになります。 これらの戦略は、データ損失を防ぎ、インシデント後にシステムが復元を必要とする場合の復旧時間を短縮します。 geo 冗長オプションを使用して、 Azure Backup または Azure Storage を使用して、トレーニング済みのモデル、データセット、構成ファイルの自動バックアップ スケジュールを確立します。 リージョンの停止中に可用性を確保するために、プライマリ デプロイとは別のリージョンにバックアップを格納します。 
- 明確な責任を持つ復旧手順を文書化します。 明確なドキュメントにより、チームはストレスの高い状況で一貫して復旧手順を実行できます。 文書化された手順により、復旧時間が短縮され、確立されたガイドラインなしでチームが運用するときに発生するエラーを防ぐことができます。 さまざまな障害シナリオのステップ バイ ステップの復旧手順を定義し、各回復タスクのチーム メンバーに特定のロールと責任を割り当てる Runbook を作成します。 AI アーキテクチャと復旧プロセスの変更を反映するようにドキュメントを定期的に更新します。