次の方法で共有


Azure VMware Solution Software-Defined Data Center (SDDC) メンテナンスのベスト プラクティス

Azure VMware Solution では、プライベート クラウドの定期的なメンテナンスが行われます。 このメンテナンスには、セキュリティ パッチ、VMware ソフトウェア スタックのマイナーおよびメジャー更新プログラムが含まれます。 このページでは、ホストの監視、修復、およびプライベート クラウドをメンテナンスの準備に役立つ推奨されるベスト プラクティスについて説明します。

ホストのメンテナンスとライフサイクル管理

Azure VMware Solution のプライベート クラウドの利点の 1 つは、管理者に代わってプラットフォームのメンテナンスが行われることです。 VMware のソフトウェア (ESXi、vCenter Server、vSAN) と NSX アプライアンスのライフサイクル管理は Microsoft が行います。 Microsoft は、Tier-0 ゲートウェイの作成や North-South ルーティングの有効化など、ネットワーク構成のブートストラップにも責任があります。 NSX の SDN 構成、つまり、ネットワークのセグメント、分散ファイアウォールのルール、Tier-1 ゲートウェイ、ロード バランサーの構成はユーザーが行います。

プライベート クラウドのデプロイの一部として T0 ゲートウェイが作成され構成されます。 この論理ルーターまたは NSX エッジ ノード VM を変更すると、プライベート クラウドへの接続に影響する可能性があるため、避ける必要があります。

Microsoft は、プライベート クラウド内の ESXi、vCenter Server、vSAN、NSX に対してパッチ、更新、またはアップグレードを適用する責任を担います。 ESXi、vCenter Server、および NSX に対するパッチ、更新、アップグレードの影響には、次の考慮事項があります。

  • ESXi - プライベート クラウドで実行されているワークロードに影響はありません。 vCenter Server と NSX へのアクセスは、この期間中はブロックされません。 この期間中に、プライベート クラウドで、プライベート クラウドのスケールアップ、スケジューリング、アクティブな HCX 移行の開始、HCX 構成の変更などの、その他のアクティビティを計画しないことをお勧めします。

  • vCenter Server - プライベート クラウドで実行されているワークロードに影響はありません。 この間、vCenter Server は使用できなくなり、VM を管理 (停止、開始、作成、または削除) できません。 プライベート クラウド内で、プライベート クラウドの拡大、新しいネットワークの作成など、その他のアクティビティを計画しないことをお勧めします。 VMware Site Recovery Manager または vSphere Replication のユーザー インターフェイスを使用する場合は、vCenter Server のアップグレード中に次の操作を実行しないことをお勧めします。vSphere Replication の構成、サイト復旧計画の構成または実行。

  • NSX - ワークロードが影響を受けます。 また、特定のホストがアップグレードされている場合、そのホスト上の VM は、2 秒から 1 分間、接続が失われ、次のいずれかの症状が発生する可能性があります。

    • ping エラー

    • パケット ロス

    • エラー メッセージ (宛先ホストに 到達できないNet に到達できないなど)

    このアップグレード期間中は、NSX 管理プレーンへのすべてのアクセスがブロックされます。 この期間中は、NSX 環境に対する構成変更はできません。 ワークロードは、前述のアップグレードの影響を受けながらも、通常通りに実行されます。

    アップグレード期間中は、プライベート クラウド内でプライベート クラウドの拡大など、その他のアクティビティを計画しないことをお勧めします。 他のアクティビティにより、アップグレードを開始できなかったり、アップグレードと環境に悪影響が及んだりする可能性があります。

アップグレードのタイムラインを含む Azure Service Health を通じて通知されます。 この通知には、アップグレードされたコンポーネントの詳細や、ワークロード、プライベート クラウドへのアクセス、その他の Azure サービスへの影響についても記載されています。 アップグレードは、必要に応じてスケジュール変更が可能です。

ソフトウェア更新の内容:

  • パッチ - VMware によってリリースされたセキュリティ パッチまたはバグ修正

  • 更新 - VMware スタック コンポーネントのマイナー バージョンの変更

  • アップグレード - VMware スタック コンポーネントのメジャー バージョンの変更

VMware から重要なセキュリティ パッチが利用できるようになると、Microsoft で直ちにそのテストが行われます。

次回スケジュールされている更新プログラムがデプロイされるまでは、対応する修正プログラムをインストールする代わりに、ドキュメントに記載されている VMware の回避策が実装されます。

ホストの監視と修復

Azure VMware Solution では、VMware コンポーネントとアンダーレイの両方の正常性が継続的に監視されます。 Azure VMware Solution でエラーが検出されると、失敗したコンポーネントを修復するアクションが実行されます。 Azure VMware Solution によって Azure VMware Solution ノードで機能低下または障害が検出されると、ホスト修復プロセスがトリガーされます。

ホストの修復では、不具合のあるクラスターのノードを新しい正常なノードに置き換えます。 その後、可能な場合は、障害が発生しているホストが VMware vSphere メンテナンス モードに切り替えられます。 VMware vSphere vMotion により、障害が発生しているホストからクラスター内の使用可能な他のサーバーに VM が移動されます。これにより、ワークロードのライブ マイグレーションのダウンタイムをゼロにできる可能性があります。 障害が発生しているホストをメンテナンス モードにすることができない場合は、そのホストがクラスターから削除されます。 障害のあるホストが削除される前に、お客様のワークロードが新しく追加されたホストに移行されます。

ヒント

お客様の通信: 交換が開始される前に、および交換が成功した後に、電子メールがお客様のメール アドレスに送信されます。

ホストの置換に関連する電子メールを受信するには、サブスクリプション内の Azure Role-Based Access Control (RBAC) ロール ('ServiceAdmin'、'CoAdmin'、'Owner'、'Contributor') のいずれかに追加する必要があります。

Azure VMware Solution では、ホスト上の次の状態が監視されます。

  • プロセッサの状態
  • メモリの状態
  • 接続と電源の状態
  • ハードウェア (ファン) の状態
  • ネットワーク接続の切断
  • ハードウェア (システム ボード) の状態
  • vSAN ホストの 1 つ以上のディスクでエラーが発生しました
  • ハードウェアの電圧
  • ハードウェアの温度の状態
  • ハードウェアの電源の状態
  • 記憶域の状態
  • 接続エラー

メンテナンス操作のベスト プラクティス

ホストのメンテナンス操作が正常に実行されるようにするために、常に次のアクションが推奨されます。

  • vSAN ストレージ使用率: サービス レベル アグリーメント (SLA) を維持するには、vSphere クラスターの記憶域スペースの使用率が 75%未満であることを確認します。 使用率が 75%を超えると、アップグレードに予想以上の時間がかかるか、完全に失敗する可能性があります。 ストレージ使用率が 75%を超える場合は、ノードを追加してクラスターを拡張し、アップグレード中の潜在的なダウンタイムを防ぐことを検討してください。
  • 分散リソース スケジューラ (DRS) ルール: DRS VM-VM アンチアフィニティ ルールは、クラスター内に少なくとも (N+1) ホストを含む方法で構成する必要があります。N は DRS ルールの一部である VM の数です。
  • 許容障害 (FTT) 違反: データ損失を防ぐためには、FTT=0に設定されたvSANストレージポリシーで構成されたVMを、Microsoft SLAに準拠したvSANストレージポリシーに変更してください(クラスター内でホストが最大5台の場合はFTT=1、ホストが6台以上の場合はFTT=2)。さらに、ホストのメンテナンス作業を円滑に実行できるようにします。
  • VM CD-ROM のマウントを削除します。 "エミュレート モード" でマウントされた VM CD-ROMs はホストのメンテナンスを妨げます。 CD-ROMs が "パススルー モード" でマウントされていることを確認します。
  • シリアル/並列ポートまたは外部デバイス: イメージ ファイル (ISO、FLP など) を使用している場合は、クラスター内のすべての ESXi ホストからアクセスできることを確認します。 仮想マシンの vMotion に参加するすべての ESXi サーバー間で共有されるデータストアにファイルを格納します。 詳細については、Broadcom ナレッジベースの記事を参照してください。
  • 孤立した VM: 孤立した仮想マシンの場合、仮想マシン (VM) は可能であれば再登録するか (削除されていない場合)、インベントリから削除する必要があります。 詳細については、Broadcom ナレッジベースの記事を参照してください。
  • SCSI 共有コントローラー: SCSI バス共有を使用する場合は、VM のバスの種類を "物理" として使用します。 仮想 SCSCI コントローラーに接続されている VM の電源がオフになります。 詳細については、Broadcom ナレッジベースの記事を参照してください。
  • サード パーティ製 VM とアプリケーション: サード パーティ製の VM とアプリケーションの場合:
    • Azure VMware Solution にデプロイされたサード パーティ製ソリューションが準拠しており、メンテナンス操作に干渉しないことを確認します。
    • VM-Host "実行する必要があります" DRS 規則が VM に適用されていないことを確認します。 さらに、これらのアプリケーションが今後のバージョンの VMware スタックと互換性があることを確認します。
    • アップグレード後の互換性を維持するために、必要に応じてソリューション ベンダーに相談し、事前に更新してください。

アラート コードと修復テーブル

エラー コード エラーの詳細 推奨される操作
EPC_CDROM_EMULATEMODE このエラーは、仮想マシン上の CD-ROM がエミュレート モードを使用している場合に発生します。このモードでは、ISO イメージにアクセスできません。 エミュレート モードまたはデタッチ ISO で、お客様のワークロード仮想マシンにマウントされている CDROM を削除するには、 この KB 記事 に従ってください。 CD-ROM をマウントするには、"パススルー モード" を使用することをお勧めします。
EPC_DRSOVERRIDERULE このエラーは、DRS オーバーライドが "無効" モードに設定された仮想マシンがある場合に発生します。 VM では、ホストをメンテナンス中に vMotion をブロックしないでください。 VM の部分的に自動化された DRS 規則を設定します。 VM 配置ポリシーの詳細については、 このドキュメント を参照してください。
EPC_SCSIDEVICE_SHARINGMODE このエラーは、メンテナンス操作を妨げるデバイス (バス共有に関与している SCSI コントローラーであるデバイス) を使用するように仮想マシンが構成されている場合に発生します VM に接続されているバス共有に関与している SCSI コントローラーを削除するには、 この KB 記事 に従ってください
EPC_DATASTORE_INACCESSIBLE このエラーは、AVS プライベート クラウドに接続されている外部データストアにアクセスできなくなった場合に発生します クラスターにアタッチされている古いデータストアを削除するには、 この記事 に従ってください
EPC_NWADAPTER_STALE このエラーは、仮想マシン上の接続されたネットワーク インターフェイスが、アクセス不能になったネットワーク アダプターを使用している場合に発生します Virtual Machines に接続されている古い N/W アダプターを削除するには、 この KB 記事 に従ってください
EPC_SERIAL_PORT このエラーは、宛先ホストでアクセスできないデバイスに仮想マシンのシリアル ポートが接続されている場合に発生します。 イメージ ファイル (ISO、FLP など) を使用している場合は、クラスター上のすべての ESXi サーバーからアクセスできることを確認します。 仮想マシンの vMotion に参加するすべての ESXi サーバー間で共有されるデータ ストアにファイルを格納します。 詳細については、Broadcom の この KB 記事 を参照してください。
EPC_HARDWARE_DEVICE このエラーは、仮想マシンの並列ポート/USB デバイスがデバイスに接続されている場合に、宛先ホストでアクセスできない場合に発生します。 イメージ ファイル (ISO、FLP など) を使用している場合は、クラスターのすべての ESXi サーバーからアクセスできることを確認します。 仮想マシンの vMotion に参加するすべての ESXi サーバー間で共有されるデータ ストアにファイルを格納します。 詳細については、Broadcom の この KB 記事 を参照してください。
EPC_INVALIDVM/EPC_ORPHANVM このエラーは、インベントリに孤立または無効な VM がある場合に発生します すべての仮想マシンが vCenter からアクセスできることを確認します。 詳細については、 この KB の記事 を参照してください。

Azure VMware Solution テナント管理者は、vCenter Server 上の Azure VMware Solution コントロール プレーンによって管理されるため、以前に定義した VMware vCenter Server アラームを編集または削除することはできません。 これらのアラームは、Azure VMware Solution のホスト修復プロセスをトリガーするために、Azure VMware Solution の監視によって使用されます。

次のステップ

Azure VMware Solution のプライベート クラウド メンテナンスのベスト プラクティスについて説明したので、次のことを学習することをお勧めします。