次の方法で共有


ベア メタル マシン操作のベスト プラクティス

この記事では、ベア メタル マシン (BMM) ライフサイクル管理操作のベスト プラクティスについて説明します。 その目的は、一般的な落とし穴と必須の前提条件を強調するためです。

重要な免責事項を読む

注意事項

Microsoft サポート担当者と最初に相談しないと、制御プレーン サーバーまたは管理プレーン サーバーに対して何もアクションを実行しないでください。そうすると、オペレーターネクサス クラスターの整合性に影響する可能性があります。

重要

Kubernetes コントロール プレーン (KCP) ノードに対する複数の破壊的コマンド要求が拒否されます。 このチェックは、Nexus クラスター インスタンスの整合性を維持し、同時に中断するアクションが原因で複数の KCP ノードが一度に非動作にならないようにするために行われます。 拒否された破壊的アクション コマンドは、別の KCP ノードに対して既に実行されているか、完全な KCP が使用できないことが原因である可能性があります。 複数のノードが動作しなくなると、Kubernetesコントロールプレーンの正常なクォーラムしきい値が損なわれます。

一覧に示されているアクションは、BareMetal Machines (BMM) に対して破壊的影響を及ぼすと見なされます。

  • BMM の電源をオフにする
  • BMM を再起動する
  • BMM をスケジュール不可にする (退避して切断し、ノードをドレインする)
  • BMM を再イメージ化する
  • BMM を置き換える

中断しないアクションのみを残します。

  • BMM を起動する
  • BMM をスケジュール設定できないようにする (退避せずに切断し、ノードをドレインしない)
  • BMM をスケジュールに組み込むことができるようにする(制限解除)

[前提条件]

  1. 適切な CLI 拡張機能の最新バージョンをインストールします。
  2. Azure Operator Nexus ネットワーク ファブリック (NF) とネットワーク クラウド CLI 拡張機能コマンドを実行するためのアクセスを要求します。
  3. Azure CLI にサインインし、クラスターがデプロイされているサブスクリプションを選択します。
  4. 次の情報を収集します。
    • サブスクリプション ID (SUBSCRIPTION)
    • クラスター名 (CLUSTER)
    • リソース グループ (CLUSTER_RG)
    • マネージド リソース グループ (CLUSTER_MRG) - BareMetal Machines (BMM) リソースがマネージド リソース グループに存在する
    • ライフサイクル管理操作を必要とするベアメタル コンピューター名 (BMM_NAME)

最適な是正アプローチを特定する

技術的な問題のトラブルシューティングには、体系的なアプローチが必要です。 効果的な方法の 1 つは、最も低侵襲なソリューションから始め、必要に応じて、より複雑で潜在的に破壊的な対策に取り組む方法です。 これらのトラブルシューティング方法は、すべてのシナリオに対して必ずしも有効であるとは限らず、他のさまざまな要因を考慮すると別のアプローチが必要になる場合があることに注意してください。 このため、最も適切な是正措置を決定するために、ベア メタル マシンの障害のトラブルシューティングを行うときに、使用可能なオプションを十分に理解することが不可欠です。

トラブルシューティング中の一般的なアドバイス

  • トラブルシューティング ガイドやハウツー記事など、関連するドキュメントについて理解します。 ベスト プラクティスと更新プログラムについては、常に最新のドキュメントを参照してください。
  • 操作を再試行する前に、最初に障害の根本原因を特定して、失敗した操作を繰り返さないようにします。 特定の問題を特定して対処するには、増分手順で再試行を実行します。
  • 他の手順を実行する前に、Az CLI コマンドが実行されて完了するのを待ち、ベア メタル マシン リソースの状態を検証します。
  • ハードウェアとソフトウェアのバージョン間の互換性の問題を防ぐため、新しいグリーンフィールド デプロイの前に、ファームウェアとソフトウェアのバージョンが最新であることを確認します。 ファームウェアの互換性の詳細については、「 Operator Nexus Platform Prerequisites」を参照してください。
  • iDRAC 資格情報が正しく、ベア メタル マシンの電源がオンになっていることを確認します。

一般的なネットワーク接続の正常性を確認する

プロセス中の中断を回避するために、安定したネットワーク接続を確保します。 ネットワークの安定性を無視すると、操作が正常に完了できず、ベア メタル マシンがエラーまたは低下状態のままになる可能性があります。

クラスター リソースの clusterConnectionStatus を簡単に確認すると、ネットワーク接続の正常性を示す 1 つのインジケーターとして機能します。

az networkcloud cluster show \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --subscription $SUBSCRIPTION \
  --query "clusterConnectionStatus" \
  -o table

Result
---------
Connected

NetworkFabric リソースの状態、アラート、メトリックを確認して、NetworkFabric リソースを詳しく見てみましょう。 関連記事を参照してください。

ハードウェア、ネットワーク、またはサーバー構成の問題を解決する必要があることを示すベア メタル マシンの警告または機能低下状態を評価します。 詳細については、「 ベア メタル マシンの機能低下状態エラーのトラブルシューティング 」および 「ベア メタル マシンの警告状態のトラブルシューティング」を参照してください。

ファームウェア更新ジョブが実行されているかどうかを確認する

replaceまたはreimage操作を開始する前に、BMC を介して実行中のファームウェア アップグレード ジョブがないことを確認します。 ファームウェアの継続的なアップグレードを中断すると、ベア メタル マシンが不整合な状態になる可能性があります。

  • iDRAC GUI で jobqueue を表示するか、 run-read-commandracadm jobqueque view を使用してファームウェア アップグレード ジョブが実行されているかどうかを確認できます。
  • run-read-command機能の詳細については、「ベア メタル Run-Read 実行」を参照してください。
az networkcloud baremetalmachine run-read-command \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --subscription $SUBSCRIPTION \
  --limit-time-seconds 60 \
  --commands "[{command:'nc-toolbox nc-toolbox-runread racadm jobqueue view'}]" \
  --output-directory .

racadm jobqueue viewを示す Firmware Update コマンドからの出力例を次に示します。

[Job ID=JID_833540920066]
Job Name=Firmware Update: iDRAC
Status=Downloading
Start Time= [Not Applicable]
Expiration Time= [Not Applicable]
Message= [RED001: Job in progress.]
Percent Complete= [50%]

一般的な happy-path ステートメントを示す racadm jobqueue view コマンドからの出力例を次に示します。

-------------------------JOB QUEUE------------------------
[Job ID=JID_429400224349]
Job Name=Configure: Import Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:22]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:32]
Message=[SYS053: Successfully imported and applied Server Configuration Profile.]
Percent Complete=[100]
----------------------------------------------------------
[Job ID=JID_429400338344]
Job Name=Export: Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:33]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:58]
Message=[SYS043: Successfully exported Server Configuration Profile]
Percent Complete=[100]

ベア メタル マシンの JSON プロパティで状態を監視する

バージョン 2509.1 以降では、対応するベア メタル マシン (Operator Nexus) リソースの JSON View で、最近または進行中のアクションの状態を表示できます。 この情報は、API バージョン actionStates 以降を使用する場合、ベア メタル マシン JSON プロパティの2025-07-01-preview フィールドに表示されます。 次の情報を使用できます。

  • アクションの開始時刻と終了時刻。
  • アクションの状態 (SucceededFailed、または InProgress)。
  • 状態に関連付けられている追加のコンテキストまたはエラー メッセージ。
  • Azure アクティビティ ログに示すように、元の操作の関連付け ID。
  • BMM 置換アクションの Hardware ValidationDeprovisioningProvisioningCloud Init など、ステップとその状態の順序付きリスト。

現在進行中のアクションを含め、各アクションの種類の最新の出現が表示されます。

ベア メタル マシンの置換アクションでの actionStates の出力例:

{
  "properties": {
    "actionStates": [
      {
        "actionType": "Microsoft.NetworkCloud/bareMetalMachines/replace",
        "correlationId": "25d678cb-353c-41f4-8231-1135064ae582",
        "endTime": "2025-08-12T17:00:58Z",
        "startTime": "2025-08-12T15:32:12Z",
        "status": "Completed",
        "stepStates": [
          {
            "endTime": "2025-08-12T15:41:22Z",
            "startTime": "2025-08-12T15:32:12Z",
            "status": "Completed",
            "stepName": "Hardware Validation"
          },
          {
            "endTime": "2025-08-12T16:25:39Z",
            "startTime": "2025-08-12T15:41:22Z",
            "status": "Completed",
            "stepName": "Deprovisioning"
          },
          {
            "endTime": "2025-08-12T16:48:27Z",
            "startTime": "2025-08-12T16:25:39Z",
            "status": "Completed",
            "stepName": "Provisioning"
          },
          {
            "endTime": "2025-08-12T17:00:58Z",
            "startTime": "2025-08-12T16:48:27Z",
            "status": "Completed",
            "stepName": "Cloud Init"
          }
        ]
      }
    ]
  }
}

ベア メタル マシンの再イメージ化に関するベスト プラクティス

ベア メタル マシン (BMM) reimageアクションについては、「Azure Operator Nexus Server の問題のトラブルシューティング」で説明されているベア メタル マシンライフサイクル管理コマンドとシナリオ手順で説明されています。

警告

同じ BareMetal Machine (BMM) リソースに対して複数の baremetalmachine replace または reimage コマンドを同時に実行しないでください。 replaceと同時にreimageを実行すると、サーバーは非動作状態になります。 別の BMM を開始する前に、BMM の replace/reimage が完全に完了していることを確認します。 また、指定されたメンテナンス操作が実行されていない限り、reimageアクションを完了したばかりの BMM に対して、順次replaceアクションを実行しないようにします。

reimage操作を実行することで、ベア メタル マシン上のオペレーティング システム ランタイムバージョンを復元できます。 ベア メタル マシン reimage は、問題を解決したり、オペレーティング システム ソフトウェアを既知の正常な状態に復元したりするために、時間と信頼性の両方を確保できます。 このプロセスでは、ターゲットのベア メタル マシンにランタイム イメージを 再デプロイ し、同じ識別子を持つクラスターに再び参加する手順を実行します。 reimageアクションは、オペレーティング システム パーティションと対話するように設計されており、仮想マシンのローカル ストレージは変更されません。

重要

ベア メタル マシンのファイル システム ("ブレーク グラス" とも呼ばれます) に対する手動または自動の変更は避けてください。 Microsoft サポートを復元するには、 reimage アクションが必要です。ノードを想定した状態に復元すると、ベア メタル マシンに対して行われた変更は失われます。

ベア メタル マシンを再イメージ化する前の前提条件と検証

reimage操作を開始する前に、次の前提条件が満たされていることを確認します。

ベア メタル マシンの置換に関するベスト プラクティス

ベア メタル マシンのreplaceアクションについては、「Azure Operator Nexus Server の問題のトラブルシューティング」で説明されているベア メタル マシンライフサイクル管理コマンドとシナリオ手順で説明されています。

警告

同じ BareMetal Machine (BMM) リソースに対して複数の baremetalmachine replace または reimage コマンドを同時に実行しないでください。 replaceと同時にreimageを実行すると、サーバーは非動作状態になります。 別の BMM を開始する前に、BMM の replace/reimage が完全に完了していることを確認します。 また、指定されたメンテナンス操作が実行されていない限り、reimageアクションを完了したばかりの BMM に対して、順次replaceアクションを実行しないようにします。

ハードウェア障害は、サーバーの有効期間中に通常発生します。 機能を復元し、操作を継続するために、コンポーネントの交換が必要になる場合があります。 replace操作は、ハードウェアのメンテナンス/修復イベントの後に実行する必要があります。 サーバーで 1 つ以上のハードウェア コンポーネントが失敗した場合 (複数の障害)、ベア メタル マシンの操作を実行する前replace必要な修復を行います。

重要

2024-07-01 GA API バージョンでは、ベア メタル マシンのreplace中に RAID コントローラーがリセットされ、サーバーの仮想ディスクからすべてのデータがワイプされます。 ベア メタル マシンの replace 中にトリガーされたベースボード管理コントローラー (BMC) 仮想ディスク アラートは、物理ディスクや RAID コントローラーのアラートが増えない限り無視できます。

ベア メタル マシンを置き換える前の前提条件と検証

replace操作を開始する前に、次の前提条件が満たされていることを確認します。

ハードウェア検証の問題を解決する

ベア メタル マシンがハードウェア検証に失敗したマークが付いている場合は、物理的な修復が必要であることを示している可能性があります。 ベアメタルマシンreplaceを実行する前に、これらの修理箇所を特定し、対処することが非常に重要です。 OS イメージを展開する前に物理ホストの整合性を確保するために、 replace 操作の一部としてハードウェア検証プロセスが呼び出されます。 ベア メタル マシンでハードウェア検証エラーが引き続き発生する場合、ベア メタル マシンは正常にプロビジョニングできません。 その結果、ベア メタル マシンは、運用可能になり、クラスターに参加するために必要なセットアップ手順を完了できません。 次のアクションの前にすべてのreplaceがクリアされていることを確認します。

ハードウェア検証の結果を理解するには、ハードウェア検証 エラーのトラブルシューティングに関する記事を参照してください。

ベア メタル マシンの置換が必要ない

一部の修復では、ベア メタル マシン replace を実行する必要はありません。 たとえば、ベア メタル マシン ホストは修復後も引き続き正常に機能するため、物理ホット スワップ可能な電源の修復を実行する場合、 replace 操作は必要ありません。 ただし、ベア メタル マシンがハードウェアの検証に失敗した場合、ホット スワップ可能な修復が行われた場合でも、ベア メタル マシンの replace が必要です。 ベア メタル マシンのステータス メッセージを調べて、ハードウェア検証エラーまたはその他の低下した状態が存在するかどうかを判断します。

この種類のその他の修復は次のようになります。

  • CPU
  • デュアル インライン メモリ モジュール (DIMM)
  • 換気扇
  • 拡張ボード ライザー
  • トランシーバー
  • イーサネットまたはファイバー ケーブルの交換

ベア メタル マシンの置換が必要である

マザーボードやネットワーク インターフェイス カード (NIC) などのコンポーネントを交換すると、ベア メタル マシンの MAC アドレスが変更されます。 ただし、iDRAC の IP アドレスとホスト名は変わりません。 マザーボードの変更により MAC アドレスが変更され、ベア メタル マシンの replaceが必要になります。

次の物理的な修復を実行するときに、ベア メタル マシンをサービスに戻すには、 replace 操作が 必要です

  • バックプレーン
  • システム ボード
  • SSD ディスク
  • PERC/RAID アダプター
  • Mellanox ネットワーク インターフェイス カード (NIC)
  • Broadcom 埋め込み NIC

ベア メタル マシンの交換操作後に状態を確認する

ベア メタル マシンの replace 操作が正常に完了したら、 provisioningStatusSucceeded され、 readyStateTrueされていることを確認します。 その後、uncordon 操作を実行することで、ベアメタルマシンが再びワークロードスケジュール可能なノードプールに参加します。

サポートの要請

さらに不明な点がある場合は、サポート にお問い合わせください。 サポート プランの詳細については、Azure サポート プランに関するページを参照してください。

参考資料