この記事では、ベア メタル マシン (BMM) ライフサイクル管理操作のベスト プラクティスについて説明します。 その目的は、一般的な落とし穴と必須の前提条件を強調するためです。
重要な免責事項を読む
注意事項
Microsoft サポート担当者と最初に相談しないと、制御プレーン サーバーまたは管理プレーン サーバーに対して何もアクションを実行しないでください。そうすると、オペレーターネクサス クラスターの整合性に影響する可能性があります。
重要
Kubernetes コントロール プレーン (KCP) ノードに対する複数の破壊的コマンド要求が拒否されます。 このチェックは、Nexus クラスター インスタンスの整合性を維持し、同時に中断するアクションが原因で複数の KCP ノードが一度に非動作にならないようにするために行われます。 拒否された破壊的アクション コマンドは、別の KCP ノードに対して既に実行されているか、完全な KCP が使用できないことが原因である可能性があります。 複数のノードが動作しなくなると、Kubernetesコントロールプレーンの正常なクォーラムしきい値が損なわれます。
一覧に示されているアクションは、BareMetal Machines (BMM) に対して破壊的影響を及ぼすと見なされます。
- BMM の電源をオフにする
- BMM を再起動する
- BMM をスケジュール不可にする (退避して切断し、ノードをドレインする)
- BMM を再イメージ化する
- BMM を置き換える
中断しないアクションのみを残します。
- BMM を起動する
- BMM をスケジュール設定できないようにする (退避せずに切断し、ノードをドレインしない)
- BMM をスケジュールに組み込むことができるようにする(制限解除)
[前提条件]
- 適切な CLI 拡張機能の最新バージョンをインストールします。
- Azure Operator Nexus ネットワーク ファブリック (NF) とネットワーク クラウド CLI 拡張機能コマンドを実行するためのアクセスを要求します。
- Azure CLI にサインインし、クラスターがデプロイされているサブスクリプションを選択します。
- 次の情報を収集します。
- サブスクリプション ID (
SUBSCRIPTION
) - クラスター名 (
CLUSTER
) - リソース グループ (
CLUSTER_RG
) - マネージド リソース グループ (
CLUSTER_MRG
) - BareMetal Machines (BMM) リソースがマネージド リソース グループに存在する - ライフサイクル管理操作を必要とするベアメタル コンピューター名 (
BMM_NAME
)
- サブスクリプション ID (
最適な是正アプローチを特定する
技術的な問題のトラブルシューティングには、体系的なアプローチが必要です。 効果的な方法の 1 つは、最も低侵襲なソリューションから始め、必要に応じて、より複雑で潜在的に破壊的な対策に取り組む方法です。 これらのトラブルシューティング方法は、すべてのシナリオに対して必ずしも有効であるとは限らず、他のさまざまな要因を考慮すると別のアプローチが必要になる場合があることに注意してください。 このため、最も適切な是正措置を決定するために、ベア メタル マシンの障害のトラブルシューティングを行うときに、使用可能なオプションを十分に理解することが不可欠です。
トラブルシューティング中の一般的なアドバイス
- トラブルシューティング ガイドやハウツー記事など、関連するドキュメントについて理解します。 ベスト プラクティスと更新プログラムについては、常に最新のドキュメントを参照してください。
- 操作を再試行する前に、最初に障害の根本原因を特定して、失敗した操作を繰り返さないようにします。 特定の問題を特定して対処するには、増分手順で再試行を実行します。
- 他の手順を実行する前に、Az CLI コマンドが実行されて完了するのを待ち、ベア メタル マシン リソースの状態を検証します。
- ハードウェアとソフトウェアのバージョン間の互換性の問題を防ぐため、新しいグリーンフィールド デプロイの前に、ファームウェアとソフトウェアのバージョンが最新であることを確認します。 ファームウェアの互換性の詳細については、「 Operator Nexus Platform Prerequisites」を参照してください。
- iDRAC 資格情報が正しく、ベア メタル マシンの電源がオンになっていることを確認します。
一般的なネットワーク接続の正常性を確認する
プロセス中の中断を回避するために、安定したネットワーク接続を確保します。 ネットワークの安定性を無視すると、操作が正常に完了できず、ベア メタル マシンがエラーまたは低下状態のままになる可能性があります。
クラスター リソースの clusterConnectionStatus
を簡単に確認すると、ネットワーク接続の正常性を示す 1 つのインジケーターとして機能します。
az networkcloud cluster show \
-g $CLUSTER_MRG \
-n $BMM_NAME \
--subscription $SUBSCRIPTION \
--query "clusterConnectionStatus" \
-o table
Result
---------
Connected
NetworkFabric リソースの状態、アラート、メトリックを確認して、NetworkFabric リソースを詳しく見てみましょう。 関連記事を参照してください。
ハードウェア、ネットワーク、またはサーバー構成の問題を解決する必要があることを示すベア メタル マシンの警告または機能低下状態を評価します。 詳細については、「 ベア メタル マシンの機能低下状態エラーのトラブルシューティング 」および 「ベア メタル マシンの警告状態のトラブルシューティング」を参照してください。
ファームウェア更新ジョブが実行されているかどうかを確認する
replace
またはreimage
操作を開始する前に、BMC を介して実行中のファームウェア アップグレード ジョブがないことを確認します。
ファームウェアの継続的なアップグレードを中断すると、ベア メタル マシンが不整合な状態になる可能性があります。
- iDRAC GUI で
jobqueue
を表示するか、run-read-command
racadm jobqueque view
を使用してファームウェア アップグレード ジョブが実行されているかどうかを確認できます。 -
run-read-command
機能の詳細については、「ベア メタル Run-Read 実行」を参照してください。
az networkcloud baremetalmachine run-read-command \
-g $CLUSTER_MRG \
-n $BMM_NAME \
--subscription $SUBSCRIPTION \
--limit-time-seconds 60 \
--commands "[{command:'nc-toolbox nc-toolbox-runread racadm jobqueue view'}]" \
--output-directory .
racadm jobqueue view
を示す Firmware Update
コマンドからの出力例を次に示します。
[Job ID=JID_833540920066]
Job Name=Firmware Update: iDRAC
Status=Downloading
Start Time= [Not Applicable]
Expiration Time= [Not Applicable]
Message= [RED001: Job in progress.]
Percent Complete= [50%]
一般的な happy-path ステートメントを示す racadm jobqueue view
コマンドからの出力例を次に示します。
-------------------------JOB QUEUE------------------------
[Job ID=JID_429400224349]
Job Name=Configure: Import Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:22]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:32]
Message=[SYS053: Successfully imported and applied Server Configuration Profile.]
Percent Complete=[100]
----------------------------------------------------------
[Job ID=JID_429400338344]
Job Name=Export: Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:33]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:58]
Message=[SYS043: Successfully exported Server Configuration Profile]
Percent Complete=[100]
ベア メタル マシンの JSON プロパティで状態を監視する
バージョン 2509.1 以降では、対応するベア メタル マシン (Operator Nexus) リソースの JSON View
で、最近または進行中のアクションの状態を表示できます。 この情報は、API バージョン actionStates
以降を使用する場合、ベア メタル マシン JSON プロパティの2025-07-01-preview
フィールドに表示されます。 次の情報を使用できます。
- アクションの開始時刻と終了時刻。
- アクションの状態 (
Succeeded
、Failed
、またはInProgress
)。 - 状態に関連付けられている追加のコンテキストまたはエラー メッセージ。
- Azure アクティビティ ログに示すように、元の操作の関連付け ID。
- BMM 置換アクションの
Hardware Validation
、Deprovisioning
、Provisioning
、Cloud Init
など、ステップとその状態の順序付きリスト。
現在進行中のアクションを含め、各アクションの種類の最新の出現が表示されます。
ベア メタル マシンの置換アクションでの actionStates
の出力例:
{
"properties": {
"actionStates": [
{
"actionType": "Microsoft.NetworkCloud/bareMetalMachines/replace",
"correlationId": "25d678cb-353c-41f4-8231-1135064ae582",
"endTime": "2025-08-12T17:00:58Z",
"startTime": "2025-08-12T15:32:12Z",
"status": "Completed",
"stepStates": [
{
"endTime": "2025-08-12T15:41:22Z",
"startTime": "2025-08-12T15:32:12Z",
"status": "Completed",
"stepName": "Hardware Validation"
},
{
"endTime": "2025-08-12T16:25:39Z",
"startTime": "2025-08-12T15:41:22Z",
"status": "Completed",
"stepName": "Deprovisioning"
},
{
"endTime": "2025-08-12T16:48:27Z",
"startTime": "2025-08-12T16:25:39Z",
"status": "Completed",
"stepName": "Provisioning"
},
{
"endTime": "2025-08-12T17:00:58Z",
"startTime": "2025-08-12T16:48:27Z",
"status": "Completed",
"stepName": "Cloud Init"
}
]
}
]
}
}
ベア メタル マシンの再イメージ化に関するベスト プラクティス
ベア メタル マシン (BMM) reimage
アクションについては、「Azure Operator Nexus Server の問題のトラブルシューティング」で説明されているベア メタル マシンライフサイクル管理コマンドとシナリオ手順で説明されています。
警告
同じ BareMetal Machine (BMM) リソースに対して複数の baremetalmachine replace
または reimage
コマンドを同時に実行しないでください。
replace
と同時にreimage
を実行すると、サーバーは非動作状態になります。
別の BMM を開始する前に、BMM の replace
/reimage
が完全に完了していることを確認します。
また、指定されたメンテナンス操作が実行されていない限り、reimage
アクションを完了したばかりの BMM に対して、順次replace
アクションを実行しないようにします。
reimage
操作を実行することで、ベア メタル マシン上のオペレーティング システム ランタイムバージョンを復元できます。
ベア メタル マシン reimage
は、問題を解決したり、オペレーティング システム ソフトウェアを既知の正常な状態に復元したりするために、時間と信頼性の両方を確保できます。
このプロセスでは、ターゲットのベア メタル マシンにランタイム イメージを 再デプロイ し、同じ識別子を持つクラスターに再び参加する手順を実行します。
reimage
アクションは、オペレーティング システム パーティションと対話するように設計されており、仮想マシンのローカル ストレージは変更されません。
重要
ベア メタル マシンのファイル システム ("ブレーク グラス" とも呼ばれます) に対する手動または自動の変更は避けてください。
Microsoft サポートを復元するには、 reimage
アクションが必要です。ノードを想定した状態に復元すると、ベア メタル マシンに対して行われた変更は失われます。
ベア メタル マシンを再イメージ化する前の前提条件と検証
reimage
操作を開始する前に、次の前提条件が満たされていることを確認します。
-
cordon
コマンドを使い、パラメーターevacuate
をTrue
に設定して、ベア メタル マシンのワークロードを確実にドレインします。 - ベア メタル マシンのプロビジョニングのトラブルシューティングに関する記事で説明されている高レベルのチェックを実行します。
-
reimage
操作の前にハードウェア、ネットワーク、またはサーバー構成の問題を解決する必要があることを示すベア メタル マシンの警告または機能低下状態を評価します。 詳細については、「 ベア メタル マシンの機能低下状態エラーのトラブルシューティング 」および 「ベア メタル マシンの警告状態のトラブルシューティング」を参照してください。 - ベア メタル マシンがハードウェア検証の理由 (ベア メタル マシンの
Detailed Status
フィールドとDetailed Status Message
フィールドに表示される) で失敗状態を報告する場合、ベア メタル マシンには代わりにreplace
が必要です。 ベア メタル マシンの交換に関するベスト プラクティスを参照してください。 - 実行中のファームウェア アップグレード ジョブがないことを確認します。 「ファームウェア更新ジョブが実行されているかどうかを確認する」セクションの手順に従います。
ベア メタル マシンの置換に関するベスト プラクティス
ベア メタル マシンのreplace
アクションについては、「Azure Operator Nexus Server の問題のトラブルシューティング」で説明されているベア メタル マシンライフサイクル管理コマンドとシナリオ手順で説明されています。
警告
同じ BareMetal Machine (BMM) リソースに対して複数の baremetalmachine replace
または reimage
コマンドを同時に実行しないでください。
replace
と同時にreimage
を実行すると、サーバーは非動作状態になります。
別の BMM を開始する前に、BMM の replace
/reimage
が完全に完了していることを確認します。
また、指定されたメンテナンス操作が実行されていない限り、reimage
アクションを完了したばかりの BMM に対して、順次replace
アクションを実行しないようにします。
ハードウェア障害は、サーバーの有効期間中に通常発生します。
機能を復元し、操作を継続するために、コンポーネントの交換が必要になる場合があります。
replace
操作は、ハードウェアのメンテナンス/修復イベントの後に実行する必要があります。
サーバーで 1 つ以上のハードウェア コンポーネントが失敗した場合 (複数の障害)、ベア メタル マシンの操作を実行する前replace
必要な修復を行います。
重要
2024-07-01
GA API バージョンでは、ベア メタル マシンのreplace
中に RAID コントローラーがリセットされ、サーバーの仮想ディスクからすべてのデータがワイプされます。
ベア メタル マシンの replace
中にトリガーされたベースボード管理コントローラー (BMC) 仮想ディスク アラートは、物理ディスクや RAID コントローラーのアラートが増えない限り無視できます。
ベア メタル マシンを置き換える前の前提条件と検証
replace
操作を開始する前に、次の前提条件が満たされていることを確認します。
-
cordon
コマンドを使い、パラメーターevacuate
をTrue
に設定して、ベア メタル マシンのワークロードを確実にドレインします。 - ベア メタル マシンのプロビジョニングのトラブルシューティングに関する記事で説明されている高レベルのチェックを実行します。
-
replace
操作の前にハードウェア、ネットワーク、またはサーバー構成の問題を解決する必要があることを示すベア メタル マシンの警告または機能低下状態を評価します。 詳細については、「 ベア メタル マシンの機能低下状態エラーのトラブルシューティング 」および 「ベア メタル マシンの警告状態のトラブルシューティング」を参照してください。 - ベア メタル マシンの電源がオンになっていることを確認します。
- API バージョン
2025-07-01-preview
以降を使用して作成された正常な (電源オン、準備完了、プロビジョニング、クラスターへの参加) ベア メタル マシンのreplace
は、既定のセーフガード モードでは拒否されます。replace
が本当に必要な場合 (ハードウェア コンポーネントの交換後など)、この拒否は--safeguard-mode None
でオーバーライドできます。 - 実行中のファームウェア アップグレード ジョブがないことを確認します。 「ファームウェア更新ジョブが実行されているかどうかを確認する」セクションの手順に従います。
ハードウェア検証の問題を解決する
ベア メタル マシンがハードウェア検証に失敗したマークが付いている場合は、物理的な修復が必要であることを示している可能性があります。
ベアメタルマシンreplace
を実行する前に、これらの修理箇所を特定し、対処することが非常に重要です。
OS イメージを展開する前に物理ホストの整合性を確保するために、 replace
操作の一部としてハードウェア検証プロセスが呼び出されます。
ベア メタル マシンでハードウェア検証エラーが引き続き発生する場合、ベア メタル マシンは正常にプロビジョニングできません。
その結果、ベア メタル マシンは、運用可能になり、クラスターに参加するために必要なセットアップ手順を完了できません。
次のアクションの前にすべてのreplace
がクリアされていることを確認します。
ハードウェア検証の結果を理解するには、ハードウェア検証 エラーのトラブルシューティングに関する記事を参照してください。
ベア メタル マシンの置換が必要ない
一部の修復では、ベア メタル マシン replace
を実行する必要はありません。
たとえば、ベア メタル マシン ホストは修復後も引き続き正常に機能するため、物理ホット スワップ可能な電源の修復を実行する場合、 replace
操作は必要ありません。
ただし、ベア メタル マシンがハードウェアの検証に失敗した場合、ホット スワップ可能な修復が行われた場合でも、ベア メタル マシンの replace
が必要です。
ベア メタル マシンのステータス メッセージを調べて、ハードウェア検証エラーまたはその他の低下した状態が存在するかどうかを判断します。
この種類のその他の修復は次のようになります。
- CPU
- デュアル インライン メモリ モジュール (DIMM)
- 換気扇
- 拡張ボード ライザー
- トランシーバー
- イーサネットまたはファイバー ケーブルの交換
ベア メタル マシンの置換が必要である
マザーボードやネットワーク インターフェイス カード (NIC) などのコンポーネントを交換すると、ベア メタル マシンの MAC アドレスが変更されます。
ただし、iDRAC の IP アドレスとホスト名は変わりません。
マザーボードの変更により MAC アドレスが変更され、ベア メタル マシンの replace
が必要になります。
次の物理的な修復を実行するときに、ベア メタル マシンをサービスに戻すには、 replace
操作が 必要です 。
- バックプレーン
- システム ボード
- SSD ディスク
- PERC/RAID アダプター
- Mellanox ネットワーク インターフェイス カード (NIC)
- Broadcom 埋め込み NIC
ベア メタル マシンの交換操作後に状態を確認する
ベア メタル マシンの replace
操作が正常に完了したら、 provisioningStatus
が Succeeded
され、 readyState
が True
されていることを確認します。
その後、uncordon
操作を実行することで、ベアメタルマシンが再びワークロードスケジュール可能なノードプールに参加します。
サポートの要請
さらに不明な点がある場合は、サポート にお問い合わせください。 サポート プランの詳細については、Azure サポート プランに関するページを参照してください。