この記事では、ベア メタル マシン (BMM) でライフサイクル管理操作を実行する方法について説明します。 これらの手順は、障害から復旧するためのトラブルシューティングや、メンテナンスアクションの実行時に使用する必要があります。
まず、操作を続行する前に、 ベア メタル マシン操作のベスト プラクティス に関する記事のアドバイスを参照してください。
一覧に示されている太字のアクションは、中断と見なされます (電源オフ、再起動、再イメージ化、置換)。
evacuate
パラメーターを指定しない Cordon アクションは中断と見なされませんが、evacuate
パラメーターを持つ Cordon は中断を伴うと見なされます。
- ベア メタル マシンの電源をオフにする
- ベア メタル マシンを起動する
- ベア メタル マシンを再起動する
- ベア メタル マシンをスケジュール設定できないようにする (退避なしの切断、ノードをドレインしない)
- ベア メタル マシンをスケジュール設定できないようにする (退避して切断し、ノードをドレインする)
- ベア メタル マシンをスケジュール設定できるようにする (切断しない)
- ベア メタル マシンを再イメージ化する
- ベア メタル マシンを置き換える
注意事項
Microsoft サポート担当者と最初に相談しないと、制御プレーン サーバーまたは管理プレーン サーバーに対して何もアクションを実行しないでください。そうすると、オペレーターネクサス クラスターの整合性に影響する可能性があります。
重要
Kubernetes コントロール プレーン (KCP) ノードに対する複数の破壊的コマンド要求が拒否されます。 このチェックは、Nexus クラスター インスタンスの整合性を維持し、同時に中断するアクションが原因で複数の KCP ノードが一度に非動作にならないようにするために行われます。 拒否された破壊的アクション コマンドは、別の KCP ノードに対して既に実行されているか、完全な KCP が使用できないことが原因である可能性があります。 複数のノードが動作しなくなると、Kubernetesコントロールプレーンの正常なクォーラムしきい値が損なわれます。
一覧に示されているアクションは、BareMetal Machines (BMM) に対して破壊的影響を及ぼすと見なされます。
- BMM の電源をオフにする
- BMM を再起動する
- BMM をスケジュール不可にする (退避して切断し、ノードをドレインする)
- BMM を再イメージ化する
- BMM を置き換える
中断しないアクションのみを残します。
- BMM を起動する
- BMM をスケジュール設定できないようにする (退避せずに切断し、ノードをドレインしない)
- BMM をスケジュール設定できるようにする (切断しない)
前提条件
- 適切な CLI 拡張機能の最新バージョンをインストールします。
- Azure Operator Nexus ネットワーク ファブリック (NF) とネットワーク クラウド CLI 拡張機能コマンドを実行するためのアクセスを要求します。
- Azure CLI にサインインし、クラスターがデプロイされているサブスクリプションを選択します。
- 次の情報を収集します。
- サブスクリプション ID (
SUBSCRIPTION
) - クラスター名 (
CLUSTER
) - リソース グループ (
CLUSTER_RG
) - マネージド リソース グループ (
CLUSTER_MRG
) - BareMetal Machines (BMM) リソースがマネージド リソース グループに存在する - ライフサイクル管理操作を必要とする BareMetal マシン名 (
BMM_NAME
)
- サブスクリプション ID (
ベア メタル マシンの電源をオフにする
重要
まれに、実行中の Nexus VM が BMM シャットダウンまたは再起動後に再起動に失敗する場合があります。 このような場合を防ぐには、BMM の電源をオフにするか再起動する前に、BMM 上の仮想マシンの電源をオフにします。 BMM で実行されているワークロードを見つける手順については、 cordon
コマンドを参照してください。
このコマンドは、指定された power-off
を bareMetalMachineName
します。
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
ベア メタル マシンを起動する
このコマンドは、指定された start
を bareMetalMachineName
します。
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
ベア メタル マシンを再起動する
重要
まれに、実行中の Nexus VM が BMM シャットダウンまたは再起動後に再起動に失敗する場合があります。 このような場合を防ぐには、BMM の電源をオフにするか再起動する前に、BMM 上の仮想マシンの電源をオフにします。 BMM で実行されているワークロードを見つける手順については、 cordon
コマンドを参照してください。
このコマンドは、指定された restart
を bareMetalMachineName
します。
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
ベア メタル マシンをスケジュール設定できないようにする (切断する)
cordon
コマンドを実行すると、ベア メタル マシンをスケジュール不可能にすることができます。
cordon
コマンドを実行すると、cordon
が設定されている場合、オペレーター ネクサス ワークロードはベア メタル マシンでスケジュールされません。
cordoned
ベア メタル マシンでワークロードを作成しようとすると、ワークロードがpending
状態に設定されます。
ワークロードがドレインされない限り、既存のワークロードはベア メタル マシンで引き続き実行されます。
ベア メタル マシンのワークロードをドレインする
cordon コマンドは、evacuate
パラメーターをサポートしています。このパラメーターの既定値 False
により、cordon
コマンドが新しいワークロードのスケジュールを妨げます。
cordon
コマンドを使用してワークロードをドレインするには、evacuate
パラメーターを True
に設定する必要があります。
ベア メタル マシンで実行されているワークロードは stopped
され、ベア メタル マシンは pending
状態に設定されます。
注
Nexus Management ワークロードは、サーバーが切断されて避難している場合でも、ベア メタル マシン上で引き続き実行されます。
ベア メタル サーバーでメンテナンス操作を実行する場合は、 evacuate
の値を True
に設定することをお勧めします。
その他のベスト プラクティスについては、 ベア メタル マシン操作のベスト プラクティスに関する記事を参照してください。
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
ベア メタル マシンでワークロードが現在実行されているかどうかを確認するには、次のコマンドを実行します。
Virtual Machines の場合:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Nexus Kubernetes クラスター ノードの場合: (Nexus Kubernetes クラスターへのログインが必要)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
ベア メタル マシンをスケジュール設定できるようにする (切断しない)
uncordon
コマンドを実行して、ベア メタル マシンを "スケジュール可能" にすることができます (サーバーはワークロードをホストできます)。
ベア メタル マシンが pending
されると、ベア メタル マシンの restarted
状態のすべてのワークロードが uncordoned
されます。
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
ベア メタル マシンを再イメージ化する
ベア メタル マシンでランタイム バージョンを復元する場合は、 reimage
コマンドを実行します。
reimage
アクションは、ベア メタル マシン上のテナント ワークロード ファイルには影響しません。
このプロセスでは、ターゲットのベア メタル マシンにランタイム イメージを 再デプロイ し、同じ識別子を持つクラスターに再び参加する手順を実行します。
ベスト プラクティスとして、cordon
コマンドを実行する前に、evacuate
を True
に設定して、reimage
コマンドを使用してベア メタル マシンのワークロードがドレインされていることを確認します。
その他のベスト プラクティスについては、 ベア メタル マシン操作のベスト プラクティスに関する記事を参照してください。
重要
ベア メタル マシン アクセスを介してノードで実行される書き込みまたは編集操作は避けてください。
reimage
アクションは、Microsoft サポートを復元するために必要であり、ベア メタル マシンに対して行われた変更は、ノードを予期された状態に復元中に失われます。
警告
同じ BareMetal Machine (BMM) リソースに対して複数の baremetalmachine replace
または reimage
コマンドを同時に実行しないでください。
replace
と同時にreimage
を実行すると、サーバーは非動作状態になります。
別の BMM を開始する前に、BMM の replace
/reimage
が完全に完了していることを確認します。
また、指定されたメンテナンス操作が実行されていない限り、reimage
アクションを完了したばかりの BMM に対して、順次replace
アクションを実行しないようにします。
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
ベア メタル マシンを置き換える
完全または部分的なハードウェア交換が必要なハードウェアの問題がサーバーで発生した場合は、replace
コマンドを使用します。
マザーボードやネットワーク インターフェイス カード (NIC) などのコンポーネントを交換した後、ベア メタル マシンの MAC アドレスが変更されます。ただし、iDRAC の IP アドレスとホスト名は変わりません。
各ハードウェア メンテナンス操作の後には必ずreplace
実行する必要があります。詳細についてはベア メタル マシンの置き換えのベスト プラクティスをお読みください。
2506.2 リリースの時点で、iDRAC のパスワード値は、Key Vault Uniform Resource Identifier (URI) またはパスワード値として指定できます。 Key Vault 資格情報リファレンスを参照してください。 プレーンテキスト パスワードの代わりに URI を使用すると、セキュリティが強化されます。
警告
同じ BareMetal Machine (BMM) リソースに対して複数の baremetalmachine replace
または reimage
コマンドを同時に実行しないでください。
replace
と同時にreimage
を実行すると、サーバーは非動作状態になります。
別の BMM を開始する前に、BMM の replace
/reimage
が完全に完了していることを確認します。
また、指定されたメンテナンス操作が実行されていない限り、reimage
アクションを完了したばかりの BMM に対して、順次replace
アクションを実行しないようにします。
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<PASSWORD_URI or IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID>
ハードウェア検証エラーが原因で replace
アクションが失敗した場合、次の例に示すように、 replace
応答に特定のエラーまたはテストエラーが表示されます。
この情報は、ベア メタル マシン (オペレーター ネクサス) のアクティビティ ログでも確認できます。
エラー コードとエラー メッセージには、対応する BareMetalMachines_Replace
操作の JSON プロパティが含まれています。
例 1: Baseboard Management Controller (BMC) 資格情報の Key Vault URI が無効なため、ハードウェア検証が失敗する
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=$KEY_VAULT_URI username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(failed to retrieve password from key vault) failed to get secret value from key vault: failed to get cluster key vault secret
Code: failed to retrieve password from key vault
Message: failed to retrieve password from key vault
Response: 400 Bad Request
例 2: Baseboard Management Controller (BMC) 資格情報が無効なため、ハードウェアの検証が失敗する
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
Code: None
Message: BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
例 3: ネットワーク障害が原因でハードウェア検証が失敗する
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
Code: None
Message: Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
ハードウェア検証エラーのトラブルシューティングの詳細については、「 ハードウェア検証エラーのトラブルシューティング」を参照してください。