次の方法で共有


Lakeflow ジョブのタスクの構成と編集

この記事では、 ジョブおよびパイプライン ワークスペース UI を使用してタスクを作成、構成、および編集する手順について説明します。

Azure Databricks は、Lakeflow ジョブのコンポーネントとしてタスクを管理します。 1 つのジョブには 1 つ以上のタスクが含まれています。 最初のタスクを構成することで、ワークスペース UI で新しいジョブを作成します。 新しいジョブを構成するには、「 Lakeflow ジョブの構成と編集」を参照してください。

各タスクには、タスク ロジックを実行する関連付けられたコンピューティング リソースがあります。 サーバーレスを使用している場合は、Azure Databricks によってコンピューティング リソースが構成されます。 サーバーレスを使用していない場合は、「ジョブ用にコンピューティングを構成する」を参照してください。

Azure Databricks には、次のようなタスク構成用のその他のエントリ ポイントとツールがあります。

タスクを作成または構成する

既存のタスクを編集するか、ワークスペース UI で新しいタスクを追加するには、次の手順に従って既存のジョブを選択します。

  1. Azure Databricks ワークスペースのサイドバーで、ジョブ & パイプライン をクリックします。
  2. 必要に応じて、ジョブ私が所有 フィルターを選択します。
  3. ジョブの [名前] リンクをクリックします。
  4. [タスク] タブをクリックすると、タスク グラフが表示されます。
  5. タスクを編集するには、タスク名をクリックします。 タスク グラフの下にタスクの構成が表示されます。
  6. タスクを追加するには、 [タスクの追加] ボタンをクリックします。

タスクの種類

構成オプションと手順はタスクによって異なります。 以下に示すタスクの種類を使用できます。

タスクを複製する

アップストリームの依存関係を含む、既存のタスクのすべての構成をコピーするタスクを複製します。

タスクを複製するには、次を実行します。

  1. タスク グラフでタスクを選択します。
  2. クリック [タスクの複製] ボタン
  3. 複製するタスク名 を指定し、 [複製]をクリックします。

タスクを削除する

タスクを削除するには、次を実行します。

  1. タスク グラフでタスクを選択します。
  2. ごみ箱に入れる[] をクリックし、 [タスクの削除]を選択します。

タスク パスをコピーする

ノートブック タスクなどの特定のタスクの種類では、タスクのソース コードへのパスをコピーできます。

  1. [タスク] タブをクリックします。
  2. コピーするパスを含むタスクを選択します。
  3. タスク パスの横にある [ジョブのコピー] アイコン をクリックして、パスをクリップボードにコピーします。

タスクの詳細設定

次の詳細設定では、失敗したタスクの再試行と応答しないタスクのタイムアウト ポリシーが制御されます。

タスクまたはジョブ レベルで通知を設定できます。 「ジョブについての通知を追加する」をご覧ください。

再試行ポリシーの設定

タスクの再試行の既定の設定は、ジョブの構成によって異なります。 ほとんどの構成において、既定の設定では、タスクの失敗時に再試行は行われません。

サーバーレスのジョブでは、既定で再試行が自動的に最適化されます。 「再試行を禁止するようにサーバーレス コンピューティングの自動最適化を構成する」を参照してください

連続ジョブでは、エクスポネンシャル バックオフ再試行ポリシーが使用されます。 「継続的ジョブのエラーはどのように処理されますか?」を参照してください。

タスクの実行が失敗したときに再試行するタイミングと回数を決定するポリシーを構成するには、 [再試行] の横にある [+ 追加] をクリックします。

再試行間隔は、失敗した実行の開始からその後の再試行実行までで計算されます (ミリ秒単位)。

タイムアウト再試行の両方を構成すると、タイムアウトは再試行ごとに適用されます。

タスク実行期間またはストリーミング バックログ メトリックのしきい値を構成する

Von Bedeutung

Lakeflow ジョブのストリーミング可観測性は パブリック プレビュー段階です

タスクの実行期間またはストリーミング バックログ メトリックのオプションのしきい値を構成できます。 期間のしきい値またはストリーミング メトリックのしきい値を構成するには、タスク構成パネルで [ メトリックしきい値 ] をクリックします。

タスクの予想所要時間と最大完了時間を含むタスク期間のしきい値を構成するには、[メトリック] ドロップダウン メニューで [実行期間] を選択します。 [警告] フィールドに期間を入力して、タスクの予想される完了時間を構成します。 タスクの実行がこのしきい値を超えると、イベントがトリガーされます。 タスクブの最大完了時間を構成するには、 [タイムアウト] フィールドに最大期間を入力します。 この時間内にタスクが完了しなかった場合、Azure Databricks によって状態が "タイムアウト" に設定されます。

ストリーミング バックログ メトリックのしきい値を構成するには、[メトリック] ドロップダウン メニューでメトリックを選択し、しきい値の値を入力します。 ストリーミング ソースでサポートされる特定のメトリックについては、「ストリーミング タスクのメトリックの表示 を参照してください。

[ 警告 ] フィールドに期間を入力して、タスクの予想される完了時間を構成します。 タスクがこのしきい値を超えると、イベントがトリガーされます。 このイベントを使用して、タスクの実行速度が遅い場合に通知できます。 低速ジョブの通知の構成を参照してください。

タスクブの最大完了時間を構成するには、 [タイムアウト] フィールドに最大期間を入力します。 この時間内にタスクが完了しなかった場合、Azure Databricks によって状態が "タイムアウト" に設定されます。

しきい値を超えたためにイベントがトリガーされた場合は、イベントを使用して通知を送信できます。 低速ジョブの通知の構成を参照してください。