この記事では、 ジョブおよびパイプライン ワークスペース UI を使用してタスクを作成、構成、および編集する手順について説明します。
Azure Databricks は、Lakeflow ジョブのコンポーネントとしてタスクを管理します。 1 つのジョブには 1 つ以上のタスクが含まれています。 最初のタスクを構成することで、ワークスペース UI で新しいジョブを作成します。 新しいジョブを構成するには、「 Lakeflow ジョブの構成と編集」を参照してください。
各タスクには、タスク ロジックを実行する関連付けられたコンピューティング リソースがあります。 サーバーレスを使用している場合は、Azure Databricks によってコンピューティング リソースが構成されます。 サーバーレスを使用していない場合は、「ジョブ用にコンピューティングを構成する」を参照してください。
Azure Databricks には、次のようなタスク構成用のその他のエントリ ポイントとツールがあります。
タスクを作成または構成する
既存のタスクを編集するか、ワークスペース UI で新しいタスクを追加するには、次の手順に従って既存のジョブを選択します。
- Azure Databricks ワークスペースのサイドバーで、
ジョブ & パイプライン をクリックします。 - 必要に応じて、ジョブ と 私が所有 フィルターを選択します。
- ジョブの [名前] リンクをクリックします。
- [タスク] タブをクリックすると、タスク グラフが表示されます。
- タスクを編集するには、タスク名をクリックします。 タスク グラフの下にタスクの構成が表示されます。
- タスクを追加するには、
をクリックします。
タスクの種類
構成オプションと手順はタスクによって異なります。 以下に示すタスクの種類を使用できます。
- Notebook
- Python スクリプト
- Python ホイール
- SQL
- パイプライン
- ダッシュボード
- Power BI
- dbt
- ジャー
- Spark Submit(スパークサブミット)
- ジョブの実行
- If/else
- For Each
タスクを複製する
アップストリームの依存関係を含む、既存のタスクのすべての構成をコピーするタスクを複製します。
タスクを複製するには、次を実行します。
- タスク グラフでタスクを選択します。
- クリック
。
- 複製するタスク名 を指定し、 [複製]をクリックします。
タスクを削除する
タスクを削除するには、次を実行します。
- タスク グラフでタスクを選択します。
[] をクリックし、 [タスクの削除]を選択します。
タスク パスをコピーする
ノートブック タスクなどの特定のタスクの種類では、タスクのソース コードへのパスをコピーできます。
- [タスク] タブをクリックします。
- コピーするパスを含むタスクを選択します。
- タスク パスの横にある
をクリックして、パスをクリップボードにコピーします。
タスクの詳細設定
次の詳細設定では、失敗したタスクの再試行と応答しないタスクのタイムアウト ポリシーが制御されます。
注
タスクまたはジョブ レベルで通知を設定できます。 「ジョブについての通知を追加する」をご覧ください。
再試行ポリシーの設定
タスクの再試行の既定の設定は、ジョブの構成によって異なります。 ほとんどの構成において、既定の設定では、タスクの失敗時に再試行は行われません。
サーバーレスのジョブでは、既定で再試行が自動的に最適化されます。 「再試行を禁止するようにサーバーレス コンピューティングの自動最適化を構成する」を参照してください
連続ジョブでは、エクスポネンシャル バックオフ再試行ポリシーが使用されます。 「継続的ジョブのエラーはどのように処理されますか?」を参照してください。
タスクの実行が失敗したときに再試行するタイミングと回数を決定するポリシーを構成するには、 [再試行] の横にある [+ 追加] をクリックします。
再試行間隔は、失敗した実行の開始からその後の再試行実行までで計算されます (ミリ秒単位)。
注
タイムアウトと再試行の両方を構成すると、タイムアウトは再試行ごとに適用されます。
タスク実行期間またはストリーミング バックログ メトリックのしきい値を構成する
Von Bedeutung
Lakeflow ジョブのストリーミング可観測性は パブリック プレビュー段階です。
タスクの実行期間またはストリーミング バックログ メトリックのオプションのしきい値を構成できます。 期間のしきい値またはストリーミング メトリックのしきい値を構成するには、タスク構成パネルで [ メトリックしきい値 ] をクリックします。
タスクの予想所要時間と最大完了時間を含むタスク期間のしきい値を構成するには、[メトリック] ドロップダウン メニューで [実行期間] を選択します。 [警告] フィールドに期間を入力して、タスクの予想される完了時間を構成します。 タスクの実行がこのしきい値を超えると、イベントがトリガーされます。 タスクブの最大完了時間を構成するには、 [タイムアウト] フィールドに最大期間を入力します。 この時間内にタスクが完了しなかった場合、Azure Databricks によって状態が "タイムアウト" に設定されます。
ストリーミング バックログ メトリックのしきい値を構成するには、[メトリック] ドロップダウン メニューでメトリックを選択し、しきい値の値を入力します。 ストリーミング ソースでサポートされる特定のメトリックについては、「ストリーミング タスクのメトリックの表示 を参照してください。
[ 警告 ] フィールドに期間を入力して、タスクの予想される完了時間を構成します。 タスクがこのしきい値を超えると、イベントがトリガーされます。 このイベントを使用して、タスクの実行速度が遅い場合に通知できます。 低速ジョブの通知の構成を参照してください。
タスクブの最大完了時間を構成するには、 [タイムアウト] フィールドに最大期間を入力します。 この時間内にタスクが完了しなかった場合、Azure Databricks によって状態が "タイムアウト" に設定されます。
しきい値を超えたためにイベントがトリガーされた場合は、イベントを使用して通知を送信できます。 低速ジョブの通知の構成を参照してください。