次の方法で共有


Apache Spark 実行系列分析とは

Note

Apache Spark の実行系列と異常分析の機能では、完成した Spark アプリケーションについて Spark バージョン 3.4 以降のみがサポートされます。

Apache Spark の実行系列では、定期的なパイプライン アクティビティ、手動ノートブックの実行、または同じノートブックまたは Spark ジョブ定義からの Spark ジョブの実行に基づいて、Spark アプリケーションが自動的に分類されます。

実行系列機能は、各 Spark アプリケーション インスタンスの期間の傾向とデータ入力または出力の傾向を示しています。 実行系列を自動的にスキャンし、異常を検出し、個々の Spark アプリケーションの詳細ビューを提供します。

実行系列分析機能には、次の主要な機能があります。

  • 自動チューニング分析: 実行系列分析を使用して、自動チューニングの結果の比較、Spark アプリケーションのパフォーマンスの表示、実行時の内訳の確認、自動チューニングされた Spark SQL クエリ構成の確認を行います。

  • 実行系列の比較: ノートブックの実行時間を過去の実行と比較し、入力データと出力データを評価して、実行時間が長くなる理由を理解します。

  • 外れ値の検出と分析: 実行系列の外れ値を検出して分析し、潜在的な原因を特定します。

  • 詳細な実行インスタンス ビュー: 特定の実行インスタンスを選択して、時間分布に関する詳細情報を取得します。 これらの詳細は、パフォーマンス向上の機会と、対応する Spark 構成を特定するために使用されます。

実行系列分析を使用するタイミングとは

実行系列分析機能は、パフォーマンスのチューニングと最適化のために設計されています。 生産ジョブの正常性が不明な場合は、この機能を使用できます。 さまざまな実行系列の生産ジョブを自動的にスキャンし、正常性分析を実行します。 実行時間の長いジョブを最適化する場合は、それを他のジョブと比較し、パフォーマンスのボトルネックを特定し、最適化の機会を特定できます。 さらに、この機能を使用して、自動チューニングの出力を表示し、最適なパフォーマンスを確保できます。

実行系列分析の例

ノートブック実行インスタンスからの実行系列分析の例を次に示します。 この実行系列の期間の傾向を表示できます。 各縦棒は、ノートブック アクティビティの実行のインスタンスを表し、高さは実行時間を示します。 赤いバーは、その実行インスタンスに対して検出された異常を示します。 各実行インスタンスを選択すると、より詳細な情報を表示したり、特定の時間枠を拡大または縮小したりできます。

実行系列分析の例を示すスクリーンショット。

Spark 実行系列分析へのアクセス

実行系列分析機能には、監視ハブの履歴ビュー、ノートブックまたは Spark ジョブ定義の最近の実行パネル、または Spark アプリケーション監視の詳細ページからアクセスできます。

Spark 実行系列分析にアクセスする方法を示すスクリーンショット。