重要
Azure Data Lake Analytics は 2024 年 2 月 29 日に廃止されました。 このお知らせで詳細を学びましょう。
データ分析の場合、組織は Azure Synapse Analytics または Microsoft Fabric を使用できます。
Microsoft では、 Azure Databricks、 Azure HDInsight、Azure Data Lake Analytics などの複数の Analytics サービスがサポートされています。 開発者からは、分析パイプラインを構築する際にオープン ソース ソリューションに対して明確な好みがあると聞いています。 U-SQL 開発者が Apache Spark を理解し、U-SQL スクリプトを Apache Spark に変換する方法を理解できるように、このガイダンスを作成しました。
これには、実行できる手順と、いくつかの代替手段が含まれます。
U-SQL を Apache Spark に変換する手順
ジョブ オーケストレーション パイプラインを刷新します。
Azure Data Factory を使用して Azure Data Lake Analytics スクリプトを調整する場合は、それらを調整して新しい Spark プログラムを調整する必要があります。
U-SQL と Spark でデータを管理する方法の違いについて説明します。
データを Azure Data Lake Storage Gen1 から Azure Data Lake Storage Gen2 に移動する場合は、ファイル データとカタログ管理データの両方をコピーする必要があります。 Azure Data Lake Analytics では、Azure Data Lake Storage Gen1 のみがサポートされます。 詳細については、「 Spark データ形式について」を参照してください。
U-SQL スクリプトを Spark に変換します。
U-SQL スクリプトを変換する前に、分析サービスを選択する必要があります。 使用可能なコンピューティング サービスの一部を次に示します。
- Azure Data Factory DataFlow マッピング データ フローは、視覚的に設計されたデータ変換であり、データ エンジニアはコードを記述せずにグラフィカルなデータ変換ロジックを開発できます。 複雑なユーザー コードの実行には適していませんが、従来の SQL に似たデータフロー変換を簡単に表すことができます
- Azure HDInsight Hive HDInsight 上の Apache Hive は、ETL (抽出、変換、読み込み) 操作に適しています。 つまり、U-SQL スクリプトを Apache Hive に変換します。
- Azure HDInsight Spark や Azure Databricks などの Apache Spark エンジン。これは、U-SQL スクリプトを Spark に変換することを意味します。 詳細については、「Spark データ形式について」を参照してください。
注意事項
Azure Databricks と Azure HDInsight Spark はどちらもクラスター サービスであり、Azure Data Lake Analytics のようなサーバーレス ジョブではありません。 適切なコスト/パフォーマンス比を得るためにクラスターをプロビジョニングする方法と、コストを最小限に抑えるためにその有効期間を管理する方法を検討する必要があります。 これらのサービスは、.NET で記述されたユーザー コードとは異なるパフォーマンス特性を持っているので、ラッパーを記述するか、サポートされている言語でコードを書き直す必要があります。 詳細については、「Spark データ形式について」、U-SQL 開発者向けの Apache Spark コードの概念について、.NET for Apache Spark を参照してください。
次のステップ
- U-SQL 開発者向けの Spark データ形式について
- U-SQL 開発者向けの Spark コードの概念を理解する
- ビッグ データ分析ソリューションを Azure Data Lake Storage Gen1 から Azure Data Lake Storage Gen2 にアップグレードする
- .NET for Apache Spark
- Azure Data Factory で Hadoop Hive アクティビティを使用してデータを変換する
- Azure Data Factory での Spark アクティビティを使用したデータの変換
- Azure HDInsight における Apache Spark の概要