次の方法で共有


Databricks での開発

Databricks 開発者ユーザーには、データ サイエンティスト、データ エンジニア、データ アナリスト、機械学習エンジニア、DevOps および MLOps エンジニアが含まれます。すべての構築ソリューションと統合により、特定のニーズに合わせて Databricks を拡張およびカスタマイズできます。 ワークスペースで利用できる多くの Databricks API とデータ エンジニアリング機能に加えて、Databricks に接続し、Databricks の開発者ユーザーをサポートするローカルでの開発のための多くのツールもあります。

この記事では、Databricks 開発者ユーザーが使用できる API とツールの概要について説明します。

ワークスペースでコーディングを開始する

ワークスペースでの開発は、Databricks API をすばやく理解するための優れた方法です。 Databricks では、Python、SQL、Scala、R、および便利なツールやユーティリティなど、ワークスペース内の開発者向けのその他の機能がサポートされています。

開始する方法を次に示します。

カスタム アプリとソリューションを構築する

Azure Databricks には、ワークスペースとローカル開発の両方のツールが用意されています。 ワークスペースでは、UI を使用してアプリを作成でき、Unity カタログのボリュームとワークスペース ファイルでデータに簡単にアクセスでき、デバッグ用の Databricks Assistant などのワークスペースのみの機能が利用でき、ノートブックなどのその他の機能が完全に機能し、Git フォルダーでソース管理を利用できます。

または、ローカル コンピューター上の IDE を使用してカスタム ソリューションを開発し、豊富な開発環境の完全な機能を活用します。 ローカル開発では 、より広範な言語がサポートされています。つまり、デバッグやテスト フレームワークなどの言語に依存する機能は、ソース管理への直接アクセスと共に、大規模なプロジェクトをサポートできます。

ツールの使用に関する推奨事項については、「 どの開発者ツールを使用する必要があるか」を参照してください。

特徴 説明
認証と承認 Azure Databricks を操作するためのツール、スクリプト、アプリの認証と承認を構成します。
Databricks Apps Databricks プラットフォーム上にセキュリティで保護されたデータと AI カスタム アプリケーションを作成します。このアプリケーションは、他のユーザーと共有できます。
Visual Studio Code 用の Databricks 拡張機能 Visual Studio Code からリモートの Azure Databricks ワークスペースに接続すると、Databricks ワークスペースへの接続と、Databricks リソースを管理するための UI を簡単に構成できます。
PyCharm Databricks プラグイン リモート Databricks ワークスペースへの接続を構成し、PyCharm から Databricks クラスターでファイルを実行します。 このプラグインは、Databricks と提携して JetBrains によって開発および提供されています。
Databricks SDK REST API を直接呼び出すのではなく、SDK を使用して Databricks との対話を自動化します。 SDK はワークスペースでも使用できます。

Databricks に接続する

Databricks への接続は、多くの統合とソリューションに必要なコンポーネントであり、Databricks には選択できる多数の接続ツールが用意されています。 次の表は、開発環境とプロセスを Azure Databricks ワークスペースとリソースに接続するためのツールを示しています。

特徴 説明
Databricks Connect PyCharm、IntelliJ IDEA、Eclipse、RStudio、JupyterLab などの一般的な統合開発環境 (IDE) を使用して Azure Databricks に接続します。
Visual Studio Code 用の Databricks 拡張機能 Databricks ワークスペースへの接続と、Databricks リソースを管理するための UI を簡単に構成できます。
SQL ドライバーとツール Azure Databricks に接続して SQL コマンドとスクリプトを実行し、Azure Databricks とプログラムでやり取りし、Azure Databricks SQL 機能を Python、Go、JavaScript、TypeScript などの一般的な言語で記述されたアプリケーションに統合します。

ヒント

さらに、多くの追加の一般的なサードパーティ製ツールをクラスターと SQL ウェアハウスに接続して、Azure Databricks のデータにアクセスすることもできます。 「テクノロジ パートナー」を参照してください。

インフラストラクチャとリソースを管理する

CI/CD パイプラインを構築し、インフラストラクチャとリソースのプロビジョニングと管理を自動化する開発者とデータ エンジニアは、単純で複雑なパイプライン シナリオをサポートする次のツールから選択できます。

ツールの使用に関する推奨事項については、「 どの開発者ツールを使用する必要があるか」を参照してください。

特徴 説明
Databricks CLI Databricks のコマンド ライン インターフェイス (CLI) を使用して Azure Databricks 機能にアクセスします。 CLI は Databricks REST API をラップするため、curl または Postman を使用して REST API 呼び出しを直接送信する代わりに、Databricks CLI を使用して Databricks と対話できます。 ローカル ターミナルから CLI を使用するか、ワークスペース Web ターミナルから使用します。
Databricks アセット バンドル Databricks CLI の機能である Databricks アセット バンドルを使用して、データおよび AI プロジェクトの業界標準の開発、テスト、デプロイのベスト プラクティスを使用して、Databricks リソースと CI/CD パイプラインを定義および管理します。
Databricks Terraform プロバイダーDatabricks 用 Terraform CDKTF Teraform を使用して Azure Databricks インフラストラクチャとリソースをプロビジョニングします。
CI/CD ツール GitHub ActionsJenkinsApache エアフローなどの一般的な CI/CD システムとフレームワークを統合

コードの共同作業と共有

ワークスペース内の他の多くのコラボレーション機能の中で、Databricks では、次の機能を使用してワークスペース内のコードを共同作業および共有する開発者ユーザーを特にサポートしています。

特徴 説明
UDF コードを再利用して共有するための UDF (ユーザー定義関数) を開発します。
Git フォルダー Databricks プロジェクト ファイルに対するバージョン管理とソース管理のコントリビューションに Git フォルダー を構成します。

Databricks 開発者コミュニティに参加する

Databricks には、次のプログラムとリソースでサポートされているアクティブな開発者コミュニティがあります。