HDInsight의 Apache Hadoop 에코시스템에서 작업하기 위한 Windows PC의 개발 및 관리 옵션에 대해 알아봅니다.
HDInsight는 Linux에서 개발된 오픈 소스 기술인 Apache Hadoop 및 Hadoop 구성 요소를 기반으로 합니다. HDInsight 버전 3.4 이상에서는 Ubuntu Linux 배포판을 클러스터의 기본 OS로 사용합니다. 그러나 Windows 클라이언트 또는 Windows 개발 환경에서 HDInsight로 작업할 수 있습니다.
배포 및 관리 작업에 PowerShell 사용
Azure PowerShell은 Windows에서 HDInsight의 배포 및 관리 작업을 제어하고 자동화하는 데 사용할 수 있는 스크립팅 환경입니다.
PowerShell을 사용하여 수행할 수 있는 작업의 예:
Azure PowerShell을 설치하고 구성 하여 최신 버전을 가져오는 단계를 수행합니다.
브라우저에서 실행할 수 있는 유틸리티
다음 유틸리티에는 브라우저에서 실행되는 웹 UI가 있습니다.
Azure Cloud Shell 은 브라우저 및 Azure Portal 내에서 실행되는 대화형 명령줄 셸입니다.
Apache Ambari 웹 UI 는 다음과 같은 다양한 종류의 작업을 관리하는 데 사용할 수 있는 Azure Portal에서 사용할 수 있는 관리 및 모니터링 유틸리티입니다.
다음 예제로 이동하기 전에 Data Lake Tools for Visual Studio를 설치하고 사용해 보세요.
Visual Studio 및 .NET SDK
.NET SDK와 함께 Visual Studio를 사용하여 클러스터를 관리하고 빅 데이터 애플리케이션을 개발할 수 있습니다. 다음 작업에 다른 IDE를 사용할 수 있지만 예제는 Visual Studio에 표시됩니다.
Visual Studio에서 .NET SDK로 수행할 수 있는 작업의 예:
- .NET용 Azure HDInsight SDK.
- .NET SDK를 사용하여 Apache Hive 쿼리를 실행합니다.
- Apache Hadoop에서 Apache Hive 및 Apache Pig 스트리밍과 함께 C# 사용자 정의 함수를 사용합니다.
Spark 클러스터용 IntelliJ IDEA 및 Eclipse IDE
IntelliJ IDEA와 Eclipse IDE를 모두 사용하여 다음을 수행할 수 있습니다.
- HDInsight Spark 클러스터에서 Scala Spark 애플리케이션을 개발하고 제출합니다.
- Spark 클러스터 리소스에 액세스합니다.
- Scala Spark 애플리케이션을 로컬로 개발하고 실행합니다.
다음 문서에서는 다음 방법을 보여줍니다.
- IntelliJ IDEA: Azure Toolkit for IntelliJ 플러그 인 및 Scala SDK를 사용하여 Apache Spark 애플리케이션을 만듭니다.
- Eclipse IDE 또는 Eclipse용 Scala IDE: Apache Spark 애플리케이션 및 Eclipse용 Azure 도구 키트 만들기
데이터 과학자를 위한 Spark의 Notebook
HDInsight의 Apache Spark 클러스터에는 Jupyter Notebook과 함께 사용할 수 있는 Apache Zeppelin Notebook 및 커널이 포함됩니다.
- Jupyter Notebook과 함께 Apache Spark 클러스터에서 커널을 사용하여 Spark 애플리케이션을 테스트하는 방법을 알아봅니다.
- Apache Spark 클러스터에서 Apache Zeppelin Notebook을 사용하여 Spark 작업을 실행하는 방법을 알아봅니다.
Windows에서 Linux 기반 도구 및 기술 실행
Linux에서만 사용할 수 있는 도구 또는 기술을 사용해야 하는 경우 다음 옵션을 고려하세요.
- Windows 10의 Ubuntu에서 Bash는 Windows 에서 Linux 하위 시스템을 제공합니다. Bash를 사용하면 전용 Linux 설치를 유지 관리하지 않고도 Linux 유틸리티를 직접 실행할 수 있습니다. Windows 10을 위한 Linux용 Windows 하위 시스템 설치 가이드에서 설치 단계를 참조하세요. 다른 Unix 셸 도 작동합니다.
- Windows용 Docker 는 많은 Linux 기반 도구에 대한 액세스를 제공하며 Windows에서 직접 실행할 수 있습니다. 예를 들어 Docker를 사용하여 Windows에서 직접 Hive용 Beeline 클라이언트를 실행할 수 있습니다. Docker를 사용하여 로컬 Jupyter Notebook을 실행하고 HDInsight의 Spark에 원격으로 연결할 수도 있습니다. Windows용 Docker 시작
- MobaXTerm 을 사용하면 SSH 연결을 통해 클러스터 파일 시스템을 그래픽으로 찾아볼 수 있습니다.
플랫폼 간 도구
Azure CLI(명령줄 인터페이스)는 Azure 리소스를 관리하기 위한 Microsoft의 플랫폼 간 명령줄 환경입니다. 자세한 내용은 Azure Command-Line 인터페이스(CLI)를 참조하세요.
다음 단계
Linux 기반 클러스터에서 작업을 새로 사용하는 경우 다음 문서를 참조하세요.