Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Neste início rápido, você usará o portal do Azure para criar um cluster Apache Spark no Azure HDInsight. Em seguida, você cria um Jupyter Notebook e o usa para executar consultas SQL do Spark em tabelas do Apache Hive. O Azure HDInsight é um serviço de análise gerenciado e de código aberto, abrangente para empresas. A estrutura Apache Spark para HDInsight permite análises rápidas de dados e computação de cluster usando o processamento na memória. O Jupyter Notebook permite que você interaja com seus dados, combine código com texto de markdown e faça visualizações simples.
Para obter explicações detalhadas sobre as configurações disponíveis, consulte Configurar clusters no HDInsight. Para obter mais informações sobre o uso do portal para criar clusters, consulte Criar clusters no portal.
Se você estiver usando vários clusters juntos, talvez queira criar uma rede virtual; se você estiver usando um cluster Spark também poderá querer usar o Hive Warehouse Connector. Para obter mais informações, confira Planejar uma rede virtual para o Azure HDInsight e Integrar o Apache Spark e o Apache Hive com o Hive Warehouse Connector.
Importante
A cobrança dos clusters HDInsight é feita por minuto, independentemente de você estar usando-os ou não. Exclua o cluster depois de terminar de usá-lo. Para obter mais informações, consulte a seção Limpar recursos deste artigo.
Pré-requisitos
Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.
Criar um cluster do Apache Spark no HDInsight
Você usará o portal do Azure para criar um cluster HDInsight que usa blobs do Armazenamento do Azure como o armazenamento de cluster. Para obter mais informações sobre como usar o Data Lake Storage Gen2, consulte Início Rápido: Configurar clusters no HDInsight.
Entre no portal do Azure.
No menu superior, selecione + Criar um recurso.
Selecione Analytics>Azure HDInsight para ir à página Criar Cluster HDInsight.
Na guia Noções básicas , forneça as seguintes informações:
Propriedade Description Subscription Na lista suspensa, selecione a assinatura do Azure usada para o cluster. Grupo de recursos Na lista suspensa, selecione o grupo de recursos existente ou selecione Criar. Nome do cluster Insira um nome global exclusivo. Região Na lista suspensa, selecione uma região em que o cluster foi criado. Zona de disponibilidade Opcional – especifique uma zona de disponibilidade na qual implantar seu cluster Tipo de cluster Selecione o tipo de cluster para abrir uma lista. Na lista, selecione Spark. Versão do cluster Esse campo será preenchido automaticamente com a versão padrão depois que o tipo de cluster for selecionado. Nome de usuário de logon do cluster Insira o nome de usuário de logon do cluster. O nome padrão é administrador. Use essa conta para fazer logon no Jupyter Notebook mais adiante no início rápido. Senha de login do cluster Insira a senha de logon do cluster. Nome de usuário do SSH (Secure Shell) Insira o nome de usuário do SSH. O nome de usuário SSH usado para este início rápido é sshuser. Por padrão, esta conta compartilha a mesma senha que a conta de nome de usuário de Login do Cluster. A captura de tela mostra a criação de um cluster HDInsight com a guia Básicos selecionada.
Selecione Avançar: Armazenamento >> para continuar na página Armazenamento .
Em Armazenamento, forneça os seguintes valores:
Propriedade Description Tipo de armazenamento primário Use o valor padrão do Armazenamento do Azure. Método de seleção Use o valor padrão Selecionar na lista. Conta de armazenamento primária Use o valor preenchido automaticamente. Contêiner Use o valor preenchido automaticamente.
Selecione Examinar + criar para continuar.
Em Examinar + criar, selecione Criar. Leva cerca de 20 minutos para a criação do cluster. O cluster deve ser criado antes de prosseguir para a próxima sessão.
Se você tiver um problema com a criação de clusters HDInsight, pode ser que você não tenha as permissões certas para fazer isso. Para obter mais informações, consulte os requisitos de controle do Access.
Criar um Jupyter Notebook
O Jupyter Notebook é um ambiente de notebook interativo que dá suporte a várias linguagens de programação. O notebook permite que você interaja com seus dados, combine código com texto de markdown e execute visualizações simples.
Em um navegador da Web, navegue até
https://CLUSTERNAME.azurehdinsight.net/jupyter, ondeCLUSTERNAMEestá o nome do cluster. Em caso de solicitação, insira as credenciais de logon do cluster.Selecione Novo>PySpark para criar um bloco de anotações.
Um novo bloco de anotações é criado e aberto com o nome Untitled(Untitled.pynb).
Executar instruções SQL do Apache Spark
SQL (Structured Query Language) é a linguagem mais comum e amplamente usada para consultar e definir dados. O SQL do Spark funciona como uma extensão para o Apache Spark para processar dados estruturados, usando a sintaxe sql familiar.
Verifique se o kernel está pronto. O kernel está pronto quando você vê um círculo oco ao lado do nome do kernel no notebook. O círculo sólido indica que o kernel está ocupado.
Quando você inicia o notebook pela primeira vez, o kernel executa algumas tarefas em segundo plano. Aguarde até que o kernel esteja pronto.
Cole o código a seguir em uma célula vazia e pressione SHIFT + ENTER para executar o código. O comando lista as tabelas do Hive no cluster:
%%sql SHOW TABLESAo usar um Jupyter Notebook com seu cluster HDInsight, você obtém uma predefinição
sqlContextque pode ser usada para executar consultas do Hive usando o Spark SQL.%%sqlinforma ao Jupyter Notebook que use a configuração predefinidasqlContextpara executar a consulta do Hive. A consulta recupera as 10 principais linhas de uma tabela hive (hivesampletable) que vem com todos os clusters HDInsight por padrão. Leva cerca de 30 segundos para obter os resultados. A saída se parece com isso:
é o início rápido." border="true":::Sempre que você executa uma consulta no Jupyter, o título da janela do navegador da Web mostra um status (Ocupado) junto com o título do bloco de anotações. Você também vê um círculo sólido ao lado do texto PySpark no canto superior direito.
Execute outra consulta para ver os dados em
hivesampletable.%%sql SELECT * FROM hivesampletable LIMIT 10A tela deve ser atualizada para mostrar a saída da consulta.
Insight" border="true":::No menu Arquivo no bloco de anotações, selecione Fechar e Parar. Desligar o notebook libera os recursos do cluster.
Limpar os recursos
O HDInsight salva seus dados no Armazenamento do Azure ou no Azure Data Lake Storage, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como os encargos para o cluster são muitas vezes maiores do que os encargos para armazenamento, faz sentido, do ponto de vista econômico, excluir os clusters quando não estiverem em uso. Se você planeja trabalhar no tutorial listado em próximos passos imediatamente, talvez você queira manter o cluster.
Volte para o portal do Azure e selecione Excluir.
sight cluster" border="true":::
Você também pode selecionar o nome do grupo de recursos para abrir a página do grupo de recursos e, em seguida, selecionar Excluir grupo de recursos. Excluindo o grupo de recursos, você exclui o cluster HDInsight e a conta de armazenamento padrão.
Próximas etapas
Neste início rápido, você aprendeu a criar um cluster Apache Spark no HDInsight e executar uma consulta SQL básica do Spark. Avance para o próximo tutorial para saber como usar um cluster HDInsight para executar consultas interativas em dados de exemplo.