Compartilhar via


Início Rápido: Executar consultas do Apache Hive no Azure HDInsight com Apache Zeppelin

Neste início rápido, você aprenderá a usar o Apache Zeppelin para executar consultas do Apache Hive no Azure HDInsight. Os clusters de Consulta Interativa do HDInsight incluem notebooks Apache Zeppelin que você pode usar para executar consultas interativas do Hive.

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

Um cluster de Consulta Interativa do HDInsight. Consulte Criar cluster para criar um cluster HDInsight. Escolha o tipo de cluster Consulta Interativa.

Criar uma anotação do Apache Zeppelin

  1. Substitua CLUSTERNAME pelo nome do cluster na URL https://CLUSTERNAME.azurehdinsight.net/zeppelina seguir. Em seguida, insira a URL em um navegador da Web.

  2. Insira o nome de usuário e a senha de logon do cluster. Na página Zeppelin, você pode criar uma nova anotação ou abrir anotações existentes. HiveSample contém algumas consultas hive de exemplo.

    Zeppelin de Consulta Interativa do HDInsight.

  3. Selecione Criar nova anotação.

  4. Na caixa de diálogo Criar nova anotação , digite ou selecione os seguintes valores:

    • Nome da observação: insira um nome para a anotação.
    • Interpretador padrão: selecione jdbc na lista suspensa.
  5. Selecione Criar Observação.

  6. Insira a seguinte consulta hive na seção de código e pressione Shift + Enter:

    %jdbc(hive)
    show tables
    

    O Zeppelin de Consulta Interativa do HDInsight executa a consulta.

    A instrução %jdbc(hive) na primeira linha informa ao notebook para usar o interpretador JDBC do Hive.

    A consulta deve retornar uma tabela hive chamada hivesampletable.

    Veja a seguir mais duas consultas do Hive que você pode executar contra hivesampletable:

    %jdbc(hive)
    select * from hivesampletable limit 10
    
    %jdbc(hive)
    select ${group_name}, count(*) as total_count
    from hivesampletable
    group by ${group_name=market,market|deviceplatform|devicemake}
    limit ${total_count=10}
    

    Em comparação com o Hive tradicional, os resultados da consulta são retornados com um tempo de resposta muito mais rápido.

Mais exemplos

  1. Crie uma tabela. Execute o código no Notebook Zeppelin.

    %jdbc(hive)
    CREATE EXTERNAL TABLE log4jLogs (
        t1 string,
        t2 string,
        t3 string,
        t4 string,
        t5 string,
        t6 string,
        t7 string)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ' '
    STORED AS TEXTFILE;
    
  2. Carregue dados na nova tabela. Execute o código no Notebook Zeppelin.

    %jdbc(hive)
    LOAD DATA
    INPATH 'wasbs:///example/data/sample.log'
    INTO TABLE log4jLogs;
    
  3. Insira um único registro. Execute o código no Notebook Zeppelin.

    %jdbc(hive)
    INSERT INTO TABLE log4jLogs2
    VALUES ('A', 'B', 'C', 'D', 'E', 'F', 'G');
    

Examine o manual da linguagem Hive para obter mais sintaxe.

Limpar os recursos

Após concluir o início rápido, poderá ser conveniente excluir o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, assim você poderá excluir, com segurança, um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como os encargos para o cluster são muitas vezes maiores do que os encargos para armazenamento, faz sentido, do ponto de vista econômico, excluir os clusters quando não estiverem em uso.

Para excluir um cluster, consulte Excluir um cluster HDInsight usando o navegador, o PowerShell ou a CLI do Azure.

Próximas etapas

Neste início rápido, você aprendeu a usar o Apache Zeppelin para executar consultas do Apache Hive no Azure HDInsight. Para saber mais sobre consultas do Hive, o próximo artigo mostrará como executar consultas com o Visual Studio.