Usar a Exibição do Hive do Apache Ambari com o Apache Hadoop no HDInsight

Saiba como executar as consultas do Hive usando a Exibição do Hive do Apache Ambari. A Exibição do Hive permite que você crie, otimize e execute consultas do Hive no navegador da Web.

Pré-requisitos

Um cluster Hadoop no HDInsight. Veja Introdução ao HDInsight no Linux.

Executar uma consulta do Hive

No portal do Azure, selecione o cluster. Veja Listar e mostrar clusters para obter instruções. O cluster é aberto em uma nova exibição do portal.
Em Painéis do cluster, selecione Exibições do Ambari. Quando precisar se autenticar, use o nome e senha da conta de logon do cluster (admin padrão) que você forneceu ao criar o cluster. Também é possível navegar até https://CLUSTERNAME.azurehdinsight.net/#/main/views no navegador, em que CLUSTERNAME é o nome do cluster.
Na lista de exibições, selecione Exibição do Hive.

A página de Exibição do Hive é semelhante à seguinte imagem:

na guia Consulta, cole as seguintes instruções HiveQL na planilha:

DROP TABLE log4jLogs;
CREATE EXTERNAL TABLE log4jLogs(
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE LOCATION '/example/data/';
SELECT t4 AS loglevel, COUNT(*) AS count FROM log4jLogs
    WHERE t4 = '[ERROR]'
    GROUP BY t4;

Essas instruções executam as seguintes ações:

Instrução	Descrição
DROP TABLE	Exclui a tabela e o arquivo de dados, caso a tabela já exista.
CREATE EXTERNAL TABLE	Cria uma tabela “externa” no Hive. As tabelas externas armazenam apenas a definição da tabela no Hive. Os dados são mantidos no local original.
FORMATO DA LINHA	Mostra como os dados são formatados. Nesse caso, os campos em cada log são separados por um espaço.
ARMAZENADO COMO ARQUIVO DE TEXTO LOCAL	Mostra o local em que os dados são armazenados e se estão armazenados como texto.
SELECT	Seleciona uma contagem de todas as linhas em que a coluna t4 contém o valor [ERROR].

Importante

Mantenha a seleção Banco de dados como padrão. Os exemplos deste documento usam o banco de dados padrão incluído no HDInsight.

Para iniciar a consulta, selecione Executar abaixo da planilha. O botão ficará laranja e o texto será alterado para Parar.
Depois que a consulta for concluída, a seção Resultados exibirá os resultados da operação. O seguinte texto é o resultado da consulta:
```
loglevel       count
[ERROR]        3
```
A guia LOG pode ser usada para exibir as informações de log criadas pelo trabalho.

Dica

Baixe ou salve os resultados na caixa de diálogo suspensa Ações na guia Resultados.

Explicações visuais

Para exibir uma visualização do plano de consulta, selecione a guia Explicações Visuais abaixo da planilha.

A exibição Explicações Visuais da consulta pode ser útil na compreensão do fluxo de consultas complexas.

Interface de usuário do Tez

Para exibir a interface do usuário do Tez para a consulta, selecione a guia Interface do usuário do Tez abaixo da planilha.

Importante

O Tez não é usado para resolver todas as consultas. Muitas consultas podem ser resolvidas sem usar o Tez.

Exibir o histórico de trabalhos

A guia Trabalhos exibe um histórico das consultas do Hive.

Histórico da guia Exibição de trabalhos do Apache Hive.

Tabelas de banco de dados

Você pode usar a guia Tabelas para trabalhar com tabelas em um banco de dados do Hive.

Imagem da guia Tabelas do Apache Hive.

Consultas salvas

Na guia Consulta você pode, opcionalmente, salvar consultas. Depois de salvar uma consulta, você pode reutilizá-la na guia Consultas Salvas.

Guia Consultas Salvas nas exibições do Apache Hive.

Dica

As consultas salvas são mantidas no armazenamento de cluster padrão. Encontre as consultas salvas no caminho /user/<username>/hive/scripts. Elas são armazenadas como arquivos de texto sem formatação .hql.

Se você excluir o cluster, mas manter o armazenamento, use um utilitário como o Gerenciador de Armazenamento do Azure ou o Gerenciador de Armazenamento do Data Lake (no portal do Azure) para recuperar as consultas.

Funções definidas pelo usuário

O Hive pode ser estendido por meio de UDF (funções definidas pelo usuário). Use uma UDF para implementar uma funcionalidade ou uma lógica que não é facilmente modelada em HiveQL.

Declare e salve um conjunto de UDFs usando a guia UDF na parte superior da Exibição do Hive. Essas UDFs podem ser usadas com o Editor de Consultas.

Exibição da guia UDFs na exibição do Apache Hive.

Um botão Inserir UDFs será exibido na parte inferior do Editor de Consultas. Essa entrada mostra uma lista suspensa de UDFs definidas na Exibição do Hive. A seleção de uma UDF adiciona instruções HiveQL à consulta para habilitar a UDF.

Por exemplo, se você tiver definido uma UDF com as seguintes propriedades:

Nome de recurso: myudfs
Caminho do recurso: /myudfs.jar
Nome da UDF: myawesomeudf
Nome de classe da UDF: com.myudfs.Awesome

O uso do botão Inserir UDFs exibe uma entrada chamada myudfs, com outra lista suspensa para cada UDF definida para esse recurso. Nesse caso, ela é myawesomeudf. A seleção dessa entrada adiciona o seguinte ao início da consulta:

add jar /myudfs.jar;
create temporary function myawesomeudf as 'com.myudfs.Awesome';

Você pode usar a UDF na consulta. Por exemplo, SELECT myawesomeudf(name) FROM people;.

Para saber mais sobre como usar UDFs com o Hive no HDInsight, veja os seguintes artigos:

Configurações do Hive

Você pode alterar diversas configurações do Hive, por exemplo, o mecanismo de execução do Hive de Tez (o padrão) para MapReduce.

Próximas etapas

Para obter informações gerais sobre o Hive no HDInsight:

Comentários

Esta página foi útil?

Last updated on 2025-04-13