Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Saiba como executar as consultas do Hive usando a Exibição do Hive do Apache Ambari. A Exibição do Hive permite que você crie, otimize e execute consultas do Hive no navegador da Web.
Pré-requisitos
Um cluster Hadoop no HDInsight. Veja Introdução ao HDInsight no Linux.
Executar uma consulta do Hive
No portal do Azure, selecione o cluster. Veja Listar e mostrar clusters para obter instruções. O cluster é aberto em uma nova exibição do portal.
Em Painéis do cluster, selecione Exibições do Ambari. Quando precisar se autenticar, use o nome e senha da conta de logon do cluster (
adminpadrão) que você forneceu ao criar o cluster. Também é possível navegar atéhttps://CLUSTERNAME.azurehdinsight.net/#/main/viewsno navegador, em queCLUSTERNAMEé o nome do cluster.Na lista de exibições, selecione Exibição do Hive.
A página de Exibição do Hive é semelhante à seguinte imagem:
na guia Consulta, cole as seguintes instruções HiveQL na planilha:
DROP TABLE log4jLogs; CREATE EXTERNAL TABLE log4jLogs( t1 string, t2 string, t3 string, t4 string, t5 string, t6 string, t7 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION '/example/data/'; SELECT t4 AS loglevel, COUNT(*) AS count FROM log4jLogs WHERE t4 = '[ERROR]' GROUP BY t4;Essas instruções executam as seguintes ações:
Instrução Descrição DROP TABLE Exclui a tabela e o arquivo de dados, caso a tabela já exista. CREATE EXTERNAL TABLE Cria uma tabela “externa” no Hive. As tabelas externas armazenam apenas a definição da tabela no Hive. Os dados são mantidos no local original. FORMATO DA LINHA Mostra como os dados são formatados. Nesse caso, os campos em cada log são separados por um espaço. ARMAZENADO COMO ARQUIVO DE TEXTO LOCAL Mostra o local em que os dados são armazenados e se estão armazenados como texto. SELECT Seleciona uma contagem de todas as linhas em que a coluna t4 contém o valor [ERROR]. Importante
Mantenha a seleção Banco de dados como padrão. Os exemplos deste documento usam o banco de dados padrão incluído no HDInsight.
Para iniciar a consulta, selecione Executar abaixo da planilha. O botão ficará laranja e o texto será alterado para Parar.
Depois que a consulta for concluída, a seção Resultados exibirá os resultados da operação. O seguinte texto é o resultado da consulta:
loglevel count [ERROR] 3A guia LOG pode ser usada para exibir as informações de log criadas pelo trabalho.
Dica
Baixe ou salve os resultados na caixa de diálogo suspensa Ações na guia Resultados.
Explicações visuais
Para exibir uma visualização do plano de consulta, selecione a guia Explicações Visuais abaixo da planilha.
A exibição Explicações Visuais da consulta pode ser útil na compreensão do fluxo de consultas complexas.
Interface de usuário do Tez
Para exibir a interface do usuário do Tez para a consulta, selecione a guia Interface do usuário do Tez abaixo da planilha.
Importante
O Tez não é usado para resolver todas as consultas. Muitas consultas podem ser resolvidas sem usar o Tez.
Exibir o histórico de trabalhos
A guia Trabalhos exibe um histórico das consultas do Hive.
Tabelas de banco de dados
Você pode usar a guia Tabelas para trabalhar com tabelas em um banco de dados do Hive.
Consultas salvas
Na guia Consulta você pode, opcionalmente, salvar consultas. Depois de salvar uma consulta, você pode reutilizá-la na guia Consultas Salvas.
Dica
As consultas salvas são mantidas no armazenamento de cluster padrão. Encontre as consultas salvas no caminho /user/<username>/hive/scripts. Elas são armazenadas como arquivos de texto sem formatação .hql.
Se você excluir o cluster, mas manter o armazenamento, use um utilitário como o Gerenciador de Armazenamento do Azure ou o Gerenciador de Armazenamento do Data Lake (no portal do Azure) para recuperar as consultas.
Funções definidas pelo usuário
O Hive pode ser estendido por meio de UDF (funções definidas pelo usuário). Use uma UDF para implementar uma funcionalidade ou uma lógica que não é facilmente modelada em HiveQL.
Declare e salve um conjunto de UDFs usando a guia UDF na parte superior da Exibição do Hive. Essas UDFs podem ser usadas com o Editor de Consultas.
Um botão Inserir UDFs será exibido na parte inferior do Editor de Consultas. Essa entrada mostra uma lista suspensa de UDFs definidas na Exibição do Hive. A seleção de uma UDF adiciona instruções HiveQL à consulta para habilitar a UDF.
Por exemplo, se você tiver definido uma UDF com as seguintes propriedades:
Nome de recurso: myudfs
Caminho do recurso: /myudfs.jar
Nome da UDF: myawesomeudf
Nome de classe da UDF: com.myudfs.Awesome
O uso do botão Inserir UDFs exibe uma entrada chamada myudfs, com outra lista suspensa para cada UDF definida para esse recurso. Nesse caso, ela é myawesomeudf. A seleção dessa entrada adiciona o seguinte ao início da consulta:
add jar /myudfs.jar;
create temporary function myawesomeudf as 'com.myudfs.Awesome';
Você pode usar a UDF na consulta. Por exemplo, SELECT myawesomeudf(name) FROM people;.
Para saber mais sobre como usar UDFs com o Hive no HDInsight, veja os seguintes artigos:
- Usar o Python com o Apache Hive e o Apache Pig no HDInsight
- Usar uma UDF do Java com o Apache Hive no HDInsight
Configurações do Hive
Você pode alterar diversas configurações do Hive, por exemplo, o mecanismo de execução do Hive de Tez (o padrão) para MapReduce.
Próximas etapas
Para obter informações gerais sobre o Hive no HDInsight: