Compartilhar via


Tutorial: Carregar dados de exemplo em um cluster de Big Data do SQL Server

Aplica-se a:SQL Server 2019 (15.x)

Important

Os Clusters de Big Data do Microsoft SQL Server 2019 foram desativados. O suporte para clusters de Big Data do SQL Server 2019 terminou em 28 de fevereiro de 2025. Para obter mais informações, consulte a postagem no blog de anúncios e as opções de Big Data na plataforma microsoft SQL Server.

Este tutorial explica como usar um script para carregar dados de exemplo em um Clusters de Big Data do SQL Server 2019. Muitos dos outros tutoriais da documentação usam esses dados de exemplo.

Tip

É possível encontrar exemplos adicionais para o Clusters de Big Data do SQL Server 2019 no repositório do GitHub sql-server-samples. Eles ficam localizados no caminho sql-server-samples/samples/features/sql-big-data-cluster/.

Prerequisites

Carregar dados de exemplo

As etapas a seguir usam um script de inicialização para baixar um backup de um banco de dados do SQL Server e carregar os dados em seu cluster de Big Data. Para facilitar o uso, essas etapas foram divididas em seções referentes ao Windows e ao Linux. Se você quiser usar o nome de usuário/senha básico como mecanismo de autenticação, defina as variáveis de ambiente AZDATA_USERNAME e AZDATA_PASSWORD antes de executar o script. Caso contrário, o script usará a autenticação integrada para se conectar à instância mestra do SQL Server e ao gateway do Knox. Além disso, o nome DNS deve ser especificado para os pontos de extremidade a fim de usar a autenticação integrada.

Windows

As etapas a seguir descrevem como usar um cliente do Windows para carregar os dados de exemplo em seu cluster de Big Data.

  1. Abra um novo prompt de comando do Windows.

    Important

    Não use o Windows PowerShell para essas etapas. No PowerShell, o script falhará pois usará a versão do PowerShell para curl.

  2. Use curl para baixar o script de inicialização para os dados de exemplo.

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. Baixe o script Transact-SQL bootstrap-sample-db.sql. Esse script é chamado pelo script de inicialização.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. O script de inicialização requer os seguintes parâmetros posicionais para o cluster de Big Data:

    Parameter Description
    <CLUSTER_NAMESPACE> O nome que você atribuiu ao cluster de Big Data.
    <SQL_MASTER_ENDPOINT> O nome DNS ou o endereço IP da instância mestre.
    <KNOX_ENDPOINT> O nome DNS ou o endereço IP do gateway de HDFS/Spark.

    Tip

    Use kubectl para localizar os endereços IP da instância mestre do SQL Server e o Knox. Execute kubectl get svc -n <your-big-data-cluster-name> e examine os endereços IP externos da instância mestra (master-svc-external) e do Knox (gateway-svc-external). O nome padrão de um cluster é mssql-cluster.

  5. Execute o script de inicialização.

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

As etapas a seguir descrevem como usar um cliente do Linux para carregar os dados de exemplo em seu cluster de Big Data.

  1. Baixe o script de inicialização e atribua permissões executáveis a ele.

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. Baixe o script Transact-SQL bootstrap-sample-db.sql. Esse script é chamado pelo script de inicialização.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. O script de inicialização requer os seguintes parâmetros posicionais para o cluster de Big Data:

    Parameter Description
    <CLUSTER_NAMESPACE> O nome que você atribuiu ao cluster de Big Data.
    <SQL_MASTER_ENDPOINT> O nome DNS ou o endereço IP da instância mestre.
    <KNOX_ENDPOINT> O nome DNS ou o endereço IP do gateway de HDFS/Spark.

    Tip

    Use kubectl para localizar os endereços IP da instância mestre do SQL Server e o Knox. Execute kubectl get svc -n <your-big-data-cluster-name> e examine os endereços IP externos da instância mestra (master-svc-external) e do Knox (gateway-svc-external). O nome padrão de um cluster é mssql-cluster.

  4. Execute o script de inicialização.

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Next steps

Depois que o script de inicialização for executado, seu cluster de Big Data terá os bancos de dados de exemplo e dados do HDFS. Os tutoriais a seguir usam os dados de exemplo para demonstrar os recursos do cluster de Big Data:

Data Virtualization:

Data ingestion:

Notebooks: