Condividi tramite


Distribuire Azure Databricks nella rete virtuale di Azure (VNet Injection)

Distribuire Azure Databricks nella rete virtuale di Azure per abilitare la personalizzazione della rete, la connettività sicura ai servizi di Azure e alle origini dati locali e le funzionalità di ispezione del traffico.

Perché usare l'iniezione VNet

L'inserimento della rete virtuale distribuisce le risorse del piano di calcolo classico di Azure Databricks nella propria rete virtuale, abilitando:

  • Connettività privata ai servizi di Azure tramite endpoint di servizio o endpoint privati
  • Accesso locale tramite route definite dall'utente
  • Ispezione del traffico con appliance virtuali di rete
  • Configurazione DNS personalizzata
  • Controllo del traffico in uscita con regole aggiuntive per il NSG
  • Intervalli CIDR flessibili (VNet: /16 a /24, subnet: fino a /26)

Requisiti delle autorizzazioni

Autorizzazioni di Azure: il creatore dell'area di lavoro deve avere il ruolo di Collaboratore rete nella rete virtuale o un ruolo personalizzato con autorizzazioni Microsoft.Network/virtualNetworks/subnets/join/action e Microsoft.Network/virtualNetworks/subnets/write.

Configurazione della rete virtuale

  1. È necessario configurare una rete virtuale per distribuire l'area di lavoro di Azure Databricks. È possibile usare una rete virtuale esistente o crearne una nuova. La rete virtuale deve soddisfare i requisiti seguenti:
    • Area: la rete virtuale deve trovarsi nella stessa area dell'area di lavoro di Azure Databricks.
    • Sottoscrizione: la rete virtuale deve trovarsi nella stessa sottoscrizione dell'area di lavoro di Azure Databricks.
    • Spazio indirizzi: blocco CIDR tra /16 e /24 per la rete virtuale. Per indicazioni sul numero massimo di nodi del cluster in base alle dimensioni della rete virtuale, vedere Linee guida sullo spazio degli indirizzi.
    • Subnet: la rete virtuale deve includere due subnet dedicate all'area di lavoro di Azure Databricks:
      • Una subnet del contenitore (talvolta denominata subnet privata)
      • Una subnet host (talvolta denominata subnet pubblica)
      • Ogni subnet deve usare un blocco CIDR che sia almeno /26. Databricks non consiglia una subnet più piccola di /26.
      • Non è possibile condividere subnet tra aree di lavoro o distribuire altre risorse di Azure nelle subnet usate dall'area di lavoro di Azure Databricks.
      • È consigliabile che le dimensioni delle subnet corrispondano.
    • Connettività in uscita per il traffico in uscita: Databricks consiglia di usare un gateway NAT di Azure per entrambe le subnet per indirizzi IP in uscita stabili. Dopo il 31 marzo 2026, le nuove reti virtuali richiedono metodi espliciti di connettività in uscita. Vedere Connettività sicura del cluster.
    • Regole del gruppo di sicurezza di rete: vedere Regole del gruppo di sicurezza di rete

Nota

Quando si distribuisce un'area di lavoro usando la connettività sicura del cluster, sia la subnet del contenitore che la subnet host usano indirizzi IP privati.

Linee guida per lo spazio indirizzi

Un'area di lavoro di Azure Databricks richiede due subnet nella rete virtuale: una subnet del contenitore e una subnet host. Azure riserva cinque indirizzi IP in ogni subnet. Azure Databricks richiede due indirizzi IP per ogni nodo del cluster: un indirizzo IP per l'host nella subnet host e un indirizzo IP per il contenitore nella subnet del contenitore.

Quando si pianifica lo spazio indirizzi, tenere presente quanto segue:

  • È possibile creare più aree di lavoro all'interno di una singola rete virtuale. Poiché non è possibile condividere subnet tra aree di lavoro, pianifica subnet che non usano il totale dello spazio indirizzi della VNet.
  • Allocare uno spazio di indirizzi per due nuove subnet all'interno dello spazio di indirizzi della rete virtuale, garantendo che non si sovrappongano allo spazio di indirizzi delle subnet correnti o future in tale rete.

Un'area di lavoro con una rete virtuale più piccola può esaurire gli indirizzi IP (spazio di rete) più rapidamente rispetto a un'area di lavoro con una rete virtuale più grande. Usare un blocco CIDR tra /16 e /24 per la rete virtuale e un blocco CIDR fino a /26 per le due subnet (la subnet del contenitore e la subnet host). È possibile creare un blocco CIDR fino a /28 per le subnet, ma Azure Databricks non consiglia una subnet più piccola di /26.

Passaggio 1: Creare un'area di lavoro

Creare un'area di lavoro nel portale di Azure e distribuirla nella rete virtuale.

  1. Nel portale di Azure, seleziona + Crea una risorsa > Azure Databricks Analytics > o cerca Azure Databricks.

  2. Nella scheda Rete selezionare la rete virtuale.

    Importante

    Se la rete virtuale non viene visualizzata, verificare che l'area di lavoro e la rete virtuale si trovino nella stessa area di Azure.

  3. Configurare le subnet con intervalli CIDR fino a /26 (massimo 80 caratteri per i nomi):

    • Subnet esistenti: immettere i nomi esatti delle subnet e gli intervalli IP corrispondenti
    • Nuove subnet: immettere nuovi nomi e intervalli IP all'interno dello spazio indirizzi della rete virtuale

    Nota

    Non è possibile modificare gli intervalli CIDR della subnet dopo la distribuzione. Azure Databricks configura automaticamente le regole del gruppo di sicurezza di rete e la delega della subnet a Microsoft.Databricks/workspaces.

  4. Fare clic su Crea per distribuire l'area di lavoro.

Passaggio 2: Verificare la distribuzione dell'area di lavoro

  1. Passare al portale di Azure e passare alla risorsa dell'area di lavoro di Azure Databricks.

  2. Nella pagina Panoramica verificare quanto segue:

    • L'area di lavoro è in uno stato di salute (non guasto).
    • Vengono elencati il gruppo di risorse e il gruppo di risorse gestiti.
    • Il peering di rete virtuale è disabilitato (questo è previsto per il VNet injection).

Il gruppo di risorse gestite non è modificabile e non può essere usato per creare macchine virtuali. Creare macchine virtuali nel gruppo di risorse gestito.

Passaggio 3: Verificare la configurazione del gruppo di sicurezza di rete

  1. Nel portale di Azure, vai alla tua VNet (rete virtuale).

  2. Fare clic su Subnet sotto Impostazioni.

  3. Verificare che sia la subnet del container che la subnet dell'host abbiano:

    • Un gruppo di sicurezza di rete collegato
    • Delega a Microsoft.Databricks/workspaces
  4. Fare clic sul gruppo di sicurezza di rete e verificare che siano configurate le regole in ingresso e in uscita necessarie. Per le regole previste, vedere Informazioni di riferimento sulle regole del gruppo di sicurezza di rete.

Passaggio 4: Creare un cluster

Dopo aver creato l'area di lavoro, creare un cluster di calcolo classico per verificare che l'inserimento della rete virtuale funzioni correttamente.

  1. Passare all'area di lavoro di Azure Databricks e fare clic su Avvia area di lavoro nella pagina Panoramica .

  2. Nella barra laterale fare clic su icona dell’ambiente di calcoloAmbiente di calcolo.

  3. Nella pagina dell’ambiente di calcolo, fare clic su Crea cluster.

  4. Immettere un nome del cluster, lasciare i valori rimanenti nello stato predefinito e fare clic su Crea cluster.

Dopo l'esecuzione del cluster, il gruppo di risorse gestite contiene nuove macchine virtuali, dischi, indirizzi IP e interfacce di rete. Viene creata un'interfaccia di rete in ognuna delle subnet pubbliche e private con indirizzi IP.

Passaggio 5: Verificare la configurazione della rete del cluster

  1. Nell'area di lavoro di Azure Databricks passare al gruppo di risorse gestite nel portale di Azure.

  2. Verificare che esistano le risorse seguenti:

    • Macchine virtuali per i nodi del cluster
    • Dischi collegati alle macchine virtuali
    • Indirizzi IP per i nodi del cluster
    • Interfacce di rete nelle subnet pubbliche e private
  3. Nell'area di lavoro di Azure Databricks fare clic sul cluster creato.

  4. Accedere all'interfaccia utente di Spark e fare clic sulla scheda Executor.

  5. Verificare che gli indirizzi per il driver e gli executor si trovino nell'intervallo di subnet privato. Ad esempio, se la subnet privata è 10.179.0.0/18, il driver potrebbe essere 10.179.0.6 e gli executor potrebbero essere 10.179.0.4 e 10.179.0.5. Gli indirizzi IP potrebbero essere diversi.

Indirizzi IP in uscita stabili

Per le aree di lavoro con connettività sicura del cluster e inserimento di reti virtuali, Databricks consiglia di configurare un indirizzo IP pubblico in uscita stabile. Gli indirizzi IP stabili abilitano elenchi di indirizzi consentiti esterni per i servizi come Salesforce e elenchi di accesso IP.

Avviso

Dopo il 31 marzo 2026, per impostazione predefinita le nuove reti virtuali di Azure sono configurazioni private senza accesso a Internet in uscita. Le nuove aree di lavoro di Azure Databricks richiedono metodi espliciti di connettività in uscita, ad esempio un gateway NAT. Le aree di lavoro esistenti non sono interessate. Vedere l'annuncio di Microsoft.

Per configurare un IP di uscita stabile, vedere Uscita con iniezione VNet.

Regole del gruppo di sicurezza di rete

Il provisioning automatico di Azure Databricks gestisce le regole NSG elencate di seguito tramite delega della subnet al servizio Microsoft.Databricks/workspaces. Queste regole sono necessarie per l'operazione dell'area di lavoro. Non modificare o eliminare queste regole.

Nota

Alcune regole usano VirtualNetwork sia come origine che come destinazione. I criteri di rete interni impediscono la comunicazione tra cluster, incluse le aree di lavoro nella stessa rete virtuale.

Databricks consiglia di usare un gruppo di sicurezza di rete univoco per ogni area di lavoro.

Importante

Aggiungere regole di negazione ai gruppi di sicurezza di rete collegati ad altre reti e subnet nella stessa rete virtuale o con peering. Applicare regole di negazione per le connessioni in ingresso e in uscita per limitare il traffico da e verso le risorse di calcolo di Azure Databricks. Consentire solo l'accesso minimo necessario per i cluster per raggiungere le risorse necessarie.

Regole del Gruppo di Sicurezza di Rete per gli Spazi di Lavoro

Questa tabella elenca le regole del gruppo di sicurezza di rete per le aree di lavoro e include due regole del gruppo di sicurezza in ingresso aggiunte solo se la connettività sicura del cluster è disabilitata.

Direzione Protocollo Origine Porta di origine Destinazione Porta Dest nr. utilizzato
In arrivo Qualsiasi VirtualNetwork Qualsiasi VirtualNetwork Qualsiasi Predefinito
In arrivo TCP AzureDatabricks (tag del servizio)
Solo se SCC è disabilitato
Qualsiasi VirtualNetwork 22 IP pubblico
In arrivo TCP AzureDatabricks (tag del servizio)
Solo se SCC è disabilitato
Qualsiasi VirtualNetwork 5557 IP pubblico
In uscita TCP VirtualNetwork Qualsiasi AzureDatabricks (tag del servizio) 443, 3306, 8443-8451 Predefinito
In uscita TCP VirtualNetwork Qualsiasi SQL 3306 Predefinito
In uscita TCP VirtualNetwork Qualsiasi Archiviazione 443 Predefinito
In uscita Qualsiasi VirtualNetwork Qualsiasi VirtualNetwork Qualsiasi Predefinito
In uscita TCP VirtualNetwork Qualsiasi Hub eventi 9093 Predefinito

Nota

Se si limitano le regole in uscita, Databricks consiglia di aprire le porte 111 e 2049 per abilitare determinate installazioni di libreria.

Importante

Azure Databricks è un servizio proprietario in Microsoft Azure distribuito nell'infrastruttura globale del cloud pubblico di Azure. Tutte le comunicazioni tra componenti del servizio, inclusi gli indirizzi IP pubblici nel piano di controllo e il piano di calcolo del cliente, rimangono all'interno del backbone della rete di Microsoft Azure. Vedere anche Rete globale Microsoft.

Espandere la capacità della rete virtuale

Se la rete virtuale dell'area di lavoro non ha capacità sufficiente per i nodi del cluster attivo, sono disponibili due opzioni:

  • Aggiornare la configurazione della rete virtuale: questa funzionalità è disponibile in anteprima pubblica. Vedere Aggiornare la configurazione di rete dell'area di lavoro.
  • Espandere l'intervallo CIDR corrente: contattare il team dell'account di Azure Databricks per richiedere un aumento dell'intervallo CIDR della subnet dell'area di lavoro.