Condividi tramite


Che cosa è Data Factory in Microsoft Fabric?

Data Factory in Microsoft Fabric consente di risolvere una delle sfide più difficili dell'azienda: trasformare i dati sparsi in informazioni dettagliate utili.

I dati dell'organizzazione si trovano in molte posizioni diverse: database, file, servizi cloud e sistemi legacy. Questo rende difficile ottenere un quadro completo della tua attività. Data Factory si connette a più di 170 origini dati, inclusi ambienti multicloud e configurazioni ibride con gateway locali. Consente di spostare e trasformare i dati su larga scala, trasformando i dati in formati adatti per l'analisi e il processo decisionale.

Diagramma dello stack di integrazione dei dati in Microsoft Fabric.

Diagramma di Data Factory in Microsoft Fabric che mostra una selezione di connettori collegati agli strumenti di analisi e sviluppo di dati in Fabric tramite lo spostamento dei dati, l'orchestrazione e la trasformazione. Tutto questo si trova sopra Fabric OneLake e l'intero stack è pervaso da intelligenza alimentata dall'intelligenza artificiale.

Che si tratti di un utente aziendale che crea la prima strategia di analisi dei dati o di uno sviluppatore che crea flussi di lavoro complessi, sono disponibili gli strumenti giusti per:

  • Riunisci i tuoi dati
  • Ripuliscilo
  • Prepararla per l'analisi nel tuo Lakehouse o nella tua Data Warehouse
  • Automatizzare i flussi di lavoro dei dati

Che cos'è l'integrazione dei dati?

L'integrazione dei dati è il processo di riunire i dati strategici in modo che sia possibile accedervi e analizzarli. È una parte fondamentale di qualsiasi azienda che vuole prendere decisioni basate sui dati.

Esistono molti modi per integrare i dati, ma una delle strategie più comuni è ETL. ETL è l'acronimo di Extract, Transform, Load. Acquisisce informazioni da molte origini diverse, lo trasforma in un formato che è possibile analizzare e lo carica in un sistema di destinazione comune per l'analisi o la creazione di report. Quando si implementa un processo ETL nella piattaforma dati dell'azienda, migliora la coerenza, la qualità e l'accessibilità dei dati.

Ecco cosa fa ogni fase:

  • Estrai: legge i dati dalle origini e lo sposta in una posizione di archiviazione centrale. Le origini possono essere database, file, API, siti Web e altro ancora.
  • Trasformazione: pulisce, arricchisce e trasforma i dati in un formato facile da analizzare. Ad esempio, è possibile confrontare i dati di vendita da un database SQL con documenti di vendita cronologici analizzati. Dopo aver estratto i dati, è necessario trasformare i dati da ogni origine in modo che si trovino nello stesso formato, verificare i danneggiamenti o i duplicati e combinare i dati in un singolo set di dati.
  • Caricamento: scrive i dati trasformati in un sistema di destinazione, ad esempio un data warehouse o un data lake. Il sistema di destinazione è la posizione in cui è possibile eseguire query e report sui dati.

ETL o ELT?

Quando si lavora con i dati, come spostarli e trasformarli è importante e ogni organizzazione avrà esigenze diverse. Ad esempio: ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform). Ognuno ha punti di forza, a seconda delle esigenze di prestazioni, scalabilità e costi.

ETL: trasformare i dati prima di caricarli nella destinazione. Questo funziona bene quando è necessario pulire, standardizzare o arricchire i dati durante lo spostamento. Ad esempio, usare DataFlow Gen 2 di Data Factory per applicare trasformazioni su larga scala prima di caricare i dati in un data warehouse o in Lakehouse.

ELT: caricare prima i dati non elaborati, quindi trasformarli nella posizione in cui sono archiviati. Questo approccio usa la potenza dei motori di analisi, ad esempio OneLake di Fabric, notebook Spark o strumenti basati su SQL. ELT funziona bene per la gestione di set di dati di grandi dimensioni con calcolo moderno e su scala cloud.

Fabric Data Factory supporta entrambi. È possibile:

  • Creare pipeline ETL classiche per la qualità e l'idoneità immediata dei dati
  • Usare i flussi di lavoro ELT per sfruttare il calcolo integrato e l'archiviazione per trasformazioni su larga scala
  • Combinare entrambi gli approcci nella stessa soluzione per la flessibilità

Data Factory è una potente soluzione di integrazione dei dati

Data Factory si connette ai dati, lo sposta, lo trasforma e orchestra le attività di spostamento e trasformazione dei dati da un'unica posizione. Si decide quale strategia funziona meglio per l'azienda e Data Factory fornisce gli strumenti per farlo.

Connettersi ai dati: in locale, nel cloud o in ambienti multicloud, Data Factory si connette alle origini dati e alle destinazioni. Supporta un'ampia gamma di origini dati, tra cui database, data lake, file system, API e altro ancora. Per un elenco completo delle origini dati e delle destinazioni supportate, vedere connettori disponibili .

Spostare i dati: Data Factory offre diversi metodi per spostare i dati dall'origine alla destinazione o fornire un facile accesso ai dati esistenti, a seconda delle esigenze.

  • Attività di copia - Soluzione preferita per lo spostamento semplificato dei dati con supporto nativo per più stili di recapito, tra cui la copia bulk, la copia incrementale e la replica CDC (Change Data Capture). Offre inoltre la flessibilità necessaria per gestire un'ampia gamma di scenari da molte origini a molte destinazioni, grazie a un'esperienza intuitiva e facile da usare.
  • Attività di copia: sposta i dati da una posizione a un'altra su qualsiasi scala, con una vasta personalizzazione, il supporto per un'ampia gamma di origini e destinazioni e il controllo manuale della copia parallela per migliorare le prestazioni.
  • Mirroring : creare una replica quasi in tempo reale del database operativo all'interno di OneLake in Microsoft Fabric per semplificare l'analisi e la creazione di report.

Per scegliere il metodo di spostamento dei dati appropriato per lo scenario, vedere la guida alle decisioni sullo spostamento dei dati .

Trasformazione: Data Factory offre attività per connettersi agli script di trasformazione personalizzati o alla potente finestra di progettazione dei flussi di dati.

  • Attività della pipeline - notebook di Fabric, attività HDInsight, definizione del processo Spark, stored procedure, script SQL e altro ancora. Queste attività consentono di eseguire codice o script personalizzati per trasformare i dati.
  • Flusso di dati Gen 2 : trasformare i dati usando un'interfaccia a basso codice con oltre 300 trasformazioni. È possibile eseguire join, aggregazioni, pulizia dei dati, trasformazioni personalizzate e molto altro ancora.

Orchestrazione: Data Factory consente di creare pipeline in grado di eseguire più spostamenti di dati, trasformazioni e altre attività in un singolo flusso di lavoro.

Integrazione dei dati basata su intelligenza artificiale

L'intelligenza artificiale compare in Data Factory per aiutarti a fare di più con meno sforzo. Copilot per Data Factory consente di progettare, modificare e gestire pipeline e flussi di dati usando il linguaggio naturale. È possibile digitare prompt in inglese normale e Copilot li trasforma in passaggi ETL funzionanti.

Copilot riepiloga anche le query e le pipeline esistenti del flusso di dati, in modo da poter comprendere rapidamente le operazioni eseguite. Se si verificano errori, Copilot spiega cosa è andato storto e suggerisce modi per risolverlo.

Per informazioni dettagliate, vedere Copilot in Fabric nel carico di lavoro di Data Factory.

Cosa è necessario iniziare?

Cosa accade se si usa già Azure Data Factory?

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, creata per gestire le sfide di integrazione dei dati più complesse con un approccio più semplice.

Vedere la guida di confronto per le differenze principali tra questi due servizi, in modo da poter scegliere la scelta giusta per l'azienda.

Quando si è pronti per la migrazione, seguire la guida alla migrazione.

Per altre informazioni e per iniziare a usare Microsoft Fabric, seguire queste guide: