Freigeben über


Was ist Data Factory in Microsoft Fabric?

Data Factory in Microsoft Fabric hilft Ihnen bei der Lösung einer der schwierigsten Herausforderungen des Unternehmens: Das Umwandeln von verstreuten Daten in nützliche Erkenntnisse.

Die Daten Ihrer Organisation befinden sich an vielen verschiedenen Stellen: Datenbanken, Dateien, Clouddienste und ältere Systeme. Dies macht es schwierig, ein vollständiges Bild Ihres Unternehmens zu erhalten. Data Factory verbindet sich mit über 170 Datenquellen, einschließlich Multicloud-Umgebungen und Hybrid-Setups mit lokalen Gateways. Sie hilft Ihnen dabei, Ihre Daten in großem Umfang zu verschieben und zu transformieren und sie in Formate umzuwandeln, die gut für Analysen und Entscheidungsfindung geeignet sind.

Diagramm des Datenintegrationsstapels in Microsoft Fabric.

Diagramm der Data Factory in Microsoft Fabric, das eine Auswahl von Connectors zeigt, die mit Analyse- und Datenentwicklungstools in Fabric verknüpft sind, durch Datenbewegungen, Orchestrierung und Transformation. Das alles basiert auf Fabric OneLake, und der gesamte Stack ist mit KI-gestützter Intelligenz durchdrungen.

Ganz gleich, ob Sie ein Geschäftsbenutzer sind, der Ihre erste Datenanalysestrategie erstellt, oder ein Entwickler, der komplexe Arbeitsabläufe erstellt, finden Sie die richtigen Tools für:

  • Bringen Sie Ihre Daten zusammen
  • Bereinigen
  • Bereiten Sie es zur Analyse in Ihrem Lakehouse oder Data Warehouse vor
  • Automatisieren Sie Datenworkflows

Was ist die Datenintegration?

Die Datenintegration ist der Prozess der Zusammenführung Ihrer strategischen Daten, damit Sie darauf zugreifen und diese analysieren können. Es ist ein wichtiger Bestandteil jedes Unternehmens, das datengesteuerte Entscheidungen treffen möchte.

Es gibt viele Möglichkeiten, Ihre Daten zu integrieren, aber eine der am häufigsten verwendeten Strategien ist ETL. ETL steht für Extract, Transform, Load. Es verwendet Informationen aus vielen verschiedenen Quellen, wandelt sie in ein Format um, das Sie analysieren können, und lädt sie in ein gemeinsames Zielsystem zur Analyse oder Berichterstellung. Wenn Sie einen ETL-Prozess in der Datenplattform Ihres Unternehmens implementieren, wird die Datenkonsistenz, Qualität und Barrierefreiheit verbessert.

Dies geschieht in jeder Phase:

  • Extrahieren: Liest Daten aus Ihren Quellen und verschiebt sie an einen zentralen Speicherort. Quellen können Datenbanken, Dateien, APIs, Websites und vieles mehr sein.
  • Transformieren: Bereinigt, erweitert und transformiert Ihre Daten in ein format, das einfach zu analysieren ist. Sie können beispielsweise Verkaufsdaten aus einer SQL-Datenbank mit gescannten, historischen Verkaufsdokumenten vergleichen. Nach dem Extrahieren der Daten müssen Sie die Daten aus jeder Quelle transformieren, damit sie im selben Format vorliegt, auf Beschädigungen oder Duplikate überprüfen und die Daten in einem einzelnen Dataset kombinieren.
  • Load: Schreibt die transformierten Daten in ein Zielsystem, wie ein Data Warehouse oder einen Data Lake. Das Zielsystem ist der Ort, an dem Sie Abfragen und Berichte zu Ihren Daten ausführen können.

ETL oder ELT?

Wenn Sie mit Daten arbeiten, wie Sie sie verschieben und transformieren, ist es wichtig, und jede Organisation wird unterschiedliche Anforderungen haben. Beispiel: ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform). Jede hat Je nach Ihren Anforderungen an Leistung, Skalierbarkeit und Kosten Stärken.

ETL: Transformieren Sie Ihre Daten, bevor Sie sie in ihr Ziel laden. Dies funktioniert gut, wenn Sie Daten bereinigen, standardisieren oder anreichern müssen, während sie verschoben werden. Verwenden Sie z. B. Dataflow Gen 2 von Data Factory, um Transformationen in großem Maßstab anzuwenden, bevor Sie Daten in ein Datenspeicher oder Lakehouse laden.

ELT: Zuerst die rohen Daten laden, dann dort transformieren, wo sie gespeichert werden. Dieser Ansatz verwendet die Leistungsfähigkeit von Analysemodulen wie OneLake, Spark Notebooks oder SQL-basierten Tools von Fabric. ELT eignet sich gut für die Verarbeitung großer Datasets mit moderner Cloud-Skalierungsberechnung.

Fabric Data Factory unterstützt beide. Sie haben folgende Möglichkeiten:

  • Erstellen klassischer ETL-Pipelines für sofortige Datenqualität und -bereitschaft
  • Verwenden von ELT-Workflows, um integrierte Compute- und Speicherressourcen für große Transformationen zu nutzen
  • Kombinieren Sie beide Ansätze in derselben Lösung für Flexibilität

Data Factory ist eine leistungsstarke Datenintegrationslösung

Data Factory stellt eine Verbindung mit Ihren Daten her, verschiebt sie, transformiert sie und koordiniert Ihre Datenbewegungen und Transformationsaufgaben von einem Ort aus. Sie entscheiden, welche Strategie für Ihr Unternehmen am besten funktioniert, und Data Factory stellt die Tools bereit, um sie zu erledigen.

Stellen Sie eine Verbindung mit Ihren Daten her: Ob lokal, in der Cloud oder in mehreren Cloudumgebungen, Data Factory stellt eine Verbindung zu Ihren Datenquellen und Zielen her. Es unterstützt eine vielzahl von Datenquellen, darunter Datenbanken, Datenseen, Dateisysteme, APIs und vieles mehr. Unter den verfügbaren Konnektoren finden Sie eine vollständige Liste der unterstützten Datenquellen und Ziele.

Verschieben von Daten: Data Factory bietet verschiedene Methoden zum Verschieben von Daten aus der Quelle zum Ziel oder einen einfachen Zugriff auf vorhandene Daten, je nach Ihren Anforderungen.

  • Kopierauftrag – Bevorzugte Lösung für eine vereinfachte Datenverschiebung mit systemeigener Unterstützung für mehrere Übermittlungsstile, einschließlich Bulk-Kopie, inkrementeller Kopie und Change Data Capture (CDC) Replikation. Es bietet auch die Flexibilität, eine breite Palette von Szenarien von vielen Quellen bis hin zu vielen Zielen zu bewältigen – alles durch eine intuitive, benutzerfreundliche Erfahrung.
  • Kopieraktivität – Verschiebt Daten von einem Ort in eine andere in beliebigem Maßstab, mit umfangreicher Anpassung, Unterstützung für eine vielzahl von Quellen und Zielen und manuelle Steuerung des parallelen Kopierens für eine verbesserte Leistung.
  • Spiegelung – Erstellen Sie ein nahezu echtzeitbasiertes Replikat Ihrer Betriebsdatenbank in OneLake in Microsoft Fabric, um Ihre Analyse und Berichterstellung zu vereinfachen.

Sehen Sie sich unsere Entscheidungsanleitung zur Datenverschiebung an , um Ihnen bei der Auswahl der richtigen Datenbewegungsmethode für Ihr Szenario zu helfen.

Transformation: Data Factory stellt Aktivitäten bereit, die Sie mit Ihren benutzerdefinierten Transformationsskripts oder dem leistungsstarken Dataflows-Designer verbinden können.

  • Pipelineaktivitäten – Fabric-Notizbuch, HDInsight-Aktivität, Spark-Auftragsdefinition, gespeicherte Prozedur, SQL-Skripts und vieles mehr. Mit diesen Aktivitäten können Sie benutzerdefinierten Code oder Skripts ausführen, um Ihre Daten zu transformieren.
  • Dataflow Gen 2 – Transformieren Sie Ihre Daten mithilfe einer Low-Code-Schnittstelle mit über 300 Transformationen. Sie können Verknüpfungen, Aggregationen, Datenbereinigungen, benutzerdefinierte Transformationen und vieles mehr ausführen.

Orchestrierung: Mit Data Factory können Sie Pipelines erstellen, mit denen mehrere Datenbewegungen, Transformationen und andere Aktivitäten in einem einzigen Workflow ausgeführt werden können.

KI-gestützte Datenintegration

KI wird in der gesamten Data Factory angezeigt, damit Sie mit weniger Aufwand mehr erledigen können. Mit Copilot für Data Factory können Sie Pipelines und Datenflüsse mithilfe natürlicher Sprache entwerfen, bearbeiten und verwalten. Sie können einfache englische Eingaben eingeben, und Copilot wandelt sie in funktionierende ETL-Schritte um.

Copilot fasst auch Ihre vorhandenen Datenflussabfragen und -pipelines zusammen, sodass Sie schnell verstehen können, was sie tun. Wenn Fehler auftreten, erklärt Copilot, was schief gelaufen ist, und schlägt Möglichkeiten zur Behebung vor.

Ausführliche Informationen finden Sie unter Copilot in Fabric in der Data Factory-Workload.

Was benötigen Sie, um anzufangen?

Was geschieht, wenn wir Azure Data Factory bereits verwenden?

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory, die entwickelt wurde, um Ihre komplexesten Herausforderungen bei der Datenintegration mit einem einfacheren Ansatz zu bewältigen.

Sehen Sie sich unseren Vergleichsleitfaden für die wichtigsten Unterschiede zwischen diesen beiden Diensten an, damit Sie die richtige Wahl für Ihr Unternehmen treffen können.

Wenn Sie bereit sind, zu migrieren, folgen Sie unserem Migrationsleitfaden.

Weitere Informationen und die ersten Schritte mit Microsoft Fabric finden Sie in den folgenden Leitfäden: