Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Data Factory in Microsoft Fabric hilft Ihnen bei der Lösung einer der schwierigsten Herausforderungen des Unternehmens: Das Umwandeln von verstreuten Daten in nützliche Erkenntnisse.
Die Daten Ihrer Organisation befinden sich an vielen verschiedenen Stellen: Datenbanken, Dateien, Clouddienste und ältere Systeme. Dies macht es schwierig, ein vollständiges Bild Ihres Unternehmens zu erhalten. Data Factory verbindet sich mit über 170 Datenquellen, einschließlich Multicloud-Umgebungen und Hybrid-Setups mit lokalen Gateways. Sie hilft Ihnen dabei, Ihre Daten in großem Umfang zu verschieben und zu transformieren und sie in Formate umzuwandeln, die gut für Analysen und Entscheidungsfindung geeignet sind.
Diagramm der Data Factory in Microsoft Fabric, das eine Auswahl von Connectors zeigt, die mit Analyse- und Datenentwicklungstools in Fabric verknüpft sind, durch Datenbewegungen, Orchestrierung und Transformation. Das alles basiert auf Fabric OneLake, und der gesamte Stack ist mit KI-gestützter Intelligenz durchdrungen.
Ganz gleich, ob Sie ein Geschäftsbenutzer sind, der Ihre erste Datenanalysestrategie erstellt, oder ein Entwickler, der komplexe Arbeitsabläufe erstellt, finden Sie die richtigen Tools für:
- Bringen Sie Ihre Daten zusammen
- Bereinigen
- Bereiten Sie es zur Analyse in Ihrem Lakehouse oder Data Warehouse vor
- Automatisieren Sie Datenworkflows
Was ist die Datenintegration?
Die Datenintegration ist der Prozess der Zusammenführung Ihrer strategischen Daten, damit Sie darauf zugreifen und diese analysieren können. Es ist ein wichtiger Bestandteil jedes Unternehmens, das datengesteuerte Entscheidungen treffen möchte.
Es gibt viele Möglichkeiten, Ihre Daten zu integrieren, aber eine der am häufigsten verwendeten Strategien ist ETL. ETL steht für Extract, Transform, Load. Es verwendet Informationen aus vielen verschiedenen Quellen, wandelt sie in ein Format um, das Sie analysieren können, und lädt sie in ein gemeinsames Zielsystem zur Analyse oder Berichterstellung. Wenn Sie einen ETL-Prozess in der Datenplattform Ihres Unternehmens implementieren, wird die Datenkonsistenz, Qualität und Barrierefreiheit verbessert.
Dies geschieht in jeder Phase:
- Extrahieren: Liest Daten aus Ihren Quellen und verschiebt sie an einen zentralen Speicherort. Quellen können Datenbanken, Dateien, APIs, Websites und vieles mehr sein.
- Transformieren: Bereinigt, erweitert und transformiert Ihre Daten in ein format, das einfach zu analysieren ist. Sie können beispielsweise Verkaufsdaten aus einer SQL-Datenbank mit gescannten, historischen Verkaufsdokumenten vergleichen. Nach dem Extrahieren der Daten müssen Sie die Daten aus jeder Quelle transformieren, damit sie im selben Format vorliegt, auf Beschädigungen oder Duplikate überprüfen und die Daten in einem einzelnen Dataset kombinieren.
- Load: Schreibt die transformierten Daten in ein Zielsystem, wie ein Data Warehouse oder einen Data Lake. Das Zielsystem ist der Ort, an dem Sie Abfragen und Berichte zu Ihren Daten ausführen können.
ETL oder ELT?
Wenn Sie mit Daten arbeiten, wie Sie sie verschieben und transformieren, ist es wichtig, und jede Organisation wird unterschiedliche Anforderungen haben. Beispiel: ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform). Jede hat Je nach Ihren Anforderungen an Leistung, Skalierbarkeit und Kosten Stärken.
ETL: Transformieren Sie Ihre Daten, bevor Sie sie in ihr Ziel laden. Dies funktioniert gut, wenn Sie Daten bereinigen, standardisieren oder anreichern müssen, während sie verschoben werden. Verwenden Sie z. B. Dataflow Gen 2 von Data Factory, um Transformationen in großem Maßstab anzuwenden, bevor Sie Daten in ein Datenspeicher oder Lakehouse laden.
ELT: Zuerst die rohen Daten laden, dann dort transformieren, wo sie gespeichert werden. Dieser Ansatz verwendet die Leistungsfähigkeit von Analysemodulen wie OneLake, Spark Notebooks oder SQL-basierten Tools von Fabric. ELT eignet sich gut für die Verarbeitung großer Datasets mit moderner Cloud-Skalierungsberechnung.
Fabric Data Factory unterstützt beide. Sie haben folgende Möglichkeiten:
- Erstellen klassischer ETL-Pipelines für sofortige Datenqualität und -bereitschaft
- Verwenden von ELT-Workflows, um integrierte Compute- und Speicherressourcen für große Transformationen zu nutzen
- Kombinieren Sie beide Ansätze in derselben Lösung für Flexibilität
Data Factory ist eine leistungsstarke Datenintegrationslösung
Data Factory stellt eine Verbindung mit Ihren Daten her, verschiebt sie, transformiert sie und koordiniert Ihre Datenbewegungen und Transformationsaufgaben von einem Ort aus. Sie entscheiden, welche Strategie für Ihr Unternehmen am besten funktioniert, und Data Factory stellt die Tools bereit, um sie zu erledigen.
Stellen Sie eine Verbindung mit Ihren Daten her: Ob lokal, in der Cloud oder in mehreren Cloudumgebungen, Data Factory stellt eine Verbindung zu Ihren Datenquellen und Zielen her. Es unterstützt eine vielzahl von Datenquellen, darunter Datenbanken, Datenseen, Dateisysteme, APIs und vieles mehr. Unter den verfügbaren Konnektoren finden Sie eine vollständige Liste der unterstützten Datenquellen und Ziele.
Verschieben von Daten: Data Factory bietet verschiedene Methoden zum Verschieben von Daten aus der Quelle zum Ziel oder einen einfachen Zugriff auf vorhandene Daten, je nach Ihren Anforderungen.
- Kopierauftrag – Bevorzugte Lösung für eine vereinfachte Datenverschiebung mit systemeigener Unterstützung für mehrere Übermittlungsstile, einschließlich Bulk-Kopie, inkrementeller Kopie und Change Data Capture (CDC) Replikation. Es bietet auch die Flexibilität, eine breite Palette von Szenarien von vielen Quellen bis hin zu vielen Zielen zu bewältigen – alles durch eine intuitive, benutzerfreundliche Erfahrung.
- Kopieraktivität – Verschiebt Daten von einem Ort in eine andere in beliebigem Maßstab, mit umfangreicher Anpassung, Unterstützung für eine vielzahl von Quellen und Zielen und manuelle Steuerung des parallelen Kopierens für eine verbesserte Leistung.
- Spiegelung – Erstellen Sie ein nahezu echtzeitbasiertes Replikat Ihrer Betriebsdatenbank in OneLake in Microsoft Fabric, um Ihre Analyse und Berichterstellung zu vereinfachen.
Sehen Sie sich unsere Entscheidungsanleitung zur Datenverschiebung an , um Ihnen bei der Auswahl der richtigen Datenbewegungsmethode für Ihr Szenario zu helfen.
Transformation: Data Factory stellt Aktivitäten bereit, die Sie mit Ihren benutzerdefinierten Transformationsskripts oder dem leistungsstarken Dataflows-Designer verbinden können.
- Pipelineaktivitäten – Fabric-Notizbuch, HDInsight-Aktivität, Spark-Auftragsdefinition, gespeicherte Prozedur, SQL-Skripts und vieles mehr. Mit diesen Aktivitäten können Sie benutzerdefinierten Code oder Skripts ausführen, um Ihre Daten zu transformieren.
- Dataflow Gen 2 – Transformieren Sie Ihre Daten mithilfe einer Low-Code-Schnittstelle mit über 300 Transformationen. Sie können Verknüpfungen, Aggregationen, Datenbereinigungen, benutzerdefinierte Transformationen und vieles mehr ausführen.
Orchestrierung: Mit Data Factory können Sie Pipelines erstellen, mit denen mehrere Datenbewegungen, Transformationen und andere Aktivitäten in einem einzigen Workflow ausgeführt werden können.
- Planen Sie Pipelines, die zu bestimmten Zeiten ausgeführt werden sollen, oder lösen Sie sie basierend auf Ereignissen aus.
- Pipelines können Steuerungsflusslogik, wie Schleifen und Bedingungen, umfassen, um komplexe Workflows zu bewältigen und die gesamte Datenverarbeitung mithilfe einer einfachen Low-Code-Pipeline-Designer-UI zu koordinieren.
- Wenn Sie Ihre Orchestrierungsprozesse im Code ausdrücken möchten, wird Fabric Data Factory in Apache Airflow integriert, um DAGs für die Orchestrierung mithilfe von Python zu erstellen.
KI-gestützte Datenintegration
KI wird in der gesamten Data Factory angezeigt, damit Sie mit weniger Aufwand mehr erledigen können. Mit Copilot für Data Factory können Sie Pipelines und Datenflüsse mithilfe natürlicher Sprache entwerfen, bearbeiten und verwalten. Sie können einfache englische Eingaben eingeben, und Copilot wandelt sie in funktionierende ETL-Schritte um.
Copilot fasst auch Ihre vorhandenen Datenflussabfragen und -pipelines zusammen, sodass Sie schnell verstehen können, was sie tun. Wenn Fehler auftreten, erklärt Copilot, was schief gelaufen ist, und schlägt Möglichkeiten zur Behebung vor.
Ausführliche Informationen finden Sie unter Copilot in Fabric in der Data Factory-Workload.
Was benötigen Sie, um anzufangen?
- Ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement. Wenn Sie kein Konto haben, können Sie ein kostenloses Konto erstellen.
- Ein Microsoft Fabric-fähiger Arbeitsbereich. Erfahren Sie, wie Sie einen Arbeitsbereich erstellen.
Was geschieht, wenn wir Azure Data Factory bereits verwenden?
Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory, die entwickelt wurde, um Ihre komplexesten Herausforderungen bei der Datenintegration mit einem einfacheren Ansatz zu bewältigen.
Sehen Sie sich unseren Vergleichsleitfaden für die wichtigsten Unterschiede zwischen diesen beiden Diensten an, damit Sie die richtige Wahl für Ihr Unternehmen treffen können.
Wenn Sie bereit sind, zu migrieren, folgen Sie unserem Migrationsleitfaden.
Zugehöriger Inhalt
Weitere Informationen und die ersten Schritte mit Microsoft Fabric finden Sie in den folgenden Leitfäden:
- Geführtes Datenfabriklabor – Demo von Data Factory in Fabric
- Womit können Sie sich verbinden? - alle verfügbaren Quellen und Ziele für Data Factory
- End-to-End Data Factory-Lernprogramm – wir führen Sie durch den gesamten ETL-Prozess, von der Datenaufnahme bis hin zur Transformation und dem Laden in ein Zielsystem