Freigeben über


Microsoft Fabric-Entscheidungsleitfaden: Auswählen einer Datenbewegungsstrategie

Microsoft Fabric bietet Ihnen verschiedene Möglichkeiten, Daten basierend auf ihren Benötigten in Fabric zu integrieren. Heute können Sie Spiegelung, Kopieraktivitäten in Pipelines oder Kopierauftrag verwenden. Jede Option bietet eine andere Steuerungs- und Komplexitätsebene, sodass Sie auswählen können, was ihrem Szenario am besten passt.

Die Spiegelung ist so konzipiert, dass sie eine einfache und kostenlose Lösung für die Spiegelung der Datenbank in Fabric ist, aber sie deckt nicht jedes erweiterte Szenario ab. Kopieraktivitäten in Pipelines bieten Ihnen vollständig anpassbare Datenintegrationsfunktionen, erfordern jedoch, dass Sie die Pipeline selbst erstellen und verwalten. Der Kopierauftrag füllt die Lücke zwischen diesen 2 Optionen. Es bietet Ihnen mehr Flexibilität und Kontrolle als Spiegelung sowie systemeigene Unterstützung für Batch- und inkrementelles Kopieren, ohne die Komplexität der Erstellung von Pipelines.

Testen Sie Fabric Eventstreams für Echtzeit-Streaming- und ereignisgesteuerte Szenarien. Sie bieten datenverschiebungen mit geringer Latenz, ermöglichen es Ihnen, Daten ohne Code oder SQL-Transformationen zu transformieren und inhaltsbasiertes Routing an mehrere Ziele zu unterstützen.

Screenshot einer Entscheidungsstruktur für die Datenbewegungsstrategie, vergleicht Spiegelung, Ereignisstream, Kopierauftrag und Kopieraktivität.

Wichtige Begriffe

  • Die Spiegelung bietet Ihnen eine einfache und freie Möglichkeit, Betriebsdaten in Fabric für Analysen zu spiegeln. Es ist für eine einfache Bedienung mit minimalem Setup optimiert und schreibt in OneLake auf ein einzelnes, schreibgeschütztes Ziel.

  • Kopieraktivitäten in Pipelines werden für Benutzer erstellt, die koordinierte, pipelinebasierte Datenaufnahmeworkflows benötigen. Sie können sie umfassend anpassen und Transformationslogik hinzufügen, aber Sie müssen Pipelinekomponenten selbst definieren und verwalten, einschließlich der Nachverfolgung des Status der letzten Ausführung für inkrementelle Kopie.

  • Der Kopierauftrag erleichtert die Datenaufnahme durch native Unterstützung für mehrere Bereitstellungsarten, einschließlich der Massenkopie, inkrementellen Kopie und Replikation durch Change Data Capture (CDC), und es ist nicht erforderlich, Pipelines zu erstellen, während Sie dennoch Zugriff auf viele erweiterte Optionen haben. Es unterstützt viele Quellen und Ziele und funktioniert gut, wenn Sie mehr Kontrolle als Spiegelung wünschen, aber weniger Komplexität als die Verwaltung von Pipelines mit Kopieraktivitäten.

  • Eventstreams: Entwickelt für Echtzeitaufnahme, Transformation und Verarbeitung von Streamingdaten. Unterstützt Pipelines mit geringer Latenz, Schemaverwaltung und Routing zu Zielen wie Eventhouse, Lakehouse, Activator und benutzerdefinierten Endpunkten, die AMQP-, Kafka- und HTTP-Protokolle unterstützen.

Entscheidungsleitfaden für Die Datenverschiebung

Widerspiegelnd Kopierauftrag Kopieraktivität (Pipeline) Eventstreams
Quellen Datenbanken + Drittanbieterintegration in Open Mirroring Alle unterstützten Datenquellen und Formate Alle unterstützten Datenquellen und Formate 25 Quellen und alle Formate
Flugziele Tabellarisches Format in Fabric OneLake (schreibgeschützt) Alle unterstützten Ziele und Formate Alle unterstützten Ziele und Formate 4+ Reiseziele
Flexibilität Einfaches Setup mit festem Verhalten Einfache Verwendung + Erweiterte Optionen Erweiterte und vollständig anpassbare Optionen Einfache und anpassbare Optionen
Funktion Widerspiegelnd Kopierauftrag Kopieraktivität (Pipeline) Eventstreams
Benutzerdefinierte Planung Yes Yes Fortlaufend
Tabellen- und Spaltenverwaltung Yes Yes Ja (Schema, Ereignis- und Feldverwaltung)
Kopierverhalten: Append, Upsert, Override Yes Yes Append
Erweiterte Observability + Audit Yes Yes
Kopiermodi
CDC-basierte fortlaufende Replikation Yes Yes Yes
Batch- oder Massenkopie Yes Yes Ja (anfängliche Snapshot-Replikation von CDC)
Native Unterstützung für inkrementelle Kopie (wasserzeichenbasiert) Yes
Kopieren mit benutzerdefinierter Abfrage Yes Yes
Anwendungsfälle
Kontinuierliche Replikation für Analysen und Berichte Yes Yes Yes
Metadatengesteuertes ELT/ETL für Data Warehouse Yes Yes
Datenkonsolidierung Yes Yes Yes
Datenmigration / Datensicherung / Datenfreigabe Yes Yes Yes
Kostenlos Yes
Vorhersehbare Leistung Yes Yes Yes

Szenarien

Überprüfen Sie diese Szenarien, damit Sie auswählen können, welche Datenbewegungsstrategie für Ihre Anforderungen am besten geeignet ist.

Szenario 1

James ist Finanzmanager bei einer Versicherungsgesellschaft. Sein Team verwendet Azure SQL-Datenbank, um Richtliniendaten, Ansprüche und Kundeninformationen in mehreren Geschäftseinheiten nachzuverfolgen. Das Geschäftsleitungsteam möchte Echtzeit-Dashboards für die Unternehmensleistungsüberwachung erstellen, aber James kann keine Analyseabfragen erlauben, die operativen Systeme zu verlangsamen, die Tausende von täglichen Transaktionen verarbeiten.

James benötigt eine kontinuierliche Datenreplikation ohne Setupkomplexität oder fortlaufende Wartung. Er möchte keine Planung verwalten, inkrementelle Lasten konfigurieren oder sich gedanken über die Tabellenauswahl machen – er benötigt alles automatisch gespiegelt. Da dies nur für Geschäftsleitungsberichte gilt, funktioniert die Verwendung der Daten in einem schreibgeschützten Format in OneLake perfekt. Die Lösung muss auch kosteneffizient sein, da sie aus seinem Abteilungsbudget herauskommt.

James betrachtet die Optionen und wählt "Spiegelung" aus. Die Spiegelung stellt die cdC-basierte fortlaufende Replikation bereit, die er benötigt, und verarbeitet automatisch alle Tabellen ohne Konfiguration. Die einfache Einrichtung bedeutet, dass er keine technische Expertise benötigt, und die kostenlosen Kosten passen zu seinem Budget. Das schreibgeschützte tabellarische Format in OneLake gibt seinem Team den Zugriff auf echtzeitbasierte Analysen, die sie benötigen, ohne die operative Leistung zu beeinträchtigen.

Szenario 2

Lisa ist Business Analyst bei einem Logistikunternehmen. Sie muss Versanddaten aus mehreren Snowflake-Datenbanken in Fabric Lakehouse-Tabellen zur Lieferkettenanalyse kopieren. Die Daten enthalten sowohl historische Datensätze für die erste Last als auch neue Sendungen, die während des Tages ankommen. Lisa möchte diesen Prozess in einem benutzerdefinierten Zeitplan ausführen - alle 4 Stunden während der Geschäftszeiten.

Lisa muss bestimmte Tabellen aus jeder Snowflake-Instanz auswählen, Spalten standardisierten Namen zuordnen und upsert-Verhalten verwenden, um Aktualisierungen vorhandener Versanddatensätze zu verarbeiten. Sie benötigt Tabellen- und Spaltenverwaltungsfunktionen, um verschiedene Schemas in allen Regionen zu verarbeiten, und sie möchte erweiterte Überwachung zur Nachverfolgung der Datenqualität und -verarbeitungsleistung.

Lisa untersucht die Optionen und wählt "Kopierauftrag" aus. Der Kopierauftrag stellt die benutzerdefinierte Planung bereit, die sie für ihre Geschäftsstundenanforderungen benötigt, unterstützt alle Datenquellen, einschließlich Snowflake, und bietet die Tabellen- und Spaltenverwaltungsfunktionen für ihre Multi-Region-Einrichtung an. Die benutzerfreundliche Schnittstelle mit erweiterten Konfigurationsoptionen ermöglicht es ihr, inkrementelle Kopie mit wasserzeichenbasiertem Erkennungs- und Upsertverhalten zu verarbeiten, ohne Pipelines zu erstellen.

Szenario 3

David ist senior Data Engineer bei einem Telekommunikationsunternehmen. Er erstellt einen komplexen Datenaufnahmeworkflow, der Kundennutzungsdaten aus Oracle mithilfe von benutzerdefinierten SQL-Abfragen extrahieren, Geschäftstransformationen anwenden und in mehrere Ziele laden muss, einschließlich Fabric Warehouse und externer Systeme. Der Workflow muss auch mit anderen Pipelineaktivitäten wie Datenüberprüfungs- und Benachrichtigungsschritten koordiniert werden.

David benötigt die vollständige Kontrolle über den Kopiervorgang, einschließlich der Möglichkeit, benutzerdefinierte Abfragen zum Verknüpfen von Tabellen und Filtern von Daten an der Quelle zu verwenden. Er benötigt erweiterte und vollständig anpassbare Konfigurationsoptionen, vorhersehbare Leistung für große Datenvolumes und die Möglichkeit, den Kopiervorgang in umfassendere Pipeline-Orchestrierungsworkflows mit Abhängigkeiten und Fehlerbehandlung zu integrieren.

David überprüft die verfügbaren Optionen und wählt "Aktivitäten kopieren" in Pipelines aus. Dieser Ansatz bietet ihm die erweiterte und vollständig anpassbare Konfiguration, die er benötigt, unterstützt benutzerdefinierte Abfragen für die komplexe Datenextraktion und stellt die pipelinebasierte Orchestrierung bereit, die für seinen Workflow erforderlich ist. Die erweiterten Überwachungs- und Überwachungsfunktionen helfen ihm dabei, den komplexen Prozess nachzuverfolgen, während das Pipelineframework die Kopieraktivitäten mit anderen Datenverarbeitungsschritten koordinieren kann.

Szenario 4

Ash ist Produktmanager bei einem Telekommunikationsunternehmen. Ihr Team muss Metriken des Kundensupports wie Anrufvolumen, Wartezeiten und Agentleistung in Echtzeit überwachen, um die SLA-Compliance sicherzustellen und die Kundenzufriedenheit zu verbessern. Die Daten stammen aus mehreren Betriebssystemen, einschließlich CRM-Plattformen, Anrufcenterprotokollen und Agent-Zuordnungsdatenbanken und kommen im Laufe des Tages in hoher Häufigkeit an.

Ash verwendet Fabric Eventstreams zum Aufnehmen und Transformieren dieser Daten in Bewegung. Sie konfiguriert Streaming-Connectors zum Abrufen von Daten aus verschiedenen Quellen, wendet Transformationen mithilfe der No-Code-Erfahrung an und leitet die verarbeiteten Ereignisse an Eventhouse für Echtzeitanalysen weiter. Sie integriert Datenaktivator , um Warnungen und automatisierte Workflows auszulösen, wenn SLA-Schwellenwerte verletzt werden, damit sie Benachrichtigungen an Vorgesetzte senden oder Mitarbeiterebenen dynamisch anpassen kann.

Das Ergebnis ist ein Echtzeitdashboard, das innerhalb von Sekunden aktualisiert wird, Ashs Team Einblicke in Live-Leistungsmetriken gewährt und schnelle, datengesteuerte Entscheidungen ermöglicht. Diese Streamingarchitektur beseitigt die Latenz von Batchpipelines und ermöglicht es dem Unternehmen, sofort auf die Kundenanforderungen zu reagieren.

Get started

Nachdem Sie nun eine Vorstellung davon haben, welche Datenbewegungsstrategie verwendet werden soll, können Sie mit diesen Ressourcen beginnen: