Freigeben über


Clean Room und Datenanalyse mit mehreren Parteien

Azure Confidential Computing (ACC) bietet eine Grundlage für Lösungen, mit denen mehrere Parteien an Daten zusammenarbeiten können. Es gibt verschiedene Ansätze für Lösungen und ein wachsendes Ökosystem von Partnern, um Azure-Kunden, Forschern, wissenschaftlichen Fachkräften für Daten und Datenanbietern zu ermöglichen, an Daten zusammenzuarbeiten und gleichzeitig den Datenschutz zu wahren. Diese Übersicht umfasst einige der zu verwendenden Ansätze und vorhandenen Lösungen, die alle auf ACC ausgeführt werden.

Was ist der Daten- und Modellschutz?

Clean Room-Lösungen für Daten bieten in der Regel eine Möglichkeit für einen oder mehrere Datenanbieter, Daten für die Verarbeitung zu kombinieren. Typischerweise sind Code, Abfragen oder Modelle vereinbart, die von einem der Anbieter oder einem anderen Teilnehmer erstellt werden, z. B. einem Forscher oder Lösungsanbieter. In vielen Fällen können die Daten als vertraulich und unerwünscht in Bezug auf die direkte Weitergabe an andere Teilnehmer betrachtet werden –, sei es ein anderer Datenanbieter, ein Forscher oder ein Lösungsanbieter. Um die Sicherheit und den Datenschutz sowohl für die Daten als auch für Modelle zu gewährleisten, die in Clean Rooms für Daten verwendet werden, kann Confidential Computing verwendet werden, um kryptografisch zu überprüfen, ob Teilnehmer keinen Zugriff auf die Daten oder Modelle haben, einschließlich während der Verarbeitung. Mithilfe von ACC können die Lösungen Schutz für die IP-Adressen von Daten und Modellen vom Cloudbetreiber, vom Lösungsanbieter und von Teilnehmern bei der Datenzusammenarbeit bereitstellen.

Was sind Beispiele für Anwendungsfälle in der Branche?

Mit ACC erstellen Kunden und Partner Datenanalyselösungen mit mehreren Parteien unter Einhaltung des Datenschutzes, die manchmal als „vertrauliche Clean Rooms“ bezeichnet werden –, sowohl einzigartige vertrauliche netto-neue Lösungen als auch vorhandene Clean Room-Lösungen, die mit ACC vertraulich gemacht wurden.

  • Scotiabank – Hat die Verwendung von KI bei bankübergreifenden Geldflüssen zur Identifikation von Geldwäsche erprobt, um Fälle von Menschenhandel zu kennzeichnen, wobei Azure Confidential Computing und ein Lösungspartner, Opaque, verwendet werden.
  • Novartis Biome – Hat eine Partnerlösung von BeeKeeperAI verwendet, die auf ACC ausgeführt wird, um Kandidaten für klinische Studien für seltene Krankheiten zu finden.
  • Führende Zahlungsanbieter, die Daten bankübergreifend zur Betrugs- und Anomalieerkennung verbinden.
  • Datenanalysedienste und Clean Room-Lösungen, die ACC verwenden, um den Datenschutz zu erhöhen und die Complianceanforderungen und Datenschutzbestimmungen von Kunden aus der EU zu erfüllen.

Weshalb Confidential Computing?

Clean Rooms für Daten sind kein brandneues Konzept, aber mit Fortschritten bei Confidential Computing gibt es mehr Möglichkeiten, um von der Cloud-Skalierung mit breiteren Datasets zu profitieren, die IP-Adresse von AI-Modellen zu sichern und Datenschutzbestimmungen besser zu erfüllen. In früheren Fällen konnte möglicherweise aus folgenden Gründen nicht auf Daten zugegriffen werden:

  • Wettbewerbsnachteile oder Regulierungen, die das Teilen von Daten über Branchenunternehmen hinweg verhindern.
  • Anonymisierung, die die Qualität von Erkenntnissen zu Daten reduziert, oder zu hohe Kosten und zu hoher Zeitaufwand.
  • Daten, die an bestimmte Standorte gebunden werden und aufgrund von Sicherheitsbedenken nicht in der Cloud verarbeitet werden.
  • Kostspielige oder langwierige Rechtsprozesse, die die Haftung abdecken, wenn Daten offengelegt oder missbraucht werden

Diese Gegebenheiten könnten zu unvollständigen oder unwirksamen Datasets führen, die zu schwächeren Erkenntnissen oder höherem Zeitaufwand bei der Schulung und Verwendung von KI-Modellen führen.

Was sind Überlegungen beim Erstellen einer Clean Room-Lösung?

Batchanalyse im Vergleich zu Echtzeit-Datenpipelines: Die Größe der Datasets und die Geschwindigkeit der Erkenntnisse sollten beim Entwerfen oder Verwenden einer Clean Room-Lösung berücksichtigt werden. Wenn Daten „offline“ verfügbar sind, kann es in großen Teilen von Daten, wenn nicht sogar das gesamte Dataset, in eine überprüfte und gesicherte Compute-Umgebung für die Datenanalyseverarbeitung geladen werden. Diese Batchanalyse ermöglicht es, dass große Datasets mit Modellen und Algorithmen ausgewertet werden, von denen nicht erwartet wird, dass sie ein sofortiges Ergebnis liefern. Batchanalysen funktionieren z. B. gut, wenn ML-Rückschlüsse über Millionen von Gesundheitsdatensätzen hinweg ausgeführt werden, um die besten Kandidaten für eine klinische Studie zu finden. Andere Lösungen erfordern Erkenntnisse in Echtzeit für Daten, z. B. wenn Algorithmen und Modelle darauf abzielen, Betrug bei Transaktionen in Quasi-Echtzeit zwischen mehreren Entitäten zu identifizieren.

Zero-Trust-Teilnahme: Ein wichtiges Unterscheidungsmerkmal bei vertraulichen Clean Rooms ist die Möglichkeit, dass keine involvierte Partei vertrauenswürdig ist – von allen Datenanbietern, Code- und Modellentwicklern, Lösungsanbietern und Infrastrukturbetreiberadministratoren. Lösungen können bereitgestellt werden, bei denen sowohl die Daten- als auch die Modell-IP-Adresse vor allen Parteien geschützt werden können. Beim Onboarding oder Erstellen einer Lösung sollten die Teilnehmer sowohl überlegen, was geschützt werden soll, als auch vor wem der Code, jedes Modell und alle Daten geschützt werden sollen.

Verbundlernen: Verbundlernen umfasst das Erstellen oder Verwenden einer Lösung, während Modelle die Verarbeitung im Mandanten des Datenbesitzers ausführen und Erkenntnisse in einem zentralen Mandanten aggregiert werden. In einigen Fällen können die Modelle sogar für Daten außerhalb von Azure ausgeführt werden, wobei die Modellaggregation in Azure noch erfolgt. Oft iteriert das Verbundlernen Daten mehrmals, da sich die Parameter des Modells verbessern, nachdem Erkenntnisse aggregiert wurden. Die Kosten der Iteration und die Qualität des Modells sollten bei der Lösung und den erwarteten Ergebnissen berücksichtigt werden.

Datenresidenz und -quellen: Kunden haben Daten in mehreren Clouds und lokal gespeichert. Die Zusammenarbeit kann Daten und Modelle aus verschiedenen Quellen umfassen. Clean Room-Lösungen können Daten und Modelle erleichtern, die von diesen anderen Standorten in Azure verschoben werden. Wenn Daten nicht aus einem lokalen Datenspeicher in Azure verschoben werden können, können einige Clean Room-Lösungen am Standort ausgeführt werden, an dem sich die Daten befinden. Verwaltung und Richtlinien können von einem gemeinsamen Lösungsanbieter unterstützt werden, sofern verfügbar.

Codeintegrität und Confidential Ledgers: Mit Distributed Ledger-Technologie (DLT), die auf Azure Confidential Computing ausgeführt wird, können Lösungen erstellt werden, die in einem Netzwerk in allen Organisationen ausgeführt werden. Die Codelogik und Analyseregeln können nur hinzugefügt werden, wenn ein Konsens zwischen den verschiedenen Teilnehmern besteht. Alle Aktualisierungen des Codes werden für die Überwachung über die manipulationssichere Protokollierung aufgezeichnet, die mit Azure Confidential Computing aktiviert wird.

Welche Optionen gibt es für die ersten Schritte?

Azure Confidential Clean Rooms (Vorschau)

Azure Confidential Clean Rooms (ACCR) wurde für Organisationen entwickelt, die vertrauliche Datenschutzdaten wie personenbezogene Informationen (PERSONALly Identifiable Information, PII) oder geschützte Integritätsinformationen (PHI) sicher mit anderen Organisationen teilen müssen, um geschäftskritische Erkenntnisse abzuleiten, die ihr ML-Modell sicher mit vertraulichen Daten aus anderen Organisationen optimieren können, um die Genauigkeit zu verbessern oder sichere Analysen zu gemeinsamen Daten mit Ihren Partnerorganisationen durchzuführen. ACCR verwendet vertrauliche Container in Azure-Containerinstanzen, um sicherzustellen, dass Ihre Daten vor anderen Mitarbeitern und von Azure-Operatoren geschützt bleiben. Es verfügt über Anwendungen, die mehrere Branchen umfassen, z. B. Gesundheitswesen, Werbung, Banken und Finanzdienstleistungen und Einzelhandel.

Sie können sich selbst für die ACCR-Vorschau anmelden, indem Sie dieses Formular übermitteln.

ACC-Plattformangebote, mit denen vertrauliche Clean Rooms aktiviert werden können

Krempeln Sie Ihre Ärmel hoch, und erstellen Sie direkt für diese Confidential Computing-Dienstangebote eine Clean Room-Lösung.

Vertrauliche Container auf Azure Container Instances (ACI) und Intel SGX-VMs mit Anwendungsenklaven bieten eine Containerlösung zum Erstellen vertraulicher Clean Room-Lösungen.

Vertrauliche virtuelle Computer (VMs) stellen eine VM-Plattform für vertrauliche Clean Room-Lösungen bereit.

Azure SQL AE in Secure Enclaves bietet einen Plattformdienst zum Verschlüsseln von Daten und Abfragen in SQL, die in Datenanalysen mit mehreren Teilnehmern und vertraulichen Clean Rooms verwendet werden können.

Confidential Consortium Framework ist ein Open-Source-Framework zum Erstellen hoch verfügbarer zustandsbehafteter Dienste, die zentralisiertes Computing für eine einfache Nutzung und Leistung verwenden und dabei dezentrales Vertrauen bieten. Es ermöglicht mehreren Parteien, prüffähiges Computing mit vertraulichen Daten auszuführen, ohne einander oder einem privilegierten Operator zu vertrauen.

ACC-Partnerlösungen, die vertrauliche Clean Rooms ermöglichen

Verwenden Sie einen Partner, der Datenanalyselösungen mit mehreren Parteien auf der Confidential Computing-Plattform von Azure erstellt hat.

  • Anjuna bietet eine Confidential Computing-Plattform, um verschiedene Anwendungsfälle, einschließlich sicherer Clean Rooms, zu ermöglichen, damit Organisationen Daten für gemeinsame Analysen freigeben können, z. B. die Berechnung von Kreditrisikobewertungen oder die Entwicklung von Machine Learning-Modellen, ohne vertrauliche Informationen verfügbar zu machen.
  • BeeKeeperAI ermöglicht die KI im Gesundheitswesen über eine sichere Zusammenarbeitsplattform für Algorithmusbesitzer und Data Stewards. BeeKeeperAI™ verwendet Analysen unter Einhaltung des Datenschutzes für institutionsübergreifende Quellen geschützter Daten in einer Confidential Computing-Umgebung. Die Lösung unterstützt End-to-End-Verschlüsselung, sichere Enclaves für sicheres Computing und die neuesten SGX-Prozessoren von Intel zum Schutz der Daten und der Algorithmus-IP.
  • Decentriq bietet auf Confidential Computing basierende SaaS-Daten-Clean Rooms, die eine sichere Datenzusammenarbeit ermöglichen, ohne Daten freizugeben. Data Science-Clean Rooms ermöglichen flexible Analysen mit mehreren Parteien, und No-Code Clean Rooms für Medien und Werbung ermöglichen eine kompatible Zielgruppenaktivierung und Analysen basierend auf Benutzerdaten von Erstanbietern. Vertrauliche Clean Rooms werden in diesem Artikel im Microsoft-Blog ausführlicher beschrieben.
  • Fortanix bietet eine Confidential Computing-Plattform, die vertrauliche KI ermöglichen kann, einschließlich mehrerer Organisationen, die für Analysen mehrerer Parteien zusammenarbeiten.
  • Habu bietet eine vollständig kompatible Clean Room-Plattform für Daten, die es Unternehmen ermöglicht, auf intelligente, sichere, skalierbare und einfache Weise kollaborative Intelligenz freizusetzen. Habu verbindet dezentralisierte Daten über Abteilungen, Partner, Kunden und Anbieter für eine bessere Zusammenarbeit, Entscheidungsfindung und bessere Ergebnisse.
  • Mithril Security bietet Tools, mit denen SaaS-Anbieter KI-Modelle in sicheren Enklaves bedienen und den Datenbesitzern ein lokales Maß an Sicherheit und Kontrolle bieten können. Datenbesitzer können ihre SaaS-AI-Lösungen verwenden und bleiben gleichzeitig konform und behalten die Kontrolle über ihre Daten.
  • Opaque bietet eine Confidential Computing-Plattform für kollaborative Analysen und KI, wodurch kollaborative, skalierbare Analysen durchgeführt werden können, während Daten umfassend geschützt werden und Organisationen die Einhaltung gesetzlicher und behördlicher Richtlinien ermöglicht wird.