AWS kündigt AWS Glue DataBrew an

AWS kündigt AWS Glue DataBrew an
Lesedauer: 5 Minuten.

Neues visuelles Datenvorbereitungstool für AWS Glue ermöglicht es Datenwissenschaftlern und Datenanalytikern, Daten bis zu 80 % schneller zu bereinigen und zu normalisieren als herkömmliche Ansätze zur Datenvorbereitung

Unser Technologiepartner AWS kündigte die allgemeine Verfügbarkeit von AWS Glue DataBrew an, einem neuen visuellen Datenaufbereitungstool, mit dem Kunden Daten bereinigen und normalisieren können, ohne Code schreiben zu müssen. Seit 2016 verwenden Dateningenieure AWS Glue zum Erstellen, Ausführen und Überwachen von Extrahieren, Transformieren und Laden (ETL) von Daten. AWS Glue bietet sowohl codebasierte als auch visuelle Schnittstellen und hat das Extrahieren, Orchestrieren und Laden von Daten in die Cloud für Kunden erheblich vereinfacht. Datenanalysten und Datenwissenschaftler wollten eine einfachere Möglichkeit, diese Daten zu bereinigen und zu transformieren, und genau das bietet DataBrew mit einem Service, der Datenexploration und -experimente direkt aus AWS Data Lakes, Data Warehouses und Datenbanken ermöglicht, ohne dass Code geschrieben werden muss. AWS Glue DataBrew bietet Kunden mehr als 250 vorgefertigte Transformationen zur Automatisierung von Datenvorbereitungsaufgaben (z.B. Filtern von Anomalien, Standardisieren von Formaten und Korrigieren ungültiger Werte), die sonst Tage oder Wochen für das Schreiben von handcodierten Transformationen erfordern würden. Sobald die Daten aufbereitet sind, können Kunden sie sofort mit AWS und Analyse- und Machine-Learning-Diensten von Drittanbietern verwenden, um die Daten abzufragen und Machine-Learning-Modelle zu trainieren. Für die Verwendung von AWS Glue DataBrew fallen keine Vorabverpflichtungen oder Kosten an, und die Kunden zahlen nur für die Erstellung und Ausführung von Transformationen an Datensätzen. Um zu beginnen, besuchen Sie https://aws.amazon.com/glue/features/databrew.

Die Vorbereitung von Daten für die Analyse und das maschinelle Lernen umfasst mehrere notwendige und zeitaufwändige Aufgaben, einschließlich Datenextraktion, Bereinigung, Normalisierung, Laden und die Orchestrierung von ETL-Workflows in großem Maßstab. Zum Extrahieren, Orchestrieren und Laden von Daten in großem Maßstab können Dateningenieure und ETL-Entwickler, die mit SQL oder Programmiersprachen wie Python oder Scala vertraut sind, AWS Glue verwenden. ETL-Entwickler bevorzugen oft die in modernen ETL-Tools üblichen visuellen Schnittstellen gegenüber dem Schreiben von SQL, Python oder Scala. Daher hat AWS kürzlich AWS Glue Studio eingeführt, eine neue visuelle Schnittstelle, die das Verfassen, Ausführen und Überwachen von ETL-Aufträgen erleichtert, ohne dass Code geschrieben werden muss. Nachdem die Daten zuverlässig verschoben wurden, müssen die zugrundeliegenden Daten noch von Datenanalytikern und Datenwissenschaftlern, die in den Geschäftsbereichen tätig sind und den Kontext der Daten verstehen, bereinigt und normalisiert werden. Um die Daten zu bereinigen und zu normalisieren, müssen Datenanalysten und Datenwissenschaftler entweder mit kleinen Datenchargen in Excel oder Jupyter-Notebooks arbeiten, die keine großen Datensätze aufnehmen können, oder sich auf knappe Dateningenieure und ETL-Entwickler verlassen, um benutzerdefinierten Code zur Durchführung von Bereinigungs- und Normalisierungstransformationen zu schreiben. In dem Bemühen, Anomalien in den Daten zu erkennen, verbringen hochqualifizierte Dateningenieure und ETL-Entwickler Tage oder Wochen damit, benutzerdefinierte Workflows zu schreiben, um Daten aus verschiedenen Quellen abzurufen und die Daten dann mehrfach zu drehen, zu transponieren und zu schneiden, bevor sie mit Datenanalytikern oder Datenwissenschaftlern iterieren können, um Datenqualitätsprobleme zu identifizieren und zu beheben. Nachdem sie diese Transformationen entwickelt haben, müssen Dateningenieure und ETL-Entwickler die benutzerdefinierten Workflows immer noch so planen, dass sie kontinuierlich ausgeführt werden, damit neu eingehende Daten automatisch bereinigt und normalisiert werden können. Jedes Mal, wenn ein Datenanalytiker oder Datenwissenschaftler eine Transformation ändern oder hinzufügen möchte, müssen die Dateningenieure und ETL-Entwickler die Datenvorbereitungsaufgaben erneut extrahieren, laden, bereinigen, normalisieren und orchestrieren. Dieser iterative Prozess kann mehrere Wochen bis Monate dauern. Infolgedessen verbringen die Kunden bis zu 80 % ihrer Zeit mit der Bereinigung und Normalisierung von Daten, anstatt die Daten tatsächlich zu analysieren und Werte aus ihnen zu extrahieren.

AWS Glue DataBrew ist ein visuelles Datenvorbereitungstool für AWS Glue, mit dem Datenanalysten und Datenwissenschaftler Daten mit einer interaktiven, visuellen Point-and-Click-Oberfläche bereinigen und transformieren können, ohne Code schreiben zu müssen. Mit AWS Glue DataBrew können Endbenutzer direkt von ihrem Amazon Simple Storage Service (S3) Data Lake, dem Amazon Redshift Data Warehouse und den Amazon Aurora- und Amazon Relational Database Service (RDS)-Datenbanken auf einfache Weise auf eine beliebige Datenmenge in ihrer Organisation zugreifen und diese visuell untersuchen. Kunden können aus über 250 integrierten Funktionen wählen, um die Daten zu kombinieren, zu schwenken und zu transponieren, ohne Code schreiben zu müssen. AWS Glue DataBrew empfiehlt Datenbereinigungs- und Normalisierungsschritte wie das Filtern von Anomalien, die Normalisierung von Daten auf Standarddatums- und -zeitwerte, die Generierung von Aggregaten für Analysen und die Korrektur ungültiger, falsch klassifizierter oder duplizierter Daten. Für komplexe Aufgaben wie die Konvertierung von Wörtern in eine gemeinsame Basis oder einen Wortstamm (z.B. die Konvertierung von „Jahr“ und „Jahrlang“ in „Jahr“) bietet AWS Glue DataBrew auch Transformationen, die fortgeschrittene maschinelle Lerntechniken wie Natural Language Processing (NLP) verwenden. Benutzer können diese Bereinigungs- und Normalisierungsschritte dann in einem Workflow (genannt Rezept) speichern und automatisch auf zukünftige eingehende Daten anwenden. Wenn Änderungen am Arbeitsablauf vorgenommen werden müssen, aktualisieren Datenanalysten und Datenwissenschaftler einfach die Bereinigungs- und Normalisierungsschritte im Rezept, und sie werden automatisch auf neue Daten angewendet, sobald diese eintreffen. AWS Glue DataBrew veröffentlicht die aufbereiteten Daten auf Amazon S3, was es den Kunden leicht macht, sie sofort für Analysen und maschinelles Lernen zu verwenden. AWS Glue DataBrew ist serverlos und wird vollständig verwaltet, so dass Kunden niemals Rechenressourcen konfigurieren, bereitstellen oder verwalten müssen.

„AWS-Kunden verwenden Daten für Analysen und maschinelles Lernen in einem beispiellosen Tempo. Diese Kunden berichten uns jedoch regelmäßig, dass ihre Teams zu viel Zeit mit den undifferenzierten, sich wiederholenden und alltäglichen Aufgaben verbringen, die mit der Datenaufbereitung verbunden sind“, so Raju Gulabani, VP of Database and Analytics, AWS. „Kunden lieben die Skalierbarkeit und Flexibilität von codebasierten Datenvorbereitungsdiensten wie AWS Glue, aber sie könnten auch davon profitieren, wenn Geschäftsanwendern, Datenanalysten und Datenwissenschaftlern die Möglichkeit geboten würde, Daten unabhängig voneinander visuell zu untersuchen und mit ihnen zu experimentieren, ohne Code schreiben zu müssen. AWS Glue DataBrew bietet eine benutzerfreundliche visuelle Schnittstelle, die Datenanalysten und Datenwissenschaftlern aller technischen Ebenen hilft, Daten zu verstehen, zu kombinieren, zu bereinigen und zu transformieren.

AWS Glue DataBrew ist allgemein verfügbar in US East (N. Virginia), US East (Ohio), US West (Oregon), EU (Irland), EU (Frankfurt), Asien-Pazifik (Sydney) und Asien-Pazifik (Tokio), wobei weitere Regionen demnächst verfügbar sein werden.

Möchten Sie mehr über unseren Technologiepartner AWS erfahren? Wir beraten Sie umfassend und mit jahrelanger Erfahrung! Kontaktieren Sie uns jederzeit mit ihrem Anliegen!

 

Dieser Artikel beruht in Teilen auf einer Meldung unseres Technologiepartners AWS: https://press.aboutamazon.com/news-releases/news-release-details/aws-announces-aws-glue-databrew

Ihr Ansprechpartner bei VINTIN

Christoph Waschkau

Mitglied der VINTIN Geschäftsführung

+49 (0)9721 67594 10

kontakt@vintin.de

Abonnieren Sie die Beiträge unseres VINTIN IT-Journals! In Zukunft werden Sie bei neuen Inhalten per Email kurz und bündig informiert.

Zur Datenschutzerklärung

Abonnieren Sie die Beiträge unseres VINTIN IT-Journals! In Zukunft werden Sie bei neuen Inhalten per Email kurz und bündig informiert.

Zur Datenschutzerklärung

Veranstaltungen
  • Keine Veranstaltungen