Recap zur AWS re:Invent 2020: Drei neue Analyse-Tools

Auf der AWS re:Invent kündigte Amazon Web Services drei neue Analysefunktionen an, die die Leistung von Amazon Redshift Data Warehouses drastisch verbessern, es für Kunden wesentlich einfacher machen, Daten zwischen Datenspeichern zu verschieben und zu kombinieren, und es für Endbenutzer wesentlich einfacher machen, mit maschinellem Lernen mehr Wert aus ihren Geschäftsdaten zu ziehen.
AQUA für Amazon Redshift beschleunigt Abfragen mit einem innovativen neuen hardwarebeschleunigten Cache, der die Berechnungen in den Speicher bringt und eine bis zu 10-mal bessere Abfrageleistung als jedes andere Cloud-Data-Warehouse bietet. Die allgemeine Verfügbarkeit wird im Januar 2021 erreicht.
AWS Glue Elastic Views unterstützt Entwickler bei der Erstellung von Anwendungen, die Daten aus mehreren Datenspeichern mit materialisierten Ansichten verwenden, die Daten automatisch kombinieren und über Speicher, Data Warehouses und Datenbanken hinweg replizieren.
Amazon QuickSight Q bietet eine auf maschinellem Lernen basierende Funktion für Amazon QuickSight, mit der Benutzer in der Suchleiste von Amazon QuickSight Q natürlichsprachliche Ausdrücke verwenden können, um geschäftliche Fragen zu stellen und in Sekundenschnelle hochpräzise Antworten zu erhalten.
Heute werden stündlich mehr Daten erstellt als in einem ganzen Jahr vor nur 20 Jahren. Tatsächlich wird die Datenmenge, die in den nächsten drei Jahren erstellt wird, größer sein als die Datenmenge, die in den letzten 30 Jahren erstellt wurde. Die gleichen alten Werkzeuge werden in dieser neuen Datenwelt einfach nicht mehr funktionieren. AWS-Kunden verwenden eine Vielzahl von Analyse-Tools für unterschiedliche Anwendungsfälle, darunter Amazon Athena für serverlose Abfragen, Amazon Elasticsearch Service für die Suche und Visualisierung von Protokolldaten, Amazon Kinesis für die Verarbeitung von Echtzeit-Datenströmen, Amazon Redshift für Data Warehousing und Amazon EMR für den Betrieb von Apache Spark, Hive, Presto und anderen großen Daten-Frameworks. Diese Dienste bieten AWS-Kunden das richtige Werkzeug für ihre Bedürfnisse. Die heute angekündigten neuen Analysefunktionen bauen auf dieser Grundlage auf und ermöglichen eine schnellere, kostengünstigere und leichter zugängliche Datenanalyse über alle Datenspeicher eines Kunden hinweg. Um mehr zu erfahren, besuchen Sie https://aws.amazon.com/big-data/datalakes-and-analytics/.
„Mit den Funktionen, die wir heute ankündigen, bieten wir eine Leistungsverbesserung für Amazon Redshift in einer Größenordnung, neue flexible Möglichkeiten zum einfacheren Verschieben von Daten zwischen Datenspeichern und die Möglichkeit für Kunden, in ihren Geschäfts-Dashboards Fragen in natürlicher Sprache zu stellen und Antworten in Sekundenschnelle zu erhalten“, so Rahul Pathak, VP, Analytics, AWS. „Diese Fähigkeiten werden die Geschwindigkeit und Benutzerfreundlichkeit, mit der Kunden in jeder Größenordnung Nutzen aus ihren Daten ziehen können, erheblich verändern.
AQUA
AQUA (Advanced Query Accelerator) für Amazon Redshift bringt die Berechnung auf die Speicherschicht und liefert eine bis zu 10x schnellere Abfrageleistung als jedes andere Cloud Data Warehouse
Seit seiner Einführung im Jahr 2012 als erstes Data Warehouse, das zu einem Preis von 1/10 der Kosten herkömmlicher Data Warehouses für die Cloud gebaut wurde, hat sich Amazon Redshift zum beliebtesten Cloud Data Warehouse entwickelt. Anfang dieses Jahres kündigte AWS die allgemeine Verfügbarkeit von Amazon Redshift RA3-Instanzen an, die es Kunden ermöglichen, Berechnung und Speicherung getrennt zu skalieren und eine bis zu 3x bessere Leistung als jedes andere Data Warehouse in der Cloud zu erzielen. Doch selbst mit den Vorteilen, die RA3-Instanzen bieten, hat das schnelle Wachstum der Daten, die Kunden in ihren Data Warehouses verarbeiten müssen, zu einem schwierigen Balanceakt zwischen Leistung und kostengünstiger Skalierung geführt. Der vorherrschende Ansatz beim Data Warehousing bestand darin, eine Architektur aufzubauen, bei der große Mengen an zentralisiertem Speicher in wartende Rechenknoten verschoben werden, um die Daten zu verarbeiten. Die Herausforderung bei diesem Ansatz besteht darin, dass es zwischen den gemeinsam genutzten Daten und den Rechenknoten eine große Datenbewegung gibt. Da die Datenmengen immer schneller wachsen, sättigt diese Datenbewegung die verfügbare Netzwerkbandbreite und verlangsamt die Leistung. Zusätzlich zum Netzwerk-Engpass sind die CPUs nicht in der Lage, mit dem schnelleren Wachstum der Speicherfähigkeiten Schritt zu halten (der SSD-Speicherdurchsatz ist 6x schneller gewachsen als die Fähigkeit der CPUs, Daten aus dem Speicher zu verarbeiten), was entweder einen eigenen neuen CPU-Engpass schafft oder mehr Kunden dazu zwingt, zu viel Rechenleistung bereitzustellen, um ihre Arbeit schneller zu erledigen.
AQUA für Amazon Redshift ist ein verteilter und hardwarebeschleunigter Cache für Amazon Redshift; eine Innovation, die die Leistung für Analysen in der neuen Datenskala verbessert. AQUA bringt Compute in die Speicherschicht, so dass sich die Daten nicht mehr zwischen den beiden Schichten hin- und herbewegen müssen. Dadurch kann Amazon Redshift bis zu zehnmal schneller laufen als jedes andere Data Warehouse in der Cloud. Der AQUA-Cache skaliert und verarbeitet Daten parallel über viele Knoten hinweg. Jeder Knoten verfügt über ein Hardwaremodul, das sich aus von AWS entworfenen Analyseprozessoren zusammensetzt, die die Datenkomprimierung, Verschlüsselung und Datenverarbeitungsaufgaben wie Scans, Aggregate und Filterung drastisch beschleunigen. AQUA bietet den Kunden außerdem den zusätzlichen Vorteil, dass sie Berechnungen auf ihrem Rohdatenspeicher durchführen können, was Zeit spart, die sonst für das Verschieben von Daten aufgewendet werden müsste. Mit dieser neuen Architektur und der damit verbundenen um Größenordnungen besseren Leistung werden Redshift-Kunden über aktuellere Dashboards verfügen, Entwicklungszeit sparen und ihre Systeme einfacher zu warten sein. Die Vorschau von AQUA steht nun allen Kunden offen, und AQUA wird ab Januar 2021 allgemein verfügbar sein. AQUA ist auf Redshift-RA3-Instanzen ohne zusätzliche Kosten verfügbar, und Kunden können die Leistungsverbesserungen von AQUA ohne Code-Änderungen nutzen. Um mit AQUA zu beginnen, besuchen Sie https://pages.awscloud.com/AQUA_Preview.html
AWS Glue Elastic Views
Mit AWS Glue Elastic Views können Entwickler leicht materialisierte Ansichten erstellen, die Daten automatisch kombinieren und über mehrere Datenspeicher hinweg replizieren.
Die meisten Unternehmen bauen Datenseen oder haben bereits Datenseen gebaut, in denen sie alle Daten aus verschiedenen Silos mit den richtigen Sicherheits- und Zugangskontrollen aggregieren können, um die Durchführung von Analysen und maschinellem Lernen zu erleichtern. Aus Gründen der Latenzzeit und aus betrieblichen Gründen werden die meisten Unternehmen jedoch wahrscheinlich auch immer größere Datenmengen in eigens dafür gebauten Datenspeichern außerhalb ihrer Datenseen haben. Da die Daten in diesen Datenseen und zweckmäßigen Datenspeichern weiter wachsen, benötigen Unternehmen eine einfachere Möglichkeit, Daten zu verschieben.
AWS Glue Elastic Views bietet Entwicklern eine neue Möglichkeit, auf einfache Weise materialisierte Ansichten (auch virtuelle Tabellen genannt) zu erstellen, die Daten automatisch kombinieren und über mehrere Datenspeicher hinweg replizieren. AWS Glue ist ein serverloser Datenvorbereitungsdienst, mit dem Extrahieren, Transformieren und Laden (ETL) von Daten für Analysen und maschinelles Lernen einfach ausgeführt werden kann. Mit AWS Glue Elastic Views können Kunden SQL verwenden, um eine materialisierte Ansicht der Daten zu erstellen, die sie aus verschiedenen Datenspeichern kombinieren möchten, und AWS Glue Elastic Views kopiert die Daten, um die materialisierte Ansicht aus den verschiedenen Quellen zu erstellen. Beispielsweise könnte ein Kunde eine materialisierte Ansicht erstellen, die Informationen über den Standort eines Restaurants aus Amazon Aurora abruft und diese mit Kundenbewertungen kombiniert, die in Amazon DynamoDB gespeichert sind, um eine Suchmaschine für Restaurantbewertungen nach Standort auf Amazon Elasticsearch Service zu erstellen. AWS Glue Elastic Views kopiert Daten aus jeder Quelldatenbank in eine Zieldatenbank und hält die Daten in der Zieldatenbank automatisch auf dem neuesten Stand. Elastic Views überwacht die Quelldatenbank kontinuierlich auf Änderungen und aktualisiert die Zieldatenbank innerhalb von Sekunden. Wenn sich das Datenmodell in einer der Quelldatenbanken ändert, benachrichtigt Elastic Views die Entwickler proaktiv, so dass sie ihre materialisierte Ansicht aktualisieren können, um sich an die Änderung anzupassen. Kunden können Elastic Views auch dazu verwenden, operative Daten aus einer operativen Datenbank in ihren Datenspeicher zu kopieren, um Analysen nahezu in Echtzeit durchzuführen. AWS Glue Elastic Views skaliert die Kapazität automatisch, um die Arbeitslasten beim Hoch- oder Herunterfahren zu bewältigen, und stellt so sicher, dass die materialisierten Ansichten in den Zieldatenbanken auf dem neuesten Stand gehalten werden. AWS Glue Elastic Views ist heute in der Vorschau verfügbar. Um mehr zu erfahren, besuchen Sie http://aws.amazon.com/glue/features/elastic-views.
Amazon Quicksight Q
Amazon QuickSight Q ist eine auf maschinellem Lernen basierende Funktion für Amazon QuickSight, mit der Benutzer Fragen zu ihren Geschäftsdaten in natürlicher Sprache eingeben können und innerhalb von Sekunden hochpräzise Antworten erhalten.
Amazon QuickSight ist ein skalierbarer, serverloser, einbettbarer, maschinell lernfähiger Business Intelligence (BI)-Service, der für die Cloud entwickelt wurde. Amazon QuickSight bietet alle Vorteile einer modernen, interaktiven Selbstbedienungs-BI-Lösung mit Funktionen, die die Einbettung von Dashboards in Anwendungen vereinfachen und eine kosteneffiziente Skalierung für die Unterstützung tausender Kunden ermöglichen. Die ‚Auto-Narratives‘-Funktion von Amazon QuickSight bietet Kunden eine automatisch generierte Zusammenfassung in einfacher Sprache, die interpretiert und beschreibt, was die Daten in einem BI-Dashboard bedeuten, so dass alle Benutzer ein gemeinsames Verständnis der Daten haben. Kunden mögen diese von Menschen lesbaren Erzählungen, weil sie dadurch die Daten in einem gemeinsamen Dashboard schnell interpretieren und sich auf die Erkenntnisse konzentrieren können, die am wichtigsten sind. Die Kunden waren auch daran interessiert, geschäftliche Fragen zu ihren Daten in einfacher Sprache zu stellen und Antworten nahezu in Echtzeit zu erhalten. Während einige BI-Tools und Anbieter versucht haben, diese Herausforderung mit Natural Language Query (NLQ) zu lösen, erfordern die bestehenden Ansätze, dass Kunden zunächst Monate im Voraus ein Modell vorbereiten und erstellen, und selbst dann haben sie noch immer keine Möglichkeit, Fragen zu stellen, die neue Berechnungen erfordern, die nicht im Datenmodell vordefiniert sind. Zum Beispiel erfordert die Frage „Wie hoch ist unsere Wachstumsrate im Jahresvergleich“, dass die „Wachstumsrate“ als Berechnung im Modell vordefiniert ist. Bei den heutigen BI-Tools müssen die Anwender mit ihren BI-Teams zusammenarbeiten, um das Modell zu aktualisieren, um neue Berechnungen oder Daten zu berücksichtigen, was Tage oder Wochen an Arbeit in Anspruch nehmen kann.
Mit Amazon QuickSight Q können Benutzer alle ihre Daten in natürlicher Sprache abfragen und erhalten innerhalb von Sekunden eine Antwort. Um eine Frage zu stellen, geben die Benutzer sie einfach in die Suchleiste von Amazon QuickSight Q ein. Wenn die Benutzer mit der Eingabe ihrer Fragen beginnen, bietet Amazon QuickSight Q automatisch Vorschläge zur Vervollständigung mit Schlüsselsätzen und Geschäftsbegriffen und führt automatisch eine Rechtschreibprüfung sowie einen Abgleich von Akronymen und Synonymen durch, so dass sich die Benutzer keine Gedanken über Tippfehler machen oder sich die genauen Geschäftsbegriffe für die Daten merken müssen. Amazon QuickSight Q verwendet tiefgehendes Lernen und maschinelles Lernen (Verarbeitung natürlicher Sprache, Schemaverständnis und semantisches Parsing für die SQL-Codegenerierung), um ein Datenmodell zu generieren, das automatisch die Bedeutung von und Beziehungen zwischen Geschäftsdaten versteht, so dass Benutzer hochpräzise Antworten auf ihre geschäftlichen Fragen erhalten und nicht Tage oder Wochen auf die Erstellung eines Datenmodells warten müssen. Da mit Amazon QuickSight Q die BI-Teams kein Datenmodell erstellen müssen, sind die Anwender auch nicht darauf beschränkt, nur einen bestimmten Satz von Fragen zu stellen. Darüber hinaus können Anwender vollständigere und genauere Antworten erhalten, da die Abfrage auf alle Daten angewendet wird, nicht nur auf die Datensätze in einem vorher festgelegten Modell. Amazon QuickSight Q wird auf Daten aus verschiedenen Bereichen und Branchen wie Vertrieb, Marketing, Betrieb, Einzelhandel, Personalwesen, Pharmazie, Versicherung, Energie und mehr vortrainiert, so dass es optimiert ist, auch komplexe Geschäftssprache zu verstehen. So können Vertriebsanwender z.B. fragen: „Wie werden meine Verkäufe im Vergleich zu den Quoten verfolgt“, oder Einzelhandelsanwender können fragen: „Welche Produkte werden Woche für Woche nach Region am meisten verkauft? Amazon QuickSight Q verbessert seine Genauigkeit im Laufe der Zeit kontinuierlich, indem es aus Benutzerinteraktionen lernt. Wenn Amazon QuickSight Q einen Satz in einer Frage nicht versteht, werden die Benutzer aufgefordert, aus einem Dropdown-Menü mit vorgeschlagenen Optionen in der Suchleiste auszuwählen, und Amazon QuickSight Q merkt sich den Satz für die nächste Interaktion. Um mehr über Amazon QuickSight Q zu erfahren, besuchen Sie https://aws.amazon.com/quicksight/q
Möchten Sie mehr über unseren Technologiepartner AWS erfahren? Wir beraten Sie umfassend und mit jahrelanger Erfahrung! Kontaktieren Sie uns jederzeit mit ihrem Anliegen!
Dieser Artikel beruht in Teilen auf einer Meldung unseres Technologiepartners AWS: https://press.aboutamazon.com/news-releases/news-release-details/aws-announces-three-new-analytics-capabilities