Recap zur AWS re:Invent: Amazon SageMaker Part 2

Recap zur AWS re:Invent: Amazon SageMaker Part 2
Lesedauer: 2 Minuten.

Matthias Kübert ist als Cloud Data Pioneer Teil der VINTIN Gruppe und beschäftigt sich intensiv mit allen Themen rund um Big Data, Machine Learning, KI und Cloud Data Management.

Einen großen Teil ihrer Arbeit verbringen Data Scientists nicht etwa damit Daten zu analysieren und daraus Vorhersagen zu ermitteln, sondern sehr viel Zeit verrinnt im mühseligen Verarbeiten der Daten in Preprocessing und Postprocessing. Darunter fallen insbesondere Transformationen der Daten in ein Format, das der ML Algorithmus unterstützt, feature-engineering und Skalierungen bzw. Normalisierungen sowie Übersetzungen von Daten auf höherer Ebene, wie z.B. postalische Adressen durch GPS-Koordinaten zu ersetzen. Und das sind nur Beispiele aus dem Preprocessing.

Um diese Jobs durchzuführen, müssen mehrere Skripte über die Daten ausgeführt werden oder eigene Automatisierungstools entwickelt werdenUm diese manuellen Tätigkeiten zu erleichtern, hat AWS Amazon SageMaker Processing entwickelt. Darin enthalten ist ein neues Python SDK um Workloads auf SageMaker zu erleichtern. Damit die Arbeit für Data Scientists möglichst einfach wird, bezieht sich das SDK mit „scikit-learn“ auf eine der am meisten genutzten Libraries für Datentransformationen. Außerdem können auch eigene Docker Images verwendet werden, um sich den Bedürfnissen der User so gut anzupassen wie möglich. Dieser Dienst ist in allen Regionen verfügbar wo auch SageMaker verfügbar ist 

Ein weiteres Highlight der Re:Invent 2019 klingt wirklich nach Science Fiction, ist aber wahrMit Amazon SageMaker Autopilot hat AWS eine Art KIAssistent entwickelt, um KI zu entwickeln. Durch einem API-Call oder in SageMaker Studio per Klick, können Datenquellen zunächst inspiziert werden, darauf werden einige Jobs gestartet, um zu identifizieren welche Hyperparameter und welche Algorithmen die besten Modellkandidaten liefern. Schließlich ist das Ergebnis eine „Inference Pipeline“ mit der entweder in Echtzeit oder als Batches, Inferenzen abgefragt werden können. Damit das ganze aber noch nachvollziehbar ist und auch weiterentwickelt und verfeinert werden kann, gibt SageMaker Autopilot den exakten Python-Code, mit dem das Ergebnis erstellt wurde, aus. Dieser Dienst ist bereits in 16 Regionen verfügbar. 

Mit Amazon SageMaker Debugger stellt AWS kein Tool zum gewöhnlichen Debugging von „klassischen“ Programmcode bereit, sondern eines mit dem für ML spezifische Probleme identifiziert werden können. Das Erstellen und Trainieren von ML Modellen wird gerne als Mischung aus Kunst und exakter Wissenschaft bezeichnet. Sehr oft passieren vor allem Trainingsprozess unvorhergesehene Divergenzen, die zum Abbruch des Trainings oder einem endlosen Optimierungsprozess führen. Murphy’s Law schlägt genau dort besonders gerne zu. Dabei sind für diese Fehler nicht Softwarebugs im klassischen Sinne verantwortlich, sondern meistens ist dafür die Initialisierung von Parametern und Hyperparameterkombinationen verantwortlich. Da diese auch häufig erst nach langwierigen Traningsprozessen sich zu erkennen geben, geht häufig viel Zeit verloren. Mit dem neuen SageMaker Debugger SDK kann der eigene bestehende Code für TensorFlow, Keras, Apache MXNet, PyTorch and XGBoost analysiert werden und ist in allen Regionen verfügbar, in denen es SageMaker gibt. 

Alles in allem bin ich sehr begeistert davon, welchen Problemen sich AWS angenommen hat und ich bin gespannt darauf zu sehen wie sich diese Technologien in SageMaker Studio integrieren lassen werden, sobald SageMaker Studio die Previewphase verlassen hat und global verfügbar sein wird. 

Dies ist Teil 2 der AWS re:Invent 2019-Recaps von Matthias Kübert. Teil 1 können Sie hier nachlesen.

Möchten Sie mehr über unseren Technologiepartner AWS erfahren? Wir beraten Sie umfassend und mit jahrelanger Erfahrung! Kontaktieren Sie uns jederzeit mit ihrem Anliegen!

Ihr Ansprechpartner bei VINTIN

Christoph Waschkau

Mitglied der VINTIN Geschäftsführung

+49 (0)9721 67594 10

kontakt@vintin.de

Abonnieren Sie die Beiträge unseres VINTIN IT-Journals! In Zukunft werden Sie bei neuen Inhalten per Email kurz und bündig informiert.

Zur Datenschutzerklärung

Abonnieren Sie die Beiträge unseres VINTIN IT-Journals! In Zukunft werden Sie bei neuen Inhalten per Email kurz und bündig informiert.

Zur Datenschutzerklärung

Veranstaltungen
  • Keine Veranstaltungen