Was ist Extract Transform Load (ETL)?
Extract Transform Load (ETL) ist der Vorgang des Extrahierens, Transformierens und Ladens während der Datenbanknutzung, insbesondere jedoch während der Datenspeicherverwendung.
Es beinhaltet die folgenden Teilprozesse:
– Daten von externen Datenspeicher- oder Übertragungsquellen abrufen
– Transformieren von Daten in ein verständliches Format, in dem Daten typischerweise zusammen mit einem Fehlererkennungs- und -korrekturcode gespeichert werden, um betriebliche Anforderungen zu erfüllen
– Übertragen und Laden von Daten zum empfangenden Ende
Die erste Phase eines ETL-Prozesses konzentriert sich auf das Abrufen der Daten aus der Speicherquelle. Die meisten Datenspeicherprojekte integrieren Daten, die von verschiedenen Quellsystemen empfangen werden. Jedes einzelne System kann eine separate Datenorganisation oder ein separates Datenformat verwenden. Gängige Datenquellenstrukturen sind relationale Datenbanken und reine Datendateien.
Sie können auch nicht-relationale Datenbankmuster wie Informationsmanagementsysteme oder andere Datenstrukturen wie VSAM (Virtual Storage Access Method) oder ISAM (Indexed Sequential Access Method) enthalten. Datenquellen können sogar externe Quellen enthalten, z. B. Daten aus dem Internet oder über ein Scansystem.
Die Transformationsphase verwendet eine Reihe von Regeln oder Operationen, um reine Daten von der Quelle abzurufen, um die Daten in ihrer endgültigen Form zur Manipulation am empfangenden Ende zu liefern. Einige Datenquellen benötigen sehr wenig oder gar keine Datenverarbeitung. Manchmal können eine oder mehrere Transformationen kritisch sein, um den geschäftlichen und technischen Anforderungen der Zieldatenbank zu entsprechen.
Die Lade- oder Übertragungsstufe zielt darauf ab, Daten an das Empfangsende zu senden, was wahrscheinlich ein Datenspeicher ist. Je nach den Anforderungen der Anwendung kann dieser Prozess sehr einfach oder sehr kompliziert sein. Einige Datenspeicherungsmethoden können alte Daten durch kumulative Daten ersetzen. Die Aktualisierung der extrahierten Daten erfolgt normalerweise in regelmäßigen Abständen.