Zum Inhalt springen
Procari Lexikon ETL-Prozess Einkauf
Einkaufslexikon

ETL-Prozess Einkauf

ETL-Prozess Einkauf

Der ETL-Prozess Einkauf ist die technische Datenpipeline, die Bestell-, Rechnungs- und Stammdaten aus operativen Quellsystemen — typischerweise ERP, P-Card, Vertragsregister, Reisekosten — extrahiert, in eine einheitliche Struktur transformiert und in ein Data Warehouse oder einen Spend-Cube lädt. ETL ist die Brücke zwischen [[datenmodell-einkauf]] auf Papier und auswertbarer Wirklichkeit: ohne ETL keine [[datenqualitaet-einkauf]], keine Spend-Analyse, kein konsolidiertes Reporting.

Detaillierte Erklärung

Das Akronym ETL — Extract, Transform, Load — wurde 1988 von Bill Inmon im Buch "Building the Data Warehouse" geprägt und ist seit DAMA-DMBOK 2 (Ausgabe 2017) als Kernverfahren der Datenintegration normiert. Drei Phasen: Extract zieht Rohdaten aus Quellsystemen über Connector, API oder Datenbank-Replikation, typisch SAP Extractoren (SAP MM, FI), REST-APIs (Coupa, Jaggaer, SAP Ariba), Datei-Drops (CSV aus Reisekostentools wie SAP Concur, gegründet 1993). Transform wendet Bereinigungs-, Mapping- und Aggregationsregeln an: Lieferanten-Konsolidierung über DUNS-Nummer (vergeben durch Dun & Bradstreet seit 1963, weltweit rund 530 Millionen Datensätze), eClass- oder UNSPSC-Klassifikation, Währungsumrechnung, Korrektur fehlender Felder. Load schreibt das Ergebnis in ein Ziel, typisch ein Star-Schema-Data-Warehouse oder ein dimensionales Modell nach Ralph Kimball ("The Data Warehouse Toolkit", 1996, 3. Auflage 2013).

Marktführende ETL-Plattformen sind Informatica PowerCenter (Marktführer im Gartner Magic Quadrant Data Integration Tools 2025, Informatica wurde 1993 gegründet), Talend (gegründet 2005 in Frankreich, 2023 von Qlik übernommen für rund 2,4 Milliarden US-Dollar) und SAP Data Intelligence als ERP-nahes Werkzeug. Im Cloud-Umfeld dominieren Fivetran (gegründet 2012, Bewertung 5,6 Milliarden US-Dollar 2021), Matillion und dbt Labs mit dem ELT-Paradigma (Load vor Transform). Typische Performance-Kennzahlen: ein nightly Batch im Mittelstand (ein Werk, 80.000 bis 150.000 Buchungssätze pro Tag) läuft 2 bis 6 Stunden; Konzern-ETL-Strecken über mehrere ERP-Systeme erreichen 4 bis 12 Stunden Laufzeit. Ausfallraten liegen laut Informatica-Benchmark 2024 bei 3 bis 7 Prozent der Läufe; jeder vierte Ausfall verursacht eine SLA-Verletzung im nachgelagerten Reporting.

Praxisbeispiel (konkretes Einkaufsszenario)

Ein bayerischer Automotive-Tier-1 (3.200 Mitarbeitende, 890 Mio. EUR Beschaffungsvolumen, fünf Werke) konsolidiert 2026 zwei SAP-ERP-Instanzen, Coupa und ein Alt-Werks-System (Microsoft Dynamics AX) in einen zentralen Spend-Cube auf Snowflake. Der ETL-Prozess umfasst 47 Datenstrecken, gebaut mit Informatica Cloud Data Integration. Nightly Batch: Extract dauert 1 Stunde 14 Minuten (rund 2,8 Millionen Buchungssätze über 18 Monate), Transform 3 Stunden 22 Minuten (Lieferanten-Konsolidierung über DUNS reduziert von 11.420 auf 6.830 unique Lieferanten, eClass-Klassifikation auf vierter Ebene mit 81 Prozent automatischer Trefferquote), Load 47 Minuten. Insgesamt 5 Stunden 23 Minuten — Fenster zwischen 22 Uhr und 4 Uhr. Datenqualitäts-Checks am Ende jedes Laufs gegen sieben Regeln (zum Beispiel: Bestellwert > 0, Lieferant in Stamm, Buchungsdatum nicht in Zukunft); Verstöße werden in einer Quarantäne-Tabelle abgelegt und an den jeweiligen [[data-steward]] gemeldet. Lizenz Informatica 187.000 EUR pro Jahr, Snowflake-Compute 64.000 EUR pro Jahr, Implementierung 720.000 EUR über 14 Monate. Effekt: Spend-Reporting erstmals werksübergreifend einheitlich, Identifikation von 4,7 Mio. EUR Konsolidierungspotenzial im ersten Quartal nach Go-Live.

Typische Fehler & Verhandlungskontext

Erstens fehlt häufig die Lineage-Dokumentation: Wenn nicht festgehalten ist, welche Quellfelder wie in welche Zielfelder fließen, wird jede spätere Anpassung zum Suchspiel. Zweitens werden Transform-Regeln im Code statt im [[datenkatalog-einkauf]] versteckt — Folge: Klassifikationslogik treibt unbemerkt auseinander, [[datenqualitaetsbericht]]e widersprechen einander. Drittens unterschätzen Projekte den Pflegeaufwand: Forrester-Wave-Analysen aus 2024 zeigen, dass 35 Prozent aller ETL-Strecken nach 24 Monaten nicht mehr aktuell gepflegt sind — Quellsystem-Schemas wandern, ohne dass die Pipelines mitgezogen werden. In Verhandlungen mit ETL-Anbietern ist die Connector-Bibliothek der zentrale Hebel: Eine fehlende SAP-S/4HANA-Anbindung kostet leicht 80.000 bis 120.000 EUR Eigenentwicklung; Open-Source-Alternativen (Apache Airflow, Apache NiFi) sind günstiger, brauchen aber dedizierte Engineering-Kapazität.

Verwandte Begriffe

Der ETL-Prozess realisiert das im [[datenmodell-einkauf]] entworfene Schema, speist [[stammdatenmanagement-mdm]]-Hubs sowie den [[datenkatalog-einkauf]], misst kontinuierlich [[datenqualitaet-einkauf]] und erkennt Dubletten durch [[match-merge-regeln]] sowie [[dublettenerkennung]].

Alle 1.460+ Begriffe als PDF

Das komplette Procari Einkaufslexikon — kostenlos per Email.

PDF anfordern →