Optimierung von Lookups in Talend mit temporären Tabellen

Bei der Entwicklung von Data Integration Jobs mit Talend gibt es meist die Anforderung, Daten aus zwei unterschiedlichen Quellen miteinander zu verknüpfen. Eine beispielhafte Anwendung hierfür ist z.B. das Nachschlagen von Verkaufspreisen für eine (ca. 900 Einträge kurze) Liste von Büchern. Nehmen wir für diesen Beitrag an, dass uns diese Liste als CSV Datei vorliegt. Bücher haben (meist) eine ISBN, mit der sie eindeutig zu identifizieren sind. Hierdurch haben wir für unsere Aufgabe bereits einen Schlüssel, den wir zur Verknüpfung nutzen können. Weiterhin soll für unser Beispiel in einer PostgreSQL Datenbank eine Tabelle books_masterdata existieren, in der wir u.a. [...]

Datenintegration mit Data Virtualization

In fast allen Projekten ist Datenintegration ein Thema, das angegangen werden muss. Legacy Systeme, Daten aus verschiedenen Fachbereichen und sogar Daten, die per Datei ausgetauscht werden, müssen konsolidiert und kombiniert werden. Probleme des klassischen Ansatzes Für die Datenbereinigung und die Integration der Daten werden klassischerweise ETL-Jobs (extract, transform, load) verwendet. Ein meist nächtlicher Job lädt Daten aus den verschiedenen Quellen in eine Zieldatenbank. Diese Daten können dann für Reports, Dashboards und Anwendungen verwendet werden. Dieser klassische Ansatz bringt mehrere Probleme mit sich. Einerseits sind die Daten bei ihrer Verwendung bereits wieder veraltet, denn ein Job, der eine große Menge [...]

Go to Top