Fragen zu Pentaho Datenintegration

ETL_spezi

Grünschnabel
Hallo,

ich befasse mich z.Zt. mit dem Thema ETL und bin auf der Suche nach einer entsprechenden Anwendung auf Pentaho Datenintegration(Kettle) gestoßen.
Vielleicht gibt es hier Anwender die mir weiter helfen können.
Die ersten leichten Übungen habe ich absolviert. Durch unsere Datenhaltung gibt es aber Voraussetzungen an das ETL-Tool die ich im Tutorial noch nicht nachgelesen habe.
So bnötige ich eine Funktion um die Datenquelle dynamisch ansprechen zu können.
Desweiteren habe ich noch keine Möglichkeit gefunden einen Gruppenwechsel darstellen zu können.
Wenn hier jenmand vertreten ist der sich mit ETL befasst und mir evtl. weiterhelfen kann führe ich meine Problemdarstellung gerne aus.
 
Hi,

ich beschäftige mich schon seit einiger Zeit mit dem Themengebiet ETL und insbesondere mit dem OpenSource Tool Kettle. Gebe dir recht: Der Einstieg ist nicht sehr einfach. Für viele Anforderungen gibt es Workarounds oder sie können mit Hilfe von Schritttypen erreicht werden, denen man die Flexibilität nicht zugetraut hätte.

So bnötige ich eine Funktion um die Datenquelle dynamisch ansprechen zu können.
Was soll denn dynamisch angesprochen werden? Willst du anhand von Bedingungen verschiedene SQL Befehle generieren? Sollen die Verbindungsdaten dynamisch generiert werden? In SQL Befehlen kannst du in Kettle auch Variablen von vorhergehenden Schritten verwenden um so z.B. eine Abfrage dynamisch aufzubauen. Verbindungsdaten können auch dynamisch gesetzt werden (hier gibt es jedoch einige Einschränkungen)

Desweiteren habe ich noch keine Möglichkeit gefunden einen Gruppenwechsel darstellen zu können.
Was ist ein Gruppenwechsel?
 
Datenquellen dynamisch ansprechen:

das heißt tatsächlich ich habe mehrere identische Datenbanken.
Ich möchte also einen Ablauf für verschiedene Datenbanken verwenden.

Ein Beispiel für Gruppenwechel:

Es gibt beliebig viele Sätze in einer Tabelle mit den Spalten Person,Rechnungnr.,Datum
z.B.

1,1,01.01.2000
1,2,01.01.2001
2,1,01.01.2001
2,2,01.01.2000
usw.

in Ergebnis möchte ich die letzte Rechnung zu jeder Person haben, also

1,2,01.01.2001
2,1,01.01.2001

Inzwischen habe ich eine weitere Problemstellung.

Wie kann ich mehrere CSV-Dateien einlesen und mit einem Ablauf verarbeiten?
 
Zurück