Pentaho Data Integration – PDI Tutorial 3: Data Grid und Java Script

Im vorangegangenen How To haben wir die eingehenden und zu verarbeitenden Daten noch aus einer einfachen Textdatei geladen. In produktiven Systemen wäre diese Vorgehensweise wohl häufig nicht praktikabel. Daher tritt hier meist anstelle des “File Input”-Schrittes ein “Table Input”-Schritt auf, mit dem die eingehenden Daten direkt von einer unterliegenden Datenbank dynamisch geladen und verarbeitet werden können. Analog wird für die Ergebnis-Ausgabe dann auch statt eines “File Output”-Schrittes wiederum ein “Table Output” genutzt, der die ausgehenden Daten wieder auf die Datenbank zurückschreibt.

Bevor wir aber zur Datenbankanbindung kommen, wollen wir heute zunächst noch einen kleinen Exkurs zu dem recht einfach gehaltenen, aber effektiven, “Data Grid”-Schritt machen. Mit dem “Data Grid” können wir eine Liste von Datenwerten direkt in unserer Transformation vorgeben. Dies kann einerseits in der Testphase sehr hilfreich sein, wenn etwa die zu nutzende Datenbank noch nicht angebunden ist oder die entsprechenden Tabellen noch nicht befüllt sind, aber schon Werte für einen Testlauf benötigt werden. Aber auch in produktiven Systemen bietet sich das “Data Grid” immer dann an, wenn konstante und statische Werte, für die eine Auslagerung in externe Tabellen oder Konfigurationsdateien zu aufwändig wäre, für eine Transformation vorgegeben werden sollen.

Der “Data Grid”-Schritt befindet sich im “Input”-Ordner im Spoon-Designer. Er besteht aus zwei Reitern, vereinfacht gesagt werden auf dem ersten Reiter zunächst die Spalten, auf dem zweiten dann die zugehörigen Zeileninhalte des Datensets vorgegeben. Hier im Beispiel werden zunächst die Spalten Vor- und Nachname als String sowie das Alter als Integer-Variable definiert. Für einfache Konstanten würde hier auch eine einzelne Spalte genügen, etwa “data”, “value” oder “constant”.

khdg_grid_meta

Auf dem nächsten Reiter erfolgt dann die Eingabe beliebig vieler Datenzeilen. Die Spalten werden hier bereits automatisch nach unseren eben auf dem ersten Reiter getätigten Angaben vorbenannt.

khdg_grid_data

Unser “Data Grid” ist damit fertig befüllt und für einen ersten Test bereit. Die von uns vorgegebenen Spalten mit ihren Inhalten können nun genauso in Kettle weiterverwendet werden wie Daten aus einer Textdatei oder einer Datenbank.

Das wars auch schon fast für heute. Als Vorbereitung für das nächste How To ziehen wir aber im Designer noch schnell einen “Modified Java Scipt Value”-Schritt hinter unser “Data Grid” und verbinden die beiden Schritte per Mausklick so, dass die Daten des Grids im Java-Code verwendet werden können. Näheres dazu dann im nächsten How-To…

khdg_trafo_script

Mein Kommentar...