Wave me: thomasfriebel @ googlewave . com
Beiträge getaggt mit Talend
tApacheLogInput: Apache Logfiles in TOS einlesen
12. Nov
Der einfachste Weg, um standardformatierte Log-Files des Apache HTTP-Servers in einem Talend-Job einzulesen, ist es die Komponenten tApacheLogInput zu verwenden.
tApacheLogInput geht davon aus, dass das Logfile in dem Format vorliegt, in welchem Apache HTTP es standardmäßig erzeugt. Sobald man an der Konfiguration der Logfile-Generierung seitens Apaches Änderungen vornimmt, ist die Kompontene tApacheLogInput nicht mehr zu verwenden. Dann heißt es, mit tFileInputPositional die Struktur nachzubauen.
Das Standard-Schema der Komponente tApacheLogInput sieht wie hier dargestellt aus und ist nicht veränderbar.
Einzustellen gibt es bei dieser Komponente nicht all zu viel. Lediglich der Pfad zum Logfile muss entsprechend angepasst werden.Optional kann die Job-Ausführung auch abgebrochen werden, sobald ein Eintrag im Logfile nicht dem Schema entspricht bzw. das Logfile nicht gelesen werden kann.
Sind die Daten des Apache Logfiles erstmal im Job, dann kann man damit ganz normal verfahren. Zum Beispiel liesse sich über die Spalte agent herausfinden, ob der Eintrag von einem normalen Website-Besucher oder aber von einem der vielen Robots und Spider (wie googlebot, googleadsense, yahooslurp!, etc.) stammt.
Possibly related posts: (automatically generated)
- Related posts on apache
- GET DOWN TONIGHT – Setting up a basic web server using Ubuntu 9.10 …
- Young guns and surprise guests turn Firebird Raceway into an …
- Related posts on howto
- How to configure Grub2 in Ubuntu 9.10 | Linuxers | Crazy Crispy’s Blog
TecChannel berichtet über Open Source BI-Tools
30. Okt
Dr. Klaus Manhart hat am 10. Oktober einen 12-Seitigen Artikel “Kostenlose Open Source BI-Tools und -Suiten“ auf TecChannel veröffentlicht.
Darin durchleuchtet er alle relevantent BI-Tools aus dem Open Source-Umfeld, wie z.B. JasperSoft, Pentaho, Kettle, Talend Open Studio, Palo oder Weka.
Wer sich also einen schnellen Überblick verschaffen möchte, sollte den Artikel durchlesen.
Talend Open Studio: Syntax-Fehler schon während des Designs erkennen
29. Okt
Wer viel mit Talend Open Studio oder der Talend Integration Suite arbeitet, wird sich sicherlich manchmal darüber ärgern, dass der ein oder andere syntaktische Fehler beim Parametrisieren der Komponenten erst beim „Ausführen“ bzw. dem zuvor durchgeführten Kompiliervorgang als solcher erkannt wird.
Gerade wenn Jobs mal etwas umfangreicher sind, macht sich dieser Umstand störend bemerkbar, da vom Klick auf „Ausführen“ hin zum Start einige Sekunden ins Land gehen können.
Tatsächlich gibt es aber in den Preferences (oder Benutzervorgaben) im Menü Fenster, die Möglichkeit, das Talend
Studio so zu konfigurieren, dass es schon während der Bearbeitung die Syntaxprüfung durchführt. Diese Option ist im Einstellungsdialog unter „Talend/Performance“ zu finden, und wie hier im Bild rot umrandet, als Checkbox schnell aktiviert. Aber Vorsicht: Talend hat diese Option nicht ohne Grund standardmäßig deaktiviert. Wer also sein Talend Studio auf einer eher gemächlichen Maschine betreibt, sollte sich genau überlegen, ob er diesen Haken setzt. Aber Probieren geht bekanntlich über Studieren.

Ist die Funktion erst mal aktiviert, designed es sich ganz ungeniert.
Wie man in den beiden folgenden Bildern sehr schön erkennen kann, zeigt einem der Job-Designer nun direkt während des Editierens an, ob man Syntaxfehler, Type-Mismatches oder unbekannte Bezeichner verbaut hat.

TMap mit eingeschalter Fehlerprüfung
Hier sehr schön im TMap-Editor zu erkennen, wo die Zelle rot hinterlegt wird, wenn darin ein (Compile-Time-) Fehler enthalten ist.
Das folgende Beispiel zeigt eine Typenunverträglichkeit in einem Feld in den Komponenteneinstellungen. Statt den geforderten Tabellenbezeichner als String einzugeben, hab ich hier aus Versehen einen Integer-Wert 123 eingetragen, was mir der Designer auch direkt mit einer roten Fehlerbox um die Komponente quittiert.

Type-Mismatch Fehler in den Komponenten-Einstellungen
Also, kleine Einstellung, große Wirkung.
@Talend twittert nun aktiv mit
10. Jun
Seit kurzem ist nun auch @talend fleissig auf Twitter aktiv. Egal, ob wir dort Webinare bewerben, News veröffentlichen oder mit Interessierten aktiv kommunizieren - @talend tweets.
Also, hier mein Aufruf an alle: Werdet follower !
Mir kann man übrigens hier followen: @ThomasFriebel
Talend Roadshow in Lissabon
15. Mai
In eigener Sache:
Am Dienstag, dem 19. Mai, findet die Talend Roadshow in Lissabon (9-12Uhr) statt – die ich halten werde. Wer also zufällig gerade in Lissabon unterwegs ist, und sich in einem 3-Stündigen Workshop mal mit Talend Open Studio auseinandersetzen möchte, der sollte sich noch schnell anmelden: www.talend.com
Ansonsten wünsche ich mir schönes Wetter und einen Guten Flug
Wöchentliche Talend-Retrospection (4)
06. Apr
Auch in der letzten Woche gab es wieder ein paar News zu Talend. Die will ich hier kurz zusammengefasst wiedergeben.
Pressemitteilungen zu Talend
Via Pressemitteilung wurde bekanntgegeben, dass SupplyFrame Talend zur Datenintegration einsetzen wird. SupplyFrame, eine auf die Elektroindustrie zugeschnittene Online-Anzeigenplattform, wird seine bisher selbstgeschriebenen Integrationslösungen durch eine Talend Integration Suite ersetzen.
Virgin Money Giving, eine Finanzgruppe der britischen Virgin Group, verwendet Talend Integration Suite für Integrationsprozesse. Virgin Money Giving hat sich aus der Fülle der ETL-Tools Talend ausgesucht, weil dieses für die anstehenden Realtime-Aufgaben bestens gewappnet ist und durch sein OS-Lizenzmodell perfekt in die Non-Profit-Philosophie passt. Nachzulesen ist die Pressemitteilung vom 02.04. hier: Virgin Money Giving goes the distance with Talend
Roadshows sind voller Erfolg
Weltweit haben die Talend Roadshows, kleine Trainingsveranstaltungen für den Erstkontakt mit Talend Open Studio, mehr als 1000 interessierte Anwender besucht. Auch hier in Deutschland sind die Veranstaltungen, die ich zum Teil selbst als Coach abhalte, ein große Erfolg. Der Businesswire berichtete am 31. März darüber. Die nächsten Roadshow können übrigens in meinem Talend-Event-Kalender eingesehen werden.
Talend Open Profiler V3.1 RC1 released
Der ReleaseCandidate 1 wurde am 01.04. zum Download bereitgestellt. Details findet man dazu sowohl auf der Talend-Homepage als auch auf Freshmeat.net.
iX vergleicht Pentaho DI und Talend Open Studio
27. Mrz
Im Computermagazin iX vom heise Verlag, in der Ausgabe 04/2009, vergleicht der Autor Frank Pientka die beiden Open Source ETL-Tools PDI und TOS.
Talend schneidet in dem Artikel sehr gut ab. Das liegt sicherlich auch daran, das Talend sich beinahe ausschließlich auf ETL (also Extract-Transform-Load) konzentriert, während Pentaho den kompletten BI-Stack bedient.
Gerade das Handling der Metadaten, sowie die Vielzahl von Konnektoren und Komponenten ist nach Ansicht des Autors eine klare Stärke von Talend Open Studio.
Zu finden ist der Artikel übrigens auf den Seiten 100 bis 102.

Wöchentliche Talend-Retrospection (2)
22. Mrz
Auch in der vergangenen Woche gab es wieder einige News und Pressemitteilungen rund um Talend.
Zum einen hätten wir da ein Interview mit Yves de Montcheuil, VP of Marketing, und Dashboard Insight. Darin erzählt Yves mal wieder, wie das Geschäftsmodell hinter Talend aussieht und was Open Source-Software für Veränderungen im BI-Umfeld zur Zeit bewirkt.
Ausserdem wurde die Technologie-Partnerschaft zwischen Experian QAS und Talend bekanntgegeben. Experian QAS stellen Adressvalidierungsmechanismen bereit, mit deren Hilfe Talend Data Quality und Talend Open Profile leistungsfähiger gemacht werden soll.
Eine weitere Partnerschaft, diesmal mit Acxius Strategic Consulting, wurde ebenfalls bekannt gemacht. Der Artikel wurde auf informationengineer.com veröffentlicht und kann hier nachgelesen werden.
ETL-Benchmark
Ausserdem bin ich in Xing, in der Gruppe ETL, auf einen Diskussionstrang gestossen, der sich mit dem Thema Benchmark von ETL-Software befasst. Darin ist ein gewisses Misstrauen gegenüber dem Manapps-Benchmark, den ich bereits vor einigen Wochen mal hier gepostet hatte, auszumachen. Sicherlich kann man davon ausgehen, dass derjenige der diesen Benchmark durchgeführt hat, so manche Tools besser beherrscht, als manch andere. Daher kann ich mir schon durchaus vorstellen, dass der Benchmark nicht 100%ig optimal gelaufen ist (vor allem für die, die schlecht abgeschnitten hatten).
In diesem Zusammenhang bin ich dann auch noch auf folgendes Post und seine interessante Diskussion gestoßen: Vincent McBurney: Was the ETL Benchmark Test Flawed or Biased?
In dieser Sache bin ich natürlich voreingenommen und halte mich mit meiner Meinung zurück, aber es sollte sich jeder selbst durchlesen.
Das war die vergangene Woche kurz zusammengefasst.

Tutorial: Eigene Talend-Komponenten entwickeln (Teil 1)
17. Mrz
Es gibt zwei Möglichkeiten, eigene Komponenten für Talend Open Studio bzw. Talend Integration Suite zu entwickeln.
Die erste – dass ist die, welche ich bisher selbst angewandt hatte – sieht wie folgt aus:
Besser ist der zweite, der einzig richtige Weg:
Die Talend-Entwicklungsabteilung versucht der Community nämlich soweit wie möglich, bei der Erstellung neuer Komponenten entgegen zu kommen. Dafür wurde die Component Designer-Perspektive in Talend eingebaut.

Der Komponenten-Designer zeigt die, in Entwicklung befindlichen, Komponenten als Ordnerstrukur an. Es gibt ausserdem noch einen Wizard zum Erstellen neuer Komponenten, auf den ich weiter unten noch einmal eingehen werden.
Damit man diese Perspektive sinnvoll verwenden kann, sind ein paar Einstel
lungen nötig.
Zuerst muss man in den Preferences “Talend Component Designer” öffnen, und ein Entwicklungsverzeichnis festlegen. Dieses sollte ausserhalb der TIS/TOS-Installation liegen. Somit kann man seine Arbeiten problemlos sichern oder in einem SVN-Repository verwalten.
Anschliessend sollte man, ebenfalls in den Preferences unter “Talend”/”Components”, ein Deployment-Verzeichnis für selbstentwickelte Komponenten angeben. Dieses Verzeichnis kann auch ein Verzeichnis innerhalb Talends sein, aber darf auch gerne extern liegen. Alle Komponenten in diesem Verzeichnis erscheinen in der Komponentenpalette, so dass man sie gleich ausprobieren kann.

Wenn man nun alle Einstellungen vorgenommen hat, dann kann man in die Component Designer-Perspektive wechseln.

Hier hat man nun die Wahl, ob man eine neue Komponente von Grund auf erstellen, oder eine Bestehende als Vorlage verwenden möchte.
Dazu braucht man nur einen Rechts-Klick auf das COMPONENT_PROJECT im Designer tätigen.
Zum Erstellen einer komplett neuen Komponente einfach auf “New/New Component” gehen. Es öffnet sich der Wizard.
Jetzt kann man anfangen, seine Komponente zu entwickeln.
Die Programmierung von Komponenten soll nicht teil dieses Tutorials sein, deshalb hebe ich mir das für einen weiteren Post auf.
Hat man dann also seine Komponente programmiert, braucht man nur noch zu wissen, wie man diese wieder zurück in die Palette bekommt:
Einfach Rechts-Klick auf Ordner der Komponente und “Push components to palette” aus dem Kontextmenü. Damit wird die Komponente aus dem Entwickler-Verzeichnis in das Deployment-Verzeichnis übertragen und die komplette Palette neu geladen. Die Komponente befindet sich nun in der Palette und kann benutzt werden.
Das ist der erste Teil einer Tutorial-Reihe, deren Umfang ich im Moment selbst noch nicht abschätzen kann. Aber es wird sicherlich noch einiges kommen.

Wöchentliche Talend-Retrospection
15. Mrz
Weil Talend zur Zeit auf sehr vielen News und Press-Release-Seiten und Fachportalen auftaucht, habe ich mich dazu entschlossen, in Zukunft nicht mehr jeden Link einzelnen zu posten. Stattdessen gibt es ab sofort den Talend-Wochenrückblick:
Los geht’s mit den News-Artikel zum neuesten Whitepaper von Bloor Research:
Darüber hat heise gleich an mehreren Stellen berichtet:
- Heise Developer: Quelloffene-Datenintegrationssoftware-ergaenzt-proprietaere-Loesungen
- H-Open (in Englisch): open source integration software complements proprietary solutions
Auch auf silicon.de gab es einen entsprechenden Artikel:
Ausserdem ist die Firma TecSysCom Ltd. ab sofort Talend Gold-Partner. Die entsprechende Presse-Mitteilung:
Und unter den Punkt “Olle Kamellen” fällt dieser Artikel auf prlog.org, der sich auf die Beurteilung Talend Open Studios durch infoworld.com im Dezember 2008 bezieht:
Das waren mal die Links für diese Woche.

