Wave me: thomasfriebel @ googlewave . com
Talends Software
Talend Open Studio: Syntax-Fehler schon während des Designs erkennen
29. Okt
Wer viel mit Talend Open Studio oder der Talend Integration Suite arbeitet, wird sich sicherlich manchmal darüber ärgern, dass der ein oder andere syntaktische Fehler beim Parametrisieren der Komponenten erst beim „Ausführen“ bzw. dem zuvor durchgeführten Kompiliervorgang als solcher erkannt wird.
Gerade wenn Jobs mal etwas umfangreicher sind, macht sich dieser Umstand störend bemerkbar, da vom Klick auf „Ausführen“ hin zum Start einige Sekunden ins Land gehen können.
Tatsächlich gibt es aber in den Preferences (oder Benutzervorgaben) im Menü Fenster, die Möglichkeit, das Talend
Studio so zu konfigurieren, dass es schon während der Bearbeitung die Syntaxprüfung durchführt. Diese Option ist im Einstellungsdialog unter „Talend/Performance“ zu finden, und wie hier im Bild rot umrandet, als Checkbox schnell aktiviert. Aber Vorsicht: Talend hat diese Option nicht ohne Grund standardmäßig deaktiviert. Wer also sein Talend Studio auf einer eher gemächlichen Maschine betreibt, sollte sich genau überlegen, ob er diesen Haken setzt. Aber Probieren geht bekanntlich über Studieren.

Ist die Funktion erst mal aktiviert, designed es sich ganz ungeniert.
Wie man in den beiden folgenden Bildern sehr schön erkennen kann, zeigt einem der Job-Designer nun direkt während des Editierens an, ob man Syntaxfehler, Type-Mismatches oder unbekannte Bezeichner verbaut hat.

TMap mit eingeschalter Fehlerprüfung
Hier sehr schön im TMap-Editor zu erkennen, wo die Zelle rot hinterlegt wird, wenn darin ein (Compile-Time-) Fehler enthalten ist.
Das folgende Beispiel zeigt eine Typenunverträglichkeit in einem Feld in den Komponenteneinstellungen. Statt den geforderten Tabellenbezeichner als String einzugeben, hab ich hier aus Versehen einen Integer-Wert 123 eingetragen, was mir der Designer auch direkt mit einer roten Fehlerbox um die Komponente quittiert.

Type-Mismatch Fehler in den Komponenten-Einstellungen
Also, kleine Einstellung, große Wirkung.
Silicon.de berichtet über Talend’s Master Data Management-Engagement
27. Okt
Ludger Schmitz hat auf silicon.de ein 3-seitiges Post zu Talends MDM Initiative geschrieben.
Aus dem Gespräch mit Bertrand Diard hat er dabei so einiges über Talends Positionierung in diesem Markt erfahren. Unter anderem eben auch, dass Talend auch hier, wie schon bei der Datenintegrations- und der Datenqualitätslösung, zweigleisig fahren wird. Es wird eine voll funktionsfähige OS Community Lösung (“TOM”) und einen Business-tauglichen großen Bruder derselben geben.
Bisher nicht bekannt war mir die Open-Source-Lösung “Mural” von Sun, die aber wohl auch eingeschlafen sein soll.
Etwas irritiert hat mich dieser Absatz:
“Der Preis der kommerziellen Version ist noch nicht absehbar. Andere Talend-Lösungen sollen je nach Anwendungsumgebung im Durchschnitt zehn bis 20 Prozent günstiger als proprietäre Angebote sein.”
Ich tendiere doch eher zu der Meinung, dass die anderen Talend-Lösungen eher 10-20% der Kosten für vergleichbare proprietäre Lösungen verursachen. Also deutlich günstiger sind. Allzumal bei Talend die Anzahl der Entwickler, nicht aber die Anzahl der Systeme, CPUs/CPU-Kerne oder Datensätze den Preis bestimmen und somit fest kalkulierbar sind.
Sei’s drum – ein sehr interessanter Post zu Talends Master Data Management Ambitionen und in jedem Fall lesenswert, wie ich finde.
Einführung zu Talend Open Studio
30. Apr
Markus Klimaschewski hat im Entwicklerforum eine bebilderte Dokumentation zu Talend Open Studio verfasst.
Er zeigt darin die ersten Schritte mit TOS anhand vieler Screenshots auf und erklärt grundlegende Funktionen, wenn auch relativ knappgehalten. Aber sicherlich hat sich seine Mühe gelohnt, wenn er damit dem ein oder anderen helfen kann, die ersten Gehversuche mit Talend Open Studio zu bewältigen.
Fazit: Lesenswert für all diejenigen, die einen einfachen (deutschsprachigen) Einstieg in Talend Open Studio benötigen.
Talend Open Studio 3.1 erscheint am 27. April
21. Apr
Die Veröffentlichung von Talend Open Studio 3.1 steht kurz bevor. Um ganz sicher zu gehen, dass die neue Version möglichst wenige Fehler enthält, ruft Talend alle Benutzer auf, den aktuellen RC3 von TOS herunterzuladen und auf Herz und Nieren zu testen. Um auch den letzten Zögerer zu überzeugen, erhalten die 5 fleissigsten Betatester einen 50-Dollar-Amazon-Gutschein sowie ein Talend T-Shirt. Wenn das nicht ansporn genug ist…
Am 27. April wird dann Version 3.1 veröffentlicht.
Und was gibt es neues in Version 3.1?
Um es auf den Punkt zu bringen: einiges. Und um nicht alles in eigenen Worten wiedergeben zu müssen, hier die Liste, so wie sie von Talend gestern per Newsletter bekannt gegeben wurde:
- New tool to search your job designs
- Complex files with multiple schemas (all lines don’t have the same schema)<
- Create your own palette with your favorite components
- A Perl distribution was embedded for Windows users
- Translations from our great Community were integrated from the
- Babili portal: French, German, Spanish, Italian, Brazilian, Chinese, Japanese, Russian, Korean; Thanks to all our translators!
- CopyBook to read EBCDIC format
- JBossESB support
- IMAP connector
- Bulk insert to Sybase IQ
- SalesForce custom module connector and connection through proxy
- Alfresco support
- Share a database connection between 2 jobs
- Create an XML field within a data flow
- Read and write *.properties files
- Define an XML file schema using its XSD
- Connect to any AS400 version
- Change columns into rows within a data flow
- Reload the lookup data for each line being processed in the main data flow of the tMap component (optional)
- und dann natürlich noch eine Vielzahl kleinerer und größerer Bugfixes
Ich denke mal, das Warten hat sich gelohnt. Und jetzt hopp, hopp!!! RC3 runterladen
Wöchentliche Talend-Retrospection (4)
06. Apr
Auch in der letzten Woche gab es wieder ein paar News zu Talend. Die will ich hier kurz zusammengefasst wiedergeben.
Pressemitteilungen zu Talend
Via Pressemitteilung wurde bekanntgegeben, dass SupplyFrame Talend zur Datenintegration einsetzen wird. SupplyFrame, eine auf die Elektroindustrie zugeschnittene Online-Anzeigenplattform, wird seine bisher selbstgeschriebenen Integrationslösungen durch eine Talend Integration Suite ersetzen.
Virgin Money Giving, eine Finanzgruppe der britischen Virgin Group, verwendet Talend Integration Suite für Integrationsprozesse. Virgin Money Giving hat sich aus der Fülle der ETL-Tools Talend ausgesucht, weil dieses für die anstehenden Realtime-Aufgaben bestens gewappnet ist und durch sein OS-Lizenzmodell perfekt in die Non-Profit-Philosophie passt. Nachzulesen ist die Pressemitteilung vom 02.04. hier: Virgin Money Giving goes the distance with Talend
Roadshows sind voller Erfolg
Weltweit haben die Talend Roadshows, kleine Trainingsveranstaltungen für den Erstkontakt mit Talend Open Studio, mehr als 1000 interessierte Anwender besucht. Auch hier in Deutschland sind die Veranstaltungen, die ich zum Teil selbst als Coach abhalte, ein große Erfolg. Der Businesswire berichtete am 31. März darüber. Die nächsten Roadshow können übrigens in meinem Talend-Event-Kalender eingesehen werden.
Talend Open Profiler V3.1 RC1 released
Der ReleaseCandidate 1 wurde am 01.04. zum Download bereitgestellt. Details findet man dazu sowohl auf der Talend-Homepage als auch auf Freshmeat.net.
Talend Open Studio 3.0.4 seit gestern verfügbar
19. Mrz
Am 18. März wurde die Version 3.0.4 von Talend Open Studio veröffentlicht.
Diese Release beinhaltet überwiegend Bugfixes und Optimierungen. Herunterladen lässt sich TOS 3.0.4 entweder als Windows (32-Bit)-Setup oder als All-Inclusive-Archiv mit den Binaries für Win, Linux und Mac auf der Talend-Download-Seite.
Die vollständige Liste der Änderungen und Korrekturen kann man im Talend Change-Log nachlesen.

Glossar: ETL (Extract-Transform-Load)
16. Mrz
Unter ETL (Extract,Transform and Load oder Extrahieren, Transformieren und Laden) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu extrahieren, diese entsprechend aufzubereiten (transformieren) und anschließend in ein Zielsystem zu laden.
Extract
Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein Data Warehouse (DWH) oder in ein anderes Zielsystem ist es notwendig, auf die heterogene Datenlandschaft zugreifen zu können, und die Informationen in die Transformationsprozesse einfliessen zu lassen.Transform
Die Transformation der Daten kann beispielsweise eine reine Zusammenführung der Daten sein. Bestelldaten eines Kunden, wie die im Webshop hinterlegte Lieferadresse, werden mit den Kontaktdaten des Kunden aus dem CRM zusammengeführt. Transformation kann aber auch wesentlich mehr bedeuten. Eine Bereinigung und Aufbereitung (Cleansing) der Daten kann z.B. im Transformationsprozess stattfinden. Man stelle sich z.B. einen Kundendatensatz vor, bei dem das Geschlecht bzw. die Anrede (Herr, Frau) nicht definiert ist. Aufgrund des Vornamens liese sich diese Informationen aber durch Lookups in entsprechenden Namenslisten vervollständigen, zumindest in einem Großteil der Fälle. Bleiben wir beim Geschlechtermerkmal: Herr, m , Mann, male, männlich, 1 oder 0 – das sind alles Varianten der gleichen Information. Diese werden im Transformationsprozess bereinigt, so dass am Ende die Geschlechtertrennung mit 2 Werten erfolgen kann: männlich oder weiblich, 0 oder 1, m oder w, usw..
Load
Mit dem Laden ist das Befüllen eines Zielsystems gemeint. Oftmals sind das Data Warehouses oder Data Marts. Aber auch ein Excelsheet oder eine CSV-Datei sind mögliche Ausgabeziele.
ETL kann und wird auch in sehr vielen Fällen durch reine Programmierung erfolgen. Ein oder mehrere Entwickler schreiben entsprechende Programme und Skripts. Dies kann aber schnell, insbesondere natürlich bei aufwendigen Systemgegebenheiten, wie z.B. viele (unterschiedliche) Quellen, komplexe, sich häufig verändernte Transformationen oder auch unterschiedlichen Ausgabezielen, sehr aufwendig, kostenintensiv und fehleranfällig werden.
Daher gibt es mittlerweile eine Vielzahl von Produkten, teils integriert in die kommerziellen BI-Lösungen, als auch als Open Source-Software. Unter die letzte Gruppe fällt eben auch Talend Open Studio. Diese Software hilft dabei, die ETL-Prozesse, meist durch grafische Entwicklungsumgebungen, leicht umsetzen, warten und verteilen zu können.
Ich habe mal eine (recht überschaubare) Liste von ETL-Software zusammengestellt.

Datenqualität in Textfeldern mit RegExp überprüfen
13. Mrz
Einen interessanten Ansatz, um Texteingaben nach bewussten Falscheingaben zu durchsuchen, hat mein Kollege Sebastiao in seinem Blog veröffentlicht.
Er macht sich dabei eine sehr interessante Tatsache zu nutze – das Tastatur-Layout.
Die Problemstellung kennen sicherlich einige Web-Programmierer:
Der Besucher der Website soll, bevor er z.B. ein Whitepaper oder ein Programm herunterladen kann, möglichst viel über sich und sein Unternehmen preisgeben. Je besser diese Informationen sind, desto leichter kann das Marketing diese im Anschluss verwerten.
Nun hat nicht jeder Besucher Lust, von einem Vertriebler angeschrieben oder angerufen zu werden, denn diese könnenn ja oftmals sehr hartnäckig sein. Dummerweise sind immer einige Felder als Pflichtfelder gekennzeichnet, ohne deren Befüllung man einfach nicht weiter zum gewünschten Ziel kommt.
Ablösung schafft das Eingeben von “irgendwas”, hauptsache, das Feld enthält Text, und der Weiter-Link funktioniert endlich.
Um den Vertrieb nicht unnötig mit solchen Pseudo-Adressen zu quälen, sollten diese schnellstmöglich wieder aus dem CRM oder der Datenbank entfernt werden.
Nur, wie soll man diese denn automatisiert von guten Eingaben unterscheiden?
Sebastio bedient sich dabei Regular Expressions. Und wie soll das nun von statten gehen?
Ganz einfach, wenn man davon ausgeht, dass auf Grund des Layouts der Tastatur, also der Anordnung der Tasten, die meisten Eingaben aus zufälligen Konsonantenketten bestehen.
Man kann das sehr gut bei sich selbst beobachten. Die Zeigefinger liegen bei mir zum Beispiel immer auf der mittleren Buchstaben reihe. Linke Hand auf dem F, rechte Hand auf dem H.
Wenn ich eben mal “Blödsinn” eingeben möchte, dann drücke ich einfach meiner Finger der Reihe nach auf die darunterliegenden Tasten. Und das sind dann eben lauter Konsonanten, denn die Vokale befinden sich alle, bis auf das A, in der ersten Buchstabenreihe.
Tatsächlich ist es beim französischen Layout sogar wirklich so, dass alle Vokale ausschließlich in der ersten Zeile liegen.
Die RegExp von Sebastiao würde ich daher für deutsche Benutzer ein wenig umändern, so dass auch mal ein A in einem Wust von Konsonanten, aus der mittleren Zeile auftauchen darf.
Eine solche Regel ist natürlich auch nicht auf den Talend Open Profiler beschränkt, man kann diese genauso in PHP oder Perl oder sonstwo einsetzen.

Talend kürt die Besten
11. Mrz
Wie im letzten Jahr, so gibt es auch dieses Jahr wieder einen Talend Award zu gewinnen.
Teilnehmen kann jeder, der mit einem der Talend-Produkte (TOS, TIS, TOP, TDQ und TOD) eine besondere Lösung erstellt hat.
Klar, etwas besonderes sollte es schon sein. Also, ein einfaches Auslesen von CSV-Dateien und Erzeugen von Excel-Sheets dürfte nicht ausreichen.
Es werden drei Kategorien unterschieden:
- beste technische Realisierung
- bester ROI / Geschäftsnutzen
- beste Performance
Wer also meint, sich mit seinem Projekt einen iPod Touch verdient zu haben, der sollte sein Projekt bis zum 31. März einreichen. Ganz nebenbei, werden die Gewinner in einer Pressemitteilung genannt und erhalten Extra-Benefit von Talend, wie z.B. vorzeitigen Einblick in die Roadmaps.
Die Gewinner werden dann im April bekannt gegeben.
Also, hopp, hopp! Los geht’s!

SAP – oder wie ich total entnervt das Büro verlies
11. Mrz
Okay, den Frust muss ich loswerden – und da bietet sich das eigene Blog ja geradezu an.
Nachdem Talend Open Studio ja (un)glücklicherweise SAP-Konnektoren enthält, ist nun heute der Tag gekommen, an dem ich mich nicht mehr davor verstecken konnte, diese auch mal einzusetzen.
Mal abgesehen davon, dass die Komponenten noch durchaus Potenzial zur Verbesserung haben, bin ich total entsetzt darüber, dass all die Klischees und Vorurteile, die ich in all meinen Jahren als Entwickler über SAP gehört, gelesen und geglaubt hatte, noch bei Weitem übertroffen wurden.
Gut, es scheint sich bei SAP R/3, NetWeaver 7.0 mehr um ein Betriebssystem als um eine Applikation zu handeln. Zumindest erweckt die Fülle an ABAP, BABIS, RFC, Objekten und Dingensen diesen Eindruck. Aber das reicht mir eigentlich nicht als Entschuldigung für die Eigenarten, mit denen SAP daherkommt.
Ich meine zu wissen, dass SAP nun schon einige Jahre (mehr als 25 oder so) auf dem Buckel hat. Damals gabs noch kein Windows (Vista), logisch. Aber wäre es denn nicht möglich gewesen, das GUI irgendwann mal an Windows-Standardcontrols anzupassen?
Die Bedienung der Dialoge, Menüs und Eingabecontrols ist so was von… naja, besch***en trifft’s wohl am besten.
Ich habe heute seitenweise zur Programmierung in ABAP gelesen. Ich glaube, ich habe mir nichts merken können.
Immerhin ist es mir gelungen, über eine vorhandene BAPI alle im SAP hinterlegten Währungen in Talend auszulesen. Morgen ist der Tag, an dem ich mal die tSAPOutput-Komponente probieren werde – ich will ja auch was nach SAP pumpen können.
Immerhin verstehe ich jetzt, warum SAP-Berater so gut bezahlt werden: Der Stundensatz unterscheidet sich gar nicht von einem normalen Software-Berater; es gibt jedoch noch einen Aufschlag obendrauf: Schmerzensgeld.

