Wave me: thomasfriebel @ googlewave . com
ETL
TecChannel berichtet über Open Source BI-Tools
30. Okt
Dr. Klaus Manhart hat am 10. Oktober einen 12-Seitigen Artikel “Kostenlose Open Source BI-Tools und -Suiten“ auf TecChannel veröffentlicht.
Darin durchleuchtet er alle relevantent BI-Tools aus dem Open Source-Umfeld, wie z.B. JasperSoft, Pentaho, Kettle, Talend Open Studio, Palo oder Weka.
Wer sich also einen schnellen Überblick verschaffen möchte, sollte den Artikel durchlesen.
Der TalendOpenStudio-Foundation-Training-Marathon
15. Okt
Bis zum Jahresende finden ab dem 27. Oktober deutschlandweit und wöchentlich, dreitägige Foundation-Trainings zu Talend Open Studio statt. Die einzelnen Termine und Veranstaltungsorte können in meinem Talend-Event-Kalender nachgeschlagen werden.
Im Foundation Training bekommt man das grundlegende Rüstzeug, um mit TOS erfolgreich eigene ETL- und Integrationsprojekte stemmen zu können. Angefangen bei der Installation, über die Bedienung der Oberfläche, über die Verwendung der einzelnen Komponenten, über das Deployment hin zum Debugging von Jobs erfährt man alles Notwendige, um mit Talend schnell ans Ziel zu kommen.
Anmelden kann man sich durch Download und Unterschrift des Anmeldeformular-PDFs.
iX vergleicht Pentaho DI und Talend Open Studio
27. Mrz
Im Computermagazin iX vom heise Verlag, in der Ausgabe 04/2009, vergleicht der Autor Frank Pientka die beiden Open Source ETL-Tools PDI und TOS.
Talend schneidet in dem Artikel sehr gut ab. Das liegt sicherlich auch daran, das Talend sich beinahe ausschließlich auf ETL (also Extract-Transform-Load) konzentriert, während Pentaho den kompletten BI-Stack bedient.
Gerade das Handling der Metadaten, sowie die Vielzahl von Konnektoren und Komponenten ist nach Ansicht des Autors eine klare Stärke von Talend Open Studio.
Zu finden ist der Artikel übrigens auf den Seiten 100 bis 102.

Wöchentliche Talend-Retrospection (2)
22. Mrz
Auch in der vergangenen Woche gab es wieder einige News und Pressemitteilungen rund um Talend.
Zum einen hätten wir da ein Interview mit Yves de Montcheuil, VP of Marketing, und Dashboard Insight. Darin erzählt Yves mal wieder, wie das Geschäftsmodell hinter Talend aussieht und was Open Source-Software für Veränderungen im BI-Umfeld zur Zeit bewirkt.
Ausserdem wurde die Technologie-Partnerschaft zwischen Experian QAS und Talend bekanntgegeben. Experian QAS stellen Adressvalidierungsmechanismen bereit, mit deren Hilfe Talend Data Quality und Talend Open Profile leistungsfähiger gemacht werden soll.
Eine weitere Partnerschaft, diesmal mit Acxius Strategic Consulting, wurde ebenfalls bekannt gemacht. Der Artikel wurde auf informationengineer.com veröffentlicht und kann hier nachgelesen werden.
ETL-Benchmark
Ausserdem bin ich in Xing, in der Gruppe ETL, auf einen Diskussionstrang gestossen, der sich mit dem Thema Benchmark von ETL-Software befasst. Darin ist ein gewisses Misstrauen gegenüber dem Manapps-Benchmark, den ich bereits vor einigen Wochen mal hier gepostet hatte, auszumachen. Sicherlich kann man davon ausgehen, dass derjenige der diesen Benchmark durchgeführt hat, so manche Tools besser beherrscht, als manch andere. Daher kann ich mir schon durchaus vorstellen, dass der Benchmark nicht 100%ig optimal gelaufen ist (vor allem für die, die schlecht abgeschnitten hatten).
In diesem Zusammenhang bin ich dann auch noch auf folgendes Post und seine interessante Diskussion gestoßen: Vincent McBurney: Was the ETL Benchmark Test Flawed or Biased?
In dieser Sache bin ich natürlich voreingenommen und halte mich mit meiner Meinung zurück, aber es sollte sich jeder selbst durchlesen.
Das war die vergangene Woche kurz zusammengefasst.

ETL und ELT – Pro und Contra Listen
16. Mrz
Ich bin im b-eye-network soeben über einen (zwar schon etwas älteren aber) sehr interessanten Post zum Thema ETL und ELT gestoßen. Auch wenn ich heute im BI Glossar erstmal nur ETL vorgestellt habe, möchte ich diesen Post von Dan E. Linstead nicht für mich behalten: ELT and ETL – candit view on pros and cons.
Er stellte darin ETL und ELT einander gegenüber und zeigt die jeweiligen Argumente dafür und dagegen auf. ETL kommt dabei nicht ganz so gut weg. Ich frag mich nur, ob sich da seine Meinung von damals zu heute wieder ein wenig geändert hat.
Glossar: ETL (Extract-Transform-Load)
16. Mrz
Unter ETL (Extract,Transform and Load oder Extrahieren, Transformieren und Laden) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu extrahieren, diese entsprechend aufzubereiten (transformieren) und anschließend in ein Zielsystem zu laden.
Extract
Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein Data Warehouse (DWH) oder in ein anderes Zielsystem ist es notwendig, auf die heterogene Datenlandschaft zugreifen zu können, und die Informationen in die Transformationsprozesse einfliessen zu lassen.Transform
Die Transformation der Daten kann beispielsweise eine reine Zusammenführung der Daten sein. Bestelldaten eines Kunden, wie die im Webshop hinterlegte Lieferadresse, werden mit den Kontaktdaten des Kunden aus dem CRM zusammengeführt. Transformation kann aber auch wesentlich mehr bedeuten. Eine Bereinigung und Aufbereitung (Cleansing) der Daten kann z.B. im Transformationsprozess stattfinden. Man stelle sich z.B. einen Kundendatensatz vor, bei dem das Geschlecht bzw. die Anrede (Herr, Frau) nicht definiert ist. Aufgrund des Vornamens liese sich diese Informationen aber durch Lookups in entsprechenden Namenslisten vervollständigen, zumindest in einem Großteil der Fälle. Bleiben wir beim Geschlechtermerkmal: Herr, m , Mann, male, männlich, 1 oder 0 – das sind alles Varianten der gleichen Information. Diese werden im Transformationsprozess bereinigt, so dass am Ende die Geschlechtertrennung mit 2 Werten erfolgen kann: männlich oder weiblich, 0 oder 1, m oder w, usw..
Load
Mit dem Laden ist das Befüllen eines Zielsystems gemeint. Oftmals sind das Data Warehouses oder Data Marts. Aber auch ein Excelsheet oder eine CSV-Datei sind mögliche Ausgabeziele.
ETL kann und wird auch in sehr vielen Fällen durch reine Programmierung erfolgen. Ein oder mehrere Entwickler schreiben entsprechende Programme und Skripts. Dies kann aber schnell, insbesondere natürlich bei aufwendigen Systemgegebenheiten, wie z.B. viele (unterschiedliche) Quellen, komplexe, sich häufig verändernte Transformationen oder auch unterschiedlichen Ausgabezielen, sehr aufwendig, kostenintensiv und fehleranfällig werden.
Daher gibt es mittlerweile eine Vielzahl von Produkten, teils integriert in die kommerziellen BI-Lösungen, als auch als Open Source-Software. Unter die letzte Gruppe fällt eben auch Talend Open Studio. Diese Software hilft dabei, die ETL-Prozesse, meist durch grafische Entwicklungsumgebungen, leicht umsetzen, warten und verteilen zu können.
Ich habe mal eine (recht überschaubare) Liste von ETL-Software zusammengestellt.

Datenqualität in Textfeldern mit RegExp überprüfen
13. Mrz
Einen interessanten Ansatz, um Texteingaben nach bewussten Falscheingaben zu durchsuchen, hat mein Kollege Sebastiao in seinem Blog veröffentlicht.
Er macht sich dabei eine sehr interessante Tatsache zu nutze – das Tastatur-Layout.
Die Problemstellung kennen sicherlich einige Web-Programmierer:
Der Besucher der Website soll, bevor er z.B. ein Whitepaper oder ein Programm herunterladen kann, möglichst viel über sich und sein Unternehmen preisgeben. Je besser diese Informationen sind, desto leichter kann das Marketing diese im Anschluss verwerten.
Nun hat nicht jeder Besucher Lust, von einem Vertriebler angeschrieben oder angerufen zu werden, denn diese könnenn ja oftmals sehr hartnäckig sein. Dummerweise sind immer einige Felder als Pflichtfelder gekennzeichnet, ohne deren Befüllung man einfach nicht weiter zum gewünschten Ziel kommt.
Ablösung schafft das Eingeben von “irgendwas”, hauptsache, das Feld enthält Text, und der Weiter-Link funktioniert endlich.
Um den Vertrieb nicht unnötig mit solchen Pseudo-Adressen zu quälen, sollten diese schnellstmöglich wieder aus dem CRM oder der Datenbank entfernt werden.
Nur, wie soll man diese denn automatisiert von guten Eingaben unterscheiden?
Sebastio bedient sich dabei Regular Expressions. Und wie soll das nun von statten gehen?
Ganz einfach, wenn man davon ausgeht, dass auf Grund des Layouts der Tastatur, also der Anordnung der Tasten, die meisten Eingaben aus zufälligen Konsonantenketten bestehen.
Man kann das sehr gut bei sich selbst beobachten. Die Zeigefinger liegen bei mir zum Beispiel immer auf der mittleren Buchstaben reihe. Linke Hand auf dem F, rechte Hand auf dem H.
Wenn ich eben mal “Blödsinn” eingeben möchte, dann drücke ich einfach meiner Finger der Reihe nach auf die darunterliegenden Tasten. Und das sind dann eben lauter Konsonanten, denn die Vokale befinden sich alle, bis auf das A, in der ersten Buchstabenreihe.
Tatsächlich ist es beim französischen Layout sogar wirklich so, dass alle Vokale ausschließlich in der ersten Zeile liegen.
Die RegExp von Sebastiao würde ich daher für deutsche Benutzer ein wenig umändern, so dass auch mal ein A in einem Wust von Konsonanten, aus der mittleren Zeile auftauchen darf.
Eine solche Regel ist natürlich auch nicht auf den Talend Open Profiler beschränkt, man kann diese genauso in PHP oder Perl oder sonstwo einsetzen.

Umfrage: Open Source in der Datenintegration
10. Mrz
Der it-administrator berichtet in einem Artikel über die Ergebnisse einer, von Talend durchgeführten, Umfrage zum Thema OS in der Datenintegration.
Im Artikel Open Source in der Datenintegration wird das Ergebnis der Studie kurz zusammengefasst wiedergegeben. Das Papier lässt sich natürlich auch vollständig von der Talend-Website herunterladen.
Die Einordnung des Artikels in den Bereich Client/Server ist für mich nicht direkt nachvollziehbar, aber vielleicht liegt es daran, dass einfach eine Rubrik “Software” oder “Daten” fehlt.
Jedenfalls kurz zusammengefasst: Von 1000 Befragten nutzen rund 30% zusätzlich zu den Kommerziellen, die ihnen zur Verfügung stehen auch noch Open-Source Programme, um Aufgaben überhaupt oder aber effizienter erledigen zu können.
Um’s Geld (für Lizenzkosten) scheint es dabei den wenigsten Anwendern zu gehen. Viel wichtiger scheinen Leistungsfähigkeit und Herstellerunabhängigkeit (gegenüber proprietären Lösungen) zu sein.
Die weiteren Zahlen will ich hier gar nicht alle aufführen; sie lassen sich im Artikel oder im Whitepaper nachlesen.
Ich kann hier natürlich nicht anders, als zu schreiben: Benutzt doch einfach alle Talend Open Studio zu ETL-Zwecken. Ich würde mich freuen
ETL-Software Benchmark
07. Mrz
Wenn auch nicht ganz neu – ich hatte diesen Benchmark bereits als PDF gesehen – hier mal ein Vergleich einiger der bekanntesten ETL-Tools. Ganz klar, Talend Open Studio ist natürlich auch vertreten, wenn auch noch in der Version 2.4.
Das schöne an diesem Benchmark ist, dass darin die jeweiligen Testcases für alle Tools entsprechend bebildert sind. Daher kann man sich so mal einen groben Überblick über die entsprechenden Programme verschaffen und vergleiche ziehen.
Etl Benchmarks Manapps C221008
Gefunden auf slideshare.net .
