Wave me: thomasfriebel @ googlewave . com
Archiv für März 2009
Wenn der Link bald in den Knast führt
31. Mrz
Auch wenn das eigentlich nicht explizit zu den Themen meines Blogs passt, so passt es doch zur Natur der Blogs bzw. des WWW im allgemeinen.
Wie man heute auf Golem.de lesen kann, wurde im Februar die Wohnung eines Bloggers von der Staatsanwaltschaft durchsucht, weil dieser in einem Blogpost auf einen anderen Blog verweist, welches wiederrum auf eine Liste auf wikileaks verweist.
Das Landesgericht Karlsruhe hat die Beschwerde des Blogbetreibers bzgl. der Hausdurchsuchung nun abgewiesen, mit der folgenden Begründung:
“Aufgrund der netzartigen Struktur des World Wide Web ist jeder einzelne Link im Sinne der Conditio-sine-qua-non-Formel kausal für die Verbreitung krimineller Inhalte, auch wenn diese erst über eine Kette von Links anderer Anbieter erreichbar sind”
Auch wenn es sich bei der Liste, um eine Sperrliste von URLs zu kinderpornografischen Inhalten handelt, so ist die Argumentation doch mehr als fragwürdig. Mache ich mich damit zum Mittäter, wenn ich einen Link auf eine Seite setze, die einen Link auf eine Seite beinhaltet, die einen Link auf eine Seite beinhaltet, die …usw. …, die auf eine illegale Seite verlinkt?
Da liegt meiner Meinung nach, etwas arg im Argen…

Wöchentliche Talend-Retrospection (3)
31. Mrz
Auch in der vergangenen Woche gab es natürlich wieder ein paar News und Pressemitteilungen rund um Talend. Wenn auch mit leichter Verzögerung (die Zeitumstellung ist natürlich an allem Schuld
möchte ich diese natürlich niemandem vorenthalten.
Zum einen hat Talend zwei neue Partnerschaften verkündet:
- mit Attunity, Spezialisten für CDC (Change-Data-Capture) aus Burlington, Massachusetts. Ziel der Partnerschaft ist es, beider Produkte in Ergänzung zu einander zu vermarkten. Die Pressemitteilung ist hier nachzulesen.
- mit SOPERA, eine OEM-Partnerschaft, die es SOPERA erlaubt, Talend Open Studio als SOPERA DI zu vertreiben. SOPERA ist ein, aus der Deutschen Post hervorgegangenes, Unternehmen, welches Open Source-Lösungen für SOA-Applikationen entwickelt und dieses Jahr auch auf der Open Source Meets Business in Nürnberg für seine Lösung den 1. Preis gewann. Diese Partnerschaft wurde auf der EclipseCon 2009 bekannt gegeben.
In den Midmarket CIO News fand Talend Open Studio ausserdem Erwähnung in dem Artikel How to choose the right open source solution for your business von Kristen Carette. Darin werden einige Open Source Business-Lösungen vorgestellt. Ich denke, den Artikel kann ich unkommentiert so stehen lassen.
Im Talend-Blog schreibt Bertrand zum Thema Open Source Business Models – oder wie man mit OS-Software auch Geld verdient. Offensichtlich ist in der Blogosphäre eine Diskussion aufgekommen, die sich um die verschiedenen Ansätze von Open Source-Lizenzierungsmodellen und Einnahmemöglichkeiten dreht. Wen dieses Thema also interessiert, kann die Diskussion vom Talend-Blog aus direkt verfolgen.

iX vergleicht Pentaho DI und Talend Open Studio
27. Mrz
Im Computermagazin iX vom heise Verlag, in der Ausgabe 04/2009, vergleicht der Autor Frank Pientka die beiden Open Source ETL-Tools PDI und TOS.
Talend schneidet in dem Artikel sehr gut ab. Das liegt sicherlich auch daran, das Talend sich beinahe ausschließlich auf ETL (also Extract-Transform-Load) konzentriert, während Pentaho den kompletten BI-Stack bedient.
Gerade das Handling der Metadaten, sowie die Vielzahl von Konnektoren und Komponenten ist nach Ansicht des Autors eine klare Stärke von Talend Open Studio.
Zu finden ist der Artikel übrigens auf den Seiten 100 bis 102.

Wöchentliche Talend-Retrospection (2)
22. Mrz
Auch in der vergangenen Woche gab es wieder einige News und Pressemitteilungen rund um Talend.
Zum einen hätten wir da ein Interview mit Yves de Montcheuil, VP of Marketing, und Dashboard Insight. Darin erzählt Yves mal wieder, wie das Geschäftsmodell hinter Talend aussieht und was Open Source-Software für Veränderungen im BI-Umfeld zur Zeit bewirkt.
Ausserdem wurde die Technologie-Partnerschaft zwischen Experian QAS und Talend bekanntgegeben. Experian QAS stellen Adressvalidierungsmechanismen bereit, mit deren Hilfe Talend Data Quality und Talend Open Profile leistungsfähiger gemacht werden soll.
Eine weitere Partnerschaft, diesmal mit Acxius Strategic Consulting, wurde ebenfalls bekannt gemacht. Der Artikel wurde auf informationengineer.com veröffentlicht und kann hier nachgelesen werden.
ETL-Benchmark
Ausserdem bin ich in Xing, in der Gruppe ETL, auf einen Diskussionstrang gestossen, der sich mit dem Thema Benchmark von ETL-Software befasst. Darin ist ein gewisses Misstrauen gegenüber dem Manapps-Benchmark, den ich bereits vor einigen Wochen mal hier gepostet hatte, auszumachen. Sicherlich kann man davon ausgehen, dass derjenige der diesen Benchmark durchgeführt hat, so manche Tools besser beherrscht, als manch andere. Daher kann ich mir schon durchaus vorstellen, dass der Benchmark nicht 100%ig optimal gelaufen ist (vor allem für die, die schlecht abgeschnitten hatten).
In diesem Zusammenhang bin ich dann auch noch auf folgendes Post und seine interessante Diskussion gestoßen: Vincent McBurney: Was the ETL Benchmark Test Flawed or Biased?
In dieser Sache bin ich natürlich voreingenommen und halte mich mit meiner Meinung zurück, aber es sollte sich jeder selbst durchlesen.
Das war die vergangene Woche kurz zusammengefasst.

Twitter Weekly Updates for 2009-03-22
22. Mrz
- @gobansaor or use Talend Open Studio and its groovy components
in reply to gobansaor # - @gobansaor ah, great. superb post, will set a link onto it. I haven’t been using tGroovy yet, will have to give it a shot. thx in reply to gobansaor #
- @josvandongen works on both systems in reply to josvandongen #
- RT @josvandongen: New Open Source BI survey online: http://tinyurl.com/c4kwe8. Please participate!!! #
- @josvandongen How long will the BI survey be running? in reply to josvandongen #
- @josvandongen thanks for that hint in reply to josvandongen #
- @markmadsen how long will that OpenSource BI-Survey be available for people to take part in? and when/where will the results be published? #
- @markmadsen thanks alot in reply to markmadsen #
- war heute abend auf der AncudIT Einweihungsfeier. Schöner Abend, schöne Büroräume, interessante Unterhaltungen. Gerne wieder #
- @josvandongen what exactly does not work 4 u? what are your system specs? i’m not an expert at all, but perhaps I can see the point in reply to josvandongen #
- @josvandongen u r right. no mention of Linux in the faqs. have u tried though? firefox on mac should be quite similar to ff on linux. in reply to josvandongen #
- @josvandongen since it is based upon java (at least java needs to be installed, due to the faq), it would propably do on linux as well…? in reply to josvandongen #
- @josvandongen not ff is based on java of course. but the meeting software obviously. in reply to josvandongen #
- @aristippus303 yes, that is round about what it takes. 4 sure it depends on the period and number of seats (in a decreasing manner) in reply to aristippus303 #
- @paul_seibert yes, of course, as already told u: Talend (http://www.talend.com) in reply to paul_seibert #
Talend Open Studio 3.0.4 seit gestern verfügbar
19. Mrz
Am 18. März wurde die Version 3.0.4 von Talend Open Studio veröffentlicht.
Diese Release beinhaltet überwiegend Bugfixes und Optimierungen. Herunterladen lässt sich TOS 3.0.4 entweder als Windows (32-Bit)-Setup oder als All-Inclusive-Archiv mit den Binaries für Win, Linux und Mac auf der Talend-Download-Seite.
Die vollständige Liste der Änderungen und Korrekturen kann man im Talend Change-Log nachlesen.

Umfrage zu Open Source Einsatz für Business Intelligence
19. Mrz
Über Twitter (@josvandongen) bin ich soeben auf eine gerade anlaufende Online-Umfrage zum Thema Open Source Lösungen für Business Intelligence in den Unternehmen gestossen.
Es werden dabei 19 Fragen gestellt, die man meistens im Multiple-Choice-Verfahren beantworten kann.
Das Ausfüllen dauert höchstens 5 Minuten und erfolgt selbstverständlich anonym.
Gefragt wird nach den Einsatzzielen im eigenen Unternehmen, oder bei den Kunden, den Erwartungen an die Lösungen und den gemachten Erfahrungen damit.
Leider war es mir nicht möglich herauszufinden, wie lange die Umfrage aktiv ist. Daher sollte jeder, der daran Teilnehmen möchte, dies baldmöglichst tun.
Wenn möglich, werde ich hier über das Ergebnis der Umfrage berichten.
Nachtrag 22:15h: Also, laut @Mark Madsen, der den Survey initiiert hat, wird die Umfrage mindestens bis Ende April laufen, spätestens aber eine Woche vor der MySQL Con enden.
Nachtrag 22:28h: Es gibt für Teilnehmer, die valide Kontaktdaten hinterlassen ein TomTom One XL portable GPS zu gewinnen.

Tutorial: Eigene Talend-Komponenten entwickeln (Teil 1)
17. Mrz
Es gibt zwei Möglichkeiten, eigene Komponenten für Talend Open Studio bzw. Talend Integration Suite zu entwickeln.
Die erste – dass ist die, welche ich bisher selbst angewandt hatte – sieht wie folgt aus:
Besser ist der zweite, der einzig richtige Weg:
Die Talend-Entwicklungsabteilung versucht der Community nämlich soweit wie möglich, bei der Erstellung neuer Komponenten entgegen zu kommen. Dafür wurde die Component Designer-Perspektive in Talend eingebaut.

Der Komponenten-Designer zeigt die, in Entwicklung befindlichen, Komponenten als Ordnerstrukur an. Es gibt ausserdem noch einen Wizard zum Erstellen neuer Komponenten, auf den ich weiter unten noch einmal eingehen werden.
Damit man diese Perspektive sinnvoll verwenden kann, sind ein paar Einstel
lungen nötig.
Zuerst muss man in den Preferences “Talend Component Designer” öffnen, und ein Entwicklungsverzeichnis festlegen. Dieses sollte ausserhalb der TIS/TOS-Installation liegen. Somit kann man seine Arbeiten problemlos sichern oder in einem SVN-Repository verwalten.
Anschliessend sollte man, ebenfalls in den Preferences unter “Talend”/”Components”, ein Deployment-Verzeichnis für selbstentwickelte Komponenten angeben. Dieses Verzeichnis kann auch ein Verzeichnis innerhalb Talends sein, aber darf auch gerne extern liegen. Alle Komponenten in diesem Verzeichnis erscheinen in der Komponentenpalette, so dass man sie gleich ausprobieren kann.

Wenn man nun alle Einstellungen vorgenommen hat, dann kann man in die Component Designer-Perspektive wechseln.

Hier hat man nun die Wahl, ob man eine neue Komponente von Grund auf erstellen, oder eine Bestehende als Vorlage verwenden möchte.
Dazu braucht man nur einen Rechts-Klick auf das COMPONENT_PROJECT im Designer tätigen.
Zum Erstellen einer komplett neuen Komponente einfach auf “New/New Component” gehen. Es öffnet sich der Wizard.
Jetzt kann man anfangen, seine Komponente zu entwickeln.
Die Programmierung von Komponenten soll nicht teil dieses Tutorials sein, deshalb hebe ich mir das für einen weiteren Post auf.
Hat man dann also seine Komponente programmiert, braucht man nur noch zu wissen, wie man diese wieder zurück in die Palette bekommt:
Einfach Rechts-Klick auf Ordner der Komponente und “Push components to palette” aus dem Kontextmenü. Damit wird die Komponente aus dem Entwickler-Verzeichnis in das Deployment-Verzeichnis übertragen und die komplette Palette neu geladen. Die Komponente befindet sich nun in der Palette und kann benutzt werden.
Das ist der erste Teil einer Tutorial-Reihe, deren Umfang ich im Moment selbst noch nicht abschätzen kann. Aber es wird sicherlich noch einiges kommen.

ETL und ELT – Pro und Contra Listen
16. Mrz
Ich bin im b-eye-network soeben über einen (zwar schon etwas älteren aber) sehr interessanten Post zum Thema ETL und ELT gestoßen. Auch wenn ich heute im BI Glossar erstmal nur ETL vorgestellt habe, möchte ich diesen Post von Dan E. Linstead nicht für mich behalten: ELT and ETL – candit view on pros and cons.
Er stellte darin ETL und ELT einander gegenüber und zeigt die jeweiligen Argumente dafür und dagegen auf. ETL kommt dabei nicht ganz so gut weg. Ich frag mich nur, ob sich da seine Meinung von damals zu heute wieder ein wenig geändert hat.
Glossar: ETL (Extract-Transform-Load)
16. Mrz
Unter ETL (Extract,Transform and Load oder Extrahieren, Transformieren und Laden) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu extrahieren, diese entsprechend aufzubereiten (transformieren) und anschließend in ein Zielsystem zu laden.
Extract
Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein Data Warehouse (DWH) oder in ein anderes Zielsystem ist es notwendig, auf die heterogene Datenlandschaft zugreifen zu können, und die Informationen in die Transformationsprozesse einfliessen zu lassen.Transform
Die Transformation der Daten kann beispielsweise eine reine Zusammenführung der Daten sein. Bestelldaten eines Kunden, wie die im Webshop hinterlegte Lieferadresse, werden mit den Kontaktdaten des Kunden aus dem CRM zusammengeführt. Transformation kann aber auch wesentlich mehr bedeuten. Eine Bereinigung und Aufbereitung (Cleansing) der Daten kann z.B. im Transformationsprozess stattfinden. Man stelle sich z.B. einen Kundendatensatz vor, bei dem das Geschlecht bzw. die Anrede (Herr, Frau) nicht definiert ist. Aufgrund des Vornamens liese sich diese Informationen aber durch Lookups in entsprechenden Namenslisten vervollständigen, zumindest in einem Großteil der Fälle. Bleiben wir beim Geschlechtermerkmal: Herr, m , Mann, male, männlich, 1 oder 0 – das sind alles Varianten der gleichen Information. Diese werden im Transformationsprozess bereinigt, so dass am Ende die Geschlechtertrennung mit 2 Werten erfolgen kann: männlich oder weiblich, 0 oder 1, m oder w, usw..
Load
Mit dem Laden ist das Befüllen eines Zielsystems gemeint. Oftmals sind das Data Warehouses oder Data Marts. Aber auch ein Excelsheet oder eine CSV-Datei sind mögliche Ausgabeziele.
ETL kann und wird auch in sehr vielen Fällen durch reine Programmierung erfolgen. Ein oder mehrere Entwickler schreiben entsprechende Programme und Skripts. Dies kann aber schnell, insbesondere natürlich bei aufwendigen Systemgegebenheiten, wie z.B. viele (unterschiedliche) Quellen, komplexe, sich häufig verändernte Transformationen oder auch unterschiedlichen Ausgabezielen, sehr aufwendig, kostenintensiv und fehleranfällig werden.
Daher gibt es mittlerweile eine Vielzahl von Produkten, teils integriert in die kommerziellen BI-Lösungen, als auch als Open Source-Software. Unter die letzte Gruppe fällt eben auch Talend Open Studio. Diese Software hilft dabei, die ETL-Prozesse, meist durch grafische Entwicklungsumgebungen, leicht umsetzen, warten und verteilen zu können.
Ich habe mal eine (recht überschaubare) Liste von ETL-Software zusammengestellt.

