Wave me: thomasfriebel @ googlewave . com
Business Intelligence
Glossar: ETL (Extract-Transform-Load)
16. Mrz
Unter ETL (Extract,Transform and Load oder Extrahieren, Transformieren und Laden) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu extrahieren, diese entsprechend aufzubereiten (transformieren) und anschließend in ein Zielsystem zu laden.
Extract
Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein Data Warehouse (DWH) oder in ein anderes Zielsystem ist es notwendig, auf die heterogene Datenlandschaft zugreifen zu können, und die Informationen in die Transformationsprozesse einfliessen zu lassen.Transform
Die Transformation der Daten kann beispielsweise eine reine Zusammenführung der Daten sein. Bestelldaten eines Kunden, wie die im Webshop hinterlegte Lieferadresse, werden mit den Kontaktdaten des Kunden aus dem CRM zusammengeführt. Transformation kann aber auch wesentlich mehr bedeuten. Eine Bereinigung und Aufbereitung (Cleansing) der Daten kann z.B. im Transformationsprozess stattfinden. Man stelle sich z.B. einen Kundendatensatz vor, bei dem das Geschlecht bzw. die Anrede (Herr, Frau) nicht definiert ist. Aufgrund des Vornamens liese sich diese Informationen aber durch Lookups in entsprechenden Namenslisten vervollständigen, zumindest in einem Großteil der Fälle. Bleiben wir beim Geschlechtermerkmal: Herr, m , Mann, male, männlich, 1 oder 0 – das sind alles Varianten der gleichen Information. Diese werden im Transformationsprozess bereinigt, so dass am Ende die Geschlechtertrennung mit 2 Werten erfolgen kann: männlich oder weiblich, 0 oder 1, m oder w, usw..
Load
Mit dem Laden ist das Befüllen eines Zielsystems gemeint. Oftmals sind das Data Warehouses oder Data Marts. Aber auch ein Excelsheet oder eine CSV-Datei sind mögliche Ausgabeziele.
ETL kann und wird auch in sehr vielen Fällen durch reine Programmierung erfolgen. Ein oder mehrere Entwickler schreiben entsprechende Programme und Skripts. Dies kann aber schnell, insbesondere natürlich bei aufwendigen Systemgegebenheiten, wie z.B. viele (unterschiedliche) Quellen, komplexe, sich häufig verändernte Transformationen oder auch unterschiedlichen Ausgabezielen, sehr aufwendig, kostenintensiv und fehleranfällig werden.
Daher gibt es mittlerweile eine Vielzahl von Produkten, teils integriert in die kommerziellen BI-Lösungen, als auch als Open Source-Software. Unter die letzte Gruppe fällt eben auch Talend Open Studio. Diese Software hilft dabei, die ETL-Prozesse, meist durch grafische Entwicklungsumgebungen, leicht umsetzen, warten und verteilen zu können.
Ich habe mal eine (recht überschaubare) Liste von ETL-Software zusammengestellt.

Datenqualität in Textfeldern mit RegExp überprüfen
13. Mrz
Einen interessanten Ansatz, um Texteingaben nach bewussten Falscheingaben zu durchsuchen, hat mein Kollege Sebastiao in seinem Blog veröffentlicht.
Er macht sich dabei eine sehr interessante Tatsache zu nutze – das Tastatur-Layout.
Die Problemstellung kennen sicherlich einige Web-Programmierer:
Der Besucher der Website soll, bevor er z.B. ein Whitepaper oder ein Programm herunterladen kann, möglichst viel über sich und sein Unternehmen preisgeben. Je besser diese Informationen sind, desto leichter kann das Marketing diese im Anschluss verwerten.
Nun hat nicht jeder Besucher Lust, von einem Vertriebler angeschrieben oder angerufen zu werden, denn diese könnenn ja oftmals sehr hartnäckig sein. Dummerweise sind immer einige Felder als Pflichtfelder gekennzeichnet, ohne deren Befüllung man einfach nicht weiter zum gewünschten Ziel kommt.
Ablösung schafft das Eingeben von “irgendwas”, hauptsache, das Feld enthält Text, und der Weiter-Link funktioniert endlich.
Um den Vertrieb nicht unnötig mit solchen Pseudo-Adressen zu quälen, sollten diese schnellstmöglich wieder aus dem CRM oder der Datenbank entfernt werden.
Nur, wie soll man diese denn automatisiert von guten Eingaben unterscheiden?
Sebastio bedient sich dabei Regular Expressions. Und wie soll das nun von statten gehen?
Ganz einfach, wenn man davon ausgeht, dass auf Grund des Layouts der Tastatur, also der Anordnung der Tasten, die meisten Eingaben aus zufälligen Konsonantenketten bestehen.
Man kann das sehr gut bei sich selbst beobachten. Die Zeigefinger liegen bei mir zum Beispiel immer auf der mittleren Buchstaben reihe. Linke Hand auf dem F, rechte Hand auf dem H.
Wenn ich eben mal “Blödsinn” eingeben möchte, dann drücke ich einfach meiner Finger der Reihe nach auf die darunterliegenden Tasten. Und das sind dann eben lauter Konsonanten, denn die Vokale befinden sich alle, bis auf das A, in der ersten Buchstabenreihe.
Tatsächlich ist es beim französischen Layout sogar wirklich so, dass alle Vokale ausschließlich in der ersten Zeile liegen.
Die RegExp von Sebastiao würde ich daher für deutsche Benutzer ein wenig umändern, so dass auch mal ein A in einem Wust von Konsonanten, aus der mittleren Zeile auftauchen darf.
Eine solche Regel ist natürlich auch nicht auf den Talend Open Profiler beschränkt, man kann diese genauso in PHP oder Perl oder sonstwo einsetzen.

Glossar: Business Intelligence
13. Mrz
Ich habe mir vorgenommen, regelmäßig Begriffe aus dem BI-Umfeld in einer neuen Rubrik vorzustellen, zu erklären und zu durchleuchten. Damit möchte ich mir vor allem selbst helfen, mein Wissen zu vertiefen, freue mich natürlich aber auch, wenn ich damit auch dem ein oder anderen Leser helfen kann. Nachdem ich kein BI-Guru bin, bitte ich um Kommentare und Feedback, falls ich Blödsinn oder Halbwahrheiten schreibe. Auch Anregungen für weitere Begriffe nehme ich gerne entgegen. Ich behalte mir ausserdem vor, ältere Posts nachträglich zu korrigieren und zu erweitern.
Business Intelligence
Business Intelligence hat nichts mit der Intelligenz des Unternehmens zu tun.
Vielmehr beschreibt BI den Zugang zu Information und unternehmensrelevante Daten, die in jedem Unternehmen bereits angehäuft wurden. Oft liegen diese Datenschätze in einer Vielzahl von unterschiedlichen Datenbanken, Excelsheets und Applikationen vergraben, und brauchen nur geborgen zu werden. Auch externe Informationen, z.B. Marktkennziffern oder Wettbewerber-Informationen können BI-relevant sein.
Aus all diesen Daten können Entscheider im Unternehmen Schlüsse ziehen, die es ihnen erlauben, die Unternehmensführung den aktuellen (Markt-)Gegebenheiten entsprechend anzupassen. Ziel ist es dabei, gegenüber dem Wettbewerb das letzte Quäntchen Vorteil für das eigene Unternehmen herauszuholen.
Entscheidend dabei ist, dass die Daten akkurat, aktuell und relevant sind. Kein Unternehmen kann es sich heute mehr erlauben, aufgrund von Unternehmensdaten, die u.U. Jahre hinterherhinken und evtl. noch fehlerbehaftet sind, Schlüsse für das hier und jetzt zu ziehen.
Business Intelligence beschreibt also Wege, um unternehmenskritische Daten zur Beurteilung von Status und Perspektiven des Unternehmens aufbereiten und auswerten zu können.
Es gibt eine Vielzahl von kommerziellen und Open-Source Anwendungen zum Thema Business Intelligence. Mit dieser Software können Entscheider ohne Kenntnisse von SQL oder anderen Programmiersprachen Schlüsse aus ihren Unternehmensdaten ziehen, indem sie sich und ihren Mitarbeiten entsprechenden Analysen und Reports bereitstellen.

Umfrage: Open Source in der Datenintegration
10. Mrz
Der it-administrator berichtet in einem Artikel über die Ergebnisse einer, von Talend durchgeführten, Umfrage zum Thema OS in der Datenintegration.
Im Artikel Open Source in der Datenintegration wird das Ergebnis der Studie kurz zusammengefasst wiedergegeben. Das Papier lässt sich natürlich auch vollständig von der Talend-Website herunterladen.
Die Einordnung des Artikels in den Bereich Client/Server ist für mich nicht direkt nachvollziehbar, aber vielleicht liegt es daran, dass einfach eine Rubrik “Software” oder “Daten” fehlt.
Jedenfalls kurz zusammengefasst: Von 1000 Befragten nutzen rund 30% zusätzlich zu den Kommerziellen, die ihnen zur Verfügung stehen auch noch Open-Source Programme, um Aufgaben überhaupt oder aber effizienter erledigen zu können.
Um’s Geld (für Lizenzkosten) scheint es dabei den wenigsten Anwendern zu gehen. Viel wichtiger scheinen Leistungsfähigkeit und Herstellerunabhängigkeit (gegenüber proprietären Lösungen) zu sein.
Die weiteren Zahlen will ich hier gar nicht alle aufführen; sie lassen sich im Artikel oder im Whitepaper nachlesen.
Ich kann hier natürlich nicht anders, als zu schreiben: Benutzt doch einfach alle Talend Open Studio zu ETL-Zwecken. Ich würde mich freuen
ETL-Software Benchmark
07. Mrz
Wenn auch nicht ganz neu – ich hatte diesen Benchmark bereits als PDF gesehen – hier mal ein Vergleich einiger der bekanntesten ETL-Tools. Ganz klar, Talend Open Studio ist natürlich auch vertreten, wenn auch noch in der Version 2.4.
Das schöne an diesem Benchmark ist, dass darin die jeweiligen Testcases für alle Tools entsprechend bebildert sind. Daher kann man sich so mal einen groben Überblick über die entsprechenden Programme verschaffen und vergleiche ziehen.
Etl Benchmarks Manapps C221008
Gefunden auf slideshare.net .
Noch ein Blog-Post zu Talend – Deal Radar 2009
06. Mrz
Bin soeben über ein weiteres Blog gestoßen, dass vor kurzem über Talend und das Talend Geschäftsmodell berichtet.
Sramana Mitra hat schön kurz und bündig die Entstehungsgeschichte bis hin zur letzten VC-Runde durchleuchtet. Wer einige der Kennziffern rund um Talend kennenlernen möchte, sollte einen Blick auf diesen Blogpost werfen.
Also, durchaus lesenswert: Deal Radar 2009: Talend
Talend – mal wieder
27. Feb
Auf TMCnet.com ist heute auch noch ein weiterer Artikel zu talend erschienen. Der Artikel “Open Source Data Integration is Indeed Enterprise Ready, According to Study” bezieht sich auf eine Umfrage zum Einsatz von Open Source Software in Unternehmen.
Auch hier taucht wieder mal ein Name auf: Yves de Montcheuil, VP of Marketing bei talend.
“As companies merge, acquire new applications and build their IT platforms by incorporating disparate applications with legacy systems, information systems are becoming more and more heterogeneous. As a result, data integration tools are now indispensable if enterprise IT departments are to properly manage the flows of data across the information system”, so Yves.
Armer Yves, kommt gar nicht zur Ruhe, diese Tage.
Talend im Fokus
27. Feb
Die TDWi World Conference in Las Vegas ist am Laufen. Auch talend ist dort vertreten, und zwar durch Yves de Montcheuil.
Zum einen gibt es ein neues Interview mit Yves im B-Eye Network als Podcast zum anhören.
Ausserdem hatte Yves ein Gespräch mit jemandem von Monash Research. Die Zusammenfassung des Gesprächs enthält allerdings nicht viel Neues. Aber ich möchte das hier trotzdem nicht unerwähnt lassen.
Jedenfalls muss die TDWI World Conference ein voller Erfolg für uns gewesen sein.
Nachtrag (17:37h):
Hier noch ein Yves und talend related Link ins ChannelWeb-Blog: Talend Attracts VC Funding For Open-Source Technology
Talend Open Studio auf Platz 1
22. Feb
Zumindest nach dem User-Rating im Enterprise Open Source – Directory in der Kategory ETL. Dort liegt TOS auf Platz 1 vor Jitterbit und KETTLE.
Die Anzahl der Rates und auch die mehr als doppelt so hohe Anzahl von Views gegenüber dem KETTLE Eintrag sprechen Bände, wie ich finde. Aber seht selbst:

EOS-Screenshot
Exasol hat eine schicke neue Web-Site
21. Feb
Exasol, technischer Partner von talend und hier in Nürnberg ansässig, hat eine schicke neue Web-Site gelauncht.
Mit gefällt das Design wirklich gut und die eingebetteten Videos (Gruß an Hr. Golombek) sind qualitativ hervorragend.
Bin ja mal gespannt, wann ich endlich auch mal einen Blick auf die Exasol-Datenbank werfen kann; muss ja wirklich unglaublich schnell sein.
Achja, auch gleich Grüße an Thomas S. …
