TwitterGoogle

Open Studio for Big Data powered by Hadoop

Mit der Veröffentlichung von Talend Open Studio for Big Data wird Apache Hadoop für jeden leicht nutzbar.

Dieses Open Studio konzentriert sich auf die üblichen Aufgaben der Datenintegration und die Anbindung an ein Hadoop-Cluster. Es sind die Konnektoren für HDFS-Zugriff, HBase-Datenbank, Hive, PigLatin sowie Sqoop enthalten.

Damit lassen sich Daten ganz einfach aus Textdateien, Message-Queues, Datenbanken und vielen anderen Quellen in das Hadoop Distributed File System schreiben. Und natürlich auch wieder daraus extrahieren.

Piglatin in

TOS Beispiel-Job mit PigLatin-Komponenten

Mit HiveQL kann man umfangreiche Datensammlungen aggregieren und die kompakten Ergebnisse zum Beispiel in ein Excel-Sheet schreiben.

Mit den PigLatin-Komponenten können einige Standard-Tasks, wie z.B. Joins, Record-Filterung, usw., aus dem Baukasten heraus genutzt werden.

Talend Open Studio for Big Data unterliegt der Apache-Lizenz und kann kostenlos von folgendem Link heruntergeladen werden:

Tos4bd in

Vergleich TOS und Kettle

Im Spanischen Blog El Rincon del BI hat sich Roberto Espinosa die Mühe gemacht und Talend Open Studio (TOS) mit Pentaho Data Integrator (Kettle) einer Gegenüberstellung unterzogen. Der Artikel Talend Open Studio vs. Pendaho Data Integration (Kettle). Comparative. ist in Englisch verfasst und steht dort auch schon seit Juni 2010 bereit.

In seinem Vergleich stellt er TOS 4.0 und PDI Community Edition 3.2 einander gegenüber. Zwei Job-Screenshots zeigen die optischen Unterschiede der Lösungen im Process-Design. Mehrere Tabellen betrachten unterschiedliche Features der beiden Lösungen und erlauben dem geneigten Leser so schnell seine Schlüsse zu ziehen.

Talend Open Studio Tutorial-Reihe

Auf eine sehr vielversprechende TOS Tutorial-Reihe bin ich gestern im Blog von Cork Technology Services gestoßen. David Hollingworth beschreibt dort in bisher drei Folgen, wie er die Daten seiner Wetterstation ausliest und in eine MySQL-Datenbank überträgt.

“I’ve a weather station running at home (see my site TulligWeather). The software that logs the weather data writes the information to a “comma separated values” (CSV) data file – one line of data every 5 minutes. My requirement was to find a reliable way to insert this into a database so that I can manipulate it further (e.g. draw charts; but that’s another tutorial).”

Teil 1: Einleitung und Grundsätzliches

Im ersten Teil der Reihe beschreibt er das grundsätzliche Setup und sein vorhaben.  Hier ganz wichtig anzumerken, dass David nicht Java- sondern Perl-Code generieren lässt. Aber auch für Leser, die mehr an der Java-Generierung interessiert sind, ist das Tutorial lesenswert.

Teil 2: Projekt anlegen und Job definieren

Los geht es mit dem Einrichten eines Projekts in Talend Open Studio 4 und dem Anlegen eines neuen Jobs im Design Workspace. Im zweiten Teil des Tutorials zeigt David sehr detailliert und mit vielen Screenshots, wie er ein Projekt anlegt, wie das Studio aufgebaut ist und wie man einen neuen Talend-Job erzeugt.

Teil 3: Flatfile Metadaten einrichten

Bevor im neu angelegten Job etwas verarbeitet werden kann, müssen bzw. sollten(!) alle Datenquellen und -senken als Metadaten im Repository definiert werden. Teil drei der Tutorial-Reihe zeigt sehr schön und ausführlich, wie dies für eine CSV-Datei in Talend gemacht wird.

Teil x: Der Blick in die Glaskugel

Ich vermute, dass im nächsten Teil dann die MySQL-Datenbankverbindung als Metadaten-Eintrag angelegt wird und sich die Reihe sicherlich noch um zwei bis drei Folgen ausdehnen wird.

Sobald es weitere Teile des Tutorials gibt, werde ich dies hier anfügen, so dass niemand etwas verpasst.




 in


Possibly related posts: (automatically generated)

BMW Media-Files (br3,br4,br5) in MP3s umwandeln

Talend Open Studio ist als Datenintegrations-Lösung dazu gedacht, strukturierte Daten aus unterschiedlichsten Quellen zu laden, sie zu transformieren und anschließend in beliebige Ziele zu überführen. Das entspricht der gemeinhin für ETL gültigen Definition. Das TOS mit seiner offenen Architektur aber auch ganz andere Stilblüten hervorbringt, z.B. das Konvertieren von BMW-BR3/4/5 Media-Files, möchte ich hier kurz beschreiben. Lesen Sie weiter

Talend erneut im Gartner Magic Quadrant gelistet

Talend ist auch dieses Jahr wieder im Magic Quadrant für Datenintegration vom Beratungs- und Analystenhaus Gartner aufgeführt.

Wie schon 2009 hat es Talend in den Abschnitt Visionary des Magischen Quadranten geschafft.
Talend ist dort dichter an Unternehmen wie Pervasive oder SAS herangekommen.

Generell gilt die Cloud als wahrnehmbarer Trend bei vielen Herstellern.

Wer sich den Analystenbericht selbst durchlesen möchte, kann dies unter http://www.talend.com/gartner-mq tun.

Ich bin gespannt darauf , wo Talend nächstes Jahr bei Gartner überall auftaucht. Nach der Veröffentlichung von Talend MDM in diesem Jahr und dem Zukauf von Sopera, einem deutschen SOA-Spezialisten, dürfte es einige Überraschungen geben.