TwitterGoogle

Open Studio for Big Data powered by Hadoop

Mit der Veröffentlichung von Talend Open Studio for Big Data wird Apache Hadoop für jeden leicht nutzbar.

Dieses Open Studio konzentriert sich auf die üblichen Aufgaben der Datenintegration und die Anbindung an ein Hadoop-Cluster. Es sind die Konnektoren für HDFS-Zugriff, HBase-Datenbank, Hive, PigLatin sowie Sqoop enthalten.

Damit lassen sich Daten ganz einfach aus Textdateien, Message-Queues, Datenbanken und vielen anderen Quellen in das Hadoop Distributed File System schreiben. Und natürlich auch wieder daraus extrahieren.

Piglatin in

TOS Beispiel-Job mit PigLatin-Komponenten

Mit HiveQL kann man umfangreiche Datensammlungen aggregieren und die kompakten Ergebnisse zum Beispiel in ein Excel-Sheet schreiben.

Mit den PigLatin-Komponenten können einige Standard-Tasks, wie z.B. Joins, Record-Filterung, usw., aus dem Baukasten heraus genutzt werden.

Talend Open Studio for Big Data unterliegt der Apache-Lizenz und kann kostenlos von folgendem Link heruntergeladen werden:

Tos4bd in

Mit Talend Open Studio einen Webservice erstellen

Über Talend Open Studio (TOS) als ETL -Werkzeug habe ich ja schon öfters geschrieben. Es handelt sich in erster Linie um ein ETL-Werkzeug, also ein Programm, mit dem man Daten aus verschiedensten Quellen laden, verarbeiten und in beliebige Ziele übertragem kann. Dass man mit TOS aber auch ganz leicht einfache Webservices erzeugen kann, wissen jedoch die Wenigsten. Und dazu braucht es keinerlei Programmier-, XML- oder SOAP-Kenntnisse.

Deswegen möchte ich hier mal exemplarisch einen sehr einfachen Webservice mit Talend realisieren.

Das Szenario

Ein Webservice soll es ermöglichen, Preise zu beliebigen Artikeln aus der Warenwirtschaft zu ermitteln. Das Warenwirtschaftssystem wird durch eine CSV-Datei repräsentiert und kann somit ganz leicht angepasst und erweitert werden.

Hier die ersten paar Zeilen aus dieser Datei:

id;artikel;preis
1;DIN A4 Ringbuch;1,99
2;Klebefilm Rolle 25m;0,89
3;Briefumschlag m. Sichtfenster DIN A5 (100 Stk);9,89
4;Papierlocher blau;4,99

Der Webservice wird einen einzelnen Aufrufparameter articleid entgegennehmen. Dieser entspricht der Artikelnummer, über welche dann der Datensatz gesucht wird. Kann der Artikel nicht gefunden werden, wird ein entsprechender Fehler zurückgemeldet, ansonsten liefert der Webservice den vollständigen Artikeldatensatz zurück.

Lesen Sie weiter

Master Data Management in zwei Artikeln

Kürzlich bin ich beim Stöbern im Internet auf zwei sehr schöne Artikel zum Thema Master Data Management (MDM) im Microsoft Developer Network gestoßen. Die Autoren Roger Wolter und Kirk Haselden beschrieben darin bereits 2006 und 2007, was Master Data Management letztlich bedeutet und wie es sich im Unternehmen darstellen kann. Die Artikel sind inhaltlich nach wie vor relevant und lassen sich daher wunderbar auch mit Talend MDM in Einklang bringen. Lesen Sie weiter

Short: Talend Integration Factory 2.6.0 released

Kurzer Infobeitrag:

Am 15.02.2011 hat Talend seine Talend Integration Factory in der neuen Version 2.6.0 zum Download als Community Edition freigegeben.

Die Talend Integration Factory stützt sich auf das Apache Camel Projekt und bietet mit zunehmenden Releases eine immer weitergehende Integration mit dem Talend Open Studio. Das über den Zukauf der Sopera GmbH ins Talend-Portfolio  aufgenommene Produkt erlaubt die Integration verschiedenster Applikationen im Unternehmen.

Dabei setzt Talend Integration Factory auf offene Standards im Bereich Messaging, wie SOAP und JMS. Der Enterprise Service Bus (kurz ESB) kann entweder im Apache Tomcat oder auf einem JEE-Server, sowie Standalone betrieben werden. Damit die Konnektivität gewährleistet werden kann, unterstütz der ESB die gängigen Protokolle, wie HTTP(S), FTP, XMPP und Formate wie JSON, CSV oder XML.

Erhältlich ist das Paket auf der Downloadseite und wiegt ca. 100 MB.

Possibly related posts: (automatically generated)

Vergleich TOS und Kettle

Im Spanischen Blog El Rincon del BI hat sich Roberto Espinosa die Mühe gemacht und Talend Open Studio (TOS) mit Pentaho Data Integrator (Kettle) einer Gegenüberstellung unterzogen. Der Artikel Talend Open Studio vs. Pendaho Data Integration (Kettle). Comparative. ist in Englisch verfasst und steht dort auch schon seit Juni 2010 bereit.

In seinem Vergleich stellt er TOS 4.0 und PDI Community Edition 3.2 einander gegenüber. Zwei Job-Screenshots zeigen die optischen Unterschiede der Lösungen im Process-Design. Mehrere Tabellen betrachten unterschiedliche Features der beiden Lösungen und erlauben dem geneigten Leser so schnell seine Schlüsse zu ziehen.