Archiv für März 2009

Wenn der Link bald in den Knast führt

Auch wenn das eigentlich nicht explizit zu den Themen meines Blogs passt, so passt es doch zur Natur der Blogs bzw. des WWW im allgemeinen.

Wie man heute auf Golem.de lesen kann, wurde im Februar die Wohnung eines Bloggers von der Staatsanwaltschaft durchsucht, weil dieser in einem Blogpost auf einen anderen Blog verweist, welches wiederrum auf eine Liste auf wikileaks verweist.

Das Landesgericht Karlsruhe hat die Beschwerde des Blogbetreibers bzgl. der Hausdurchsuchung nun abgewiesen, mit der folgenden Begründung:

“Aufgrund der netzartigen Struktur des World Wide Web ist jeder einzelne Link im Sinne der Conditio-sine-qua-non-Formel kausal für die Verbreitung krimineller Inhalte, auch wenn diese erst über eine Kette von Links anderer Anbieter erreichbar sind”

Auch wenn es sich bei der Liste, um eine Sperrliste von URLs zu kinderpornografischen Inhalten handelt, so ist die Argumentation doch mehr als fragwürdig. Mache ich mich damit zum Mittäter, wenn ich einen Link auf eine Seite setze, die einen Link auf eine Seite beinhaltet, die einen Link auf eine Seite beinhaltet, die …usw. …, die auf eine illegale Seite verlinkt?

Da liegt meiner Meinung nach, etwas arg im Argen…

 

 in Wenn der Link bald in den Knast führt

ETL und ELT – Pro und Contra Listen

Ich bin im b-eye-network soeben über einen (zwar schon etwas älteren aber) sehr interessanten Post zum Thema ETL und ELT gestoßen. Auch wenn ich heute im BI Glossar erstmal nur ETL vorgestellt habe, möchte ich diesen Post von Dan E. Linstead nicht für mich behalten: ELT and ETL – candit view on pros and cons.

Er stellte darin ETL und ELT einander gegenüber und zeigt die jeweiligen Argumente dafür und dagegen auf. ETL kommt dabei nicht ganz so gut weg. Ich frag mich nur, ob sich da seine Meinung von damals zu heute wieder ein wenig geändert hat.

Glossar: ETL (Extract-Transform-Load)

Unter ETL (Extract,Transform and Load oder Extrahieren, Transformieren und Laden) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu extrahieren, diese entsprechend aufzubereiten (transformieren) und anschließend in ein Zielsystem zu laden.

Extract

Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein Data Warehouse (DWH) oder in ein anderes Zielsystem ist es notwendig, auf die heterogene Datenlandschaft zugreifen zu können, und die Informationen in die Transformationsprozesse einfliessen zu lassen.

Transform

Die Transformation der Daten kann beispielsweise eine reine Zusammenführung der Daten sein. Bestelldaten eines Kunden, wie die im Webshop hinterlegte Lieferadresse, werden mit den Kontaktdaten des Kunden aus dem CRM zusammengeführt. Transformation kann aber auch wesentlich mehr bedeuten. Eine Bereinigung und Aufbereitung (Cleansing) der Daten kann z.B. im Transformationsprozess stattfinden. Man stelle sich z.B. einen Kundendatensatz vor, bei dem das Geschlecht bzw. die Anrede (Herr, Frau) nicht definiert ist. Aufgrund des Vornamens liese sich diese Informationen aber durch Lookups in entsprechenden Namenslisten vervollständigen, zumindest in einem Großteil der Fälle. Bleiben wir beim Geschlechtermerkmal: Herr, m , Mann, male, männlich, 1 oder 0 – das sind alles Varianten der gleichen Information. Diese werden  im  Transformationsprozess bereinigt, so dass am Ende die Geschlechtertrennung mit 2 Werten erfolgen kann: männlich oder weiblich, 0 oder 1, m oder w, usw..   

Load

Mit dem Laden ist das Befüllen eines Zielsystems gemeint. Oftmals sind das Data Warehouses oder Data Marts. Aber auch ein Excelsheet oder eine CSV-Datei sind mögliche Ausgabeziele.

ETL kann und wird auch in sehr vielen Fällen durch reine Programmierung erfolgen. Ein oder mehrere Entwickler schreiben entsprechende Programme und Skripts. Dies kann aber schnell, insbesondere natürlich bei aufwendigen Systemgegebenheiten, wie z.B. viele (unterschiedliche) Quellen, komplexe, sich häufig verändernte Transformationen oder auch unterschiedlichen Ausgabezielen, sehr aufwendig, kostenintensiv und fehleranfällig werden.
Daher gibt es mittlerweile eine Vielzahl von Produkten, teils integriert in die kommerziellen BI-Lösungen, als auch als Open Source-Software. Unter die letzte Gruppe fällt eben auch Talend Open Studio. Diese Software hilft dabei, die ETL-Prozesse, meist durch grafische Entwicklungsumgebungen, leicht umsetzen, warten und verteilen zu können.
Ich habe mal eine (recht überschaubare) Liste von ETL-Software zusammengestellt.

 in Glossar: ETL (Extract-Transform-Load)