Wave me: thomasfriebel @ googlewave . com
Glossar
TecChannel berichtet über Open Source BI-Tools
30. Okt
Dr. Klaus Manhart hat am 10. Oktober einen 12-Seitigen Artikel “Kostenlose Open Source BI-Tools und -Suiten“ auf TecChannel veröffentlicht.
Darin durchleuchtet er alle relevantent BI-Tools aus dem Open Source-Umfeld, wie z.B. JasperSoft, Pentaho, Kettle, Talend Open Studio, Palo oder Weka.
Wer sich also einen schnellen Überblick verschaffen möchte, sollte den Artikel durchlesen.
Glossar: Datenintegration
14. Apr
Als Datenintegration bezeichnet man das Zusammenführen von Informationen aus verschiedenen Quellen in eine gemeinsame Datenbasis. Dies ist oftmals ein Data Warehouse, welches zur Analyse und zur Berichtserstellung herangezogen wird, oder aber ein Operational Datastore, welches möglichst aktuelle Informationen im Tagesgeschäft verfügbar machen soll.
Damit die Daten aus den heterogenen Datenquellen, wie sie fast in jedem Unternehmen in Form von CRM, ERP, Exchel-Sheets usw. existieren, zusammengeführt werden können, bedarf es diverser Anpassungen. Zum einen müssen die Datenschemata, also der Aufbau der Daten, zu einem gemeinsamen Schema umgemünzt werden.
Zum anderen müssen die Daten dabei bereinigt werden: Dubletten und nutzlose Daten müssen entfernt, fehlende Informationen nachgetragen und bestehende Informationen aufgefrischt werden.
Ziel ist es letztlich, die Daten zu verdichten, um direkten Nutzen daraus ziehen zu können.
Informationen die verstreut im Unternehmen “herumlungern” werden plötzlich greifbar und können gezielt und vollständig verwendet werden.

Glossar: ETL (Extract-Transform-Load)
16. Mrz
Unter ETL (Extract,Transform and Load oder Extrahieren, Transformieren und Laden) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu extrahieren, diese entsprechend aufzubereiten (transformieren) und anschließend in ein Zielsystem zu laden.
Extract
Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein Data Warehouse (DWH) oder in ein anderes Zielsystem ist es notwendig, auf die heterogene Datenlandschaft zugreifen zu können, und die Informationen in die Transformationsprozesse einfliessen zu lassen.Transform
Die Transformation der Daten kann beispielsweise eine reine Zusammenführung der Daten sein. Bestelldaten eines Kunden, wie die im Webshop hinterlegte Lieferadresse, werden mit den Kontaktdaten des Kunden aus dem CRM zusammengeführt. Transformation kann aber auch wesentlich mehr bedeuten. Eine Bereinigung und Aufbereitung (Cleansing) der Daten kann z.B. im Transformationsprozess stattfinden. Man stelle sich z.B. einen Kundendatensatz vor, bei dem das Geschlecht bzw. die Anrede (Herr, Frau) nicht definiert ist. Aufgrund des Vornamens liese sich diese Informationen aber durch Lookups in entsprechenden Namenslisten vervollständigen, zumindest in einem Großteil der Fälle. Bleiben wir beim Geschlechtermerkmal: Herr, m , Mann, male, männlich, 1 oder 0 – das sind alles Varianten der gleichen Information. Diese werden im Transformationsprozess bereinigt, so dass am Ende die Geschlechtertrennung mit 2 Werten erfolgen kann: männlich oder weiblich, 0 oder 1, m oder w, usw..
Load
Mit dem Laden ist das Befüllen eines Zielsystems gemeint. Oftmals sind das Data Warehouses oder Data Marts. Aber auch ein Excelsheet oder eine CSV-Datei sind mögliche Ausgabeziele.
ETL kann und wird auch in sehr vielen Fällen durch reine Programmierung erfolgen. Ein oder mehrere Entwickler schreiben entsprechende Programme und Skripts. Dies kann aber schnell, insbesondere natürlich bei aufwendigen Systemgegebenheiten, wie z.B. viele (unterschiedliche) Quellen, komplexe, sich häufig verändernte Transformationen oder auch unterschiedlichen Ausgabezielen, sehr aufwendig, kostenintensiv und fehleranfällig werden.
Daher gibt es mittlerweile eine Vielzahl von Produkten, teils integriert in die kommerziellen BI-Lösungen, als auch als Open Source-Software. Unter die letzte Gruppe fällt eben auch Talend Open Studio. Diese Software hilft dabei, die ETL-Prozesse, meist durch grafische Entwicklungsumgebungen, leicht umsetzen, warten und verteilen zu können.
Ich habe mal eine (recht überschaubare) Liste von ETL-Software zusammengestellt.

Glossar: Business Intelligence
13. Mrz
Ich habe mir vorgenommen, regelmäßig Begriffe aus dem BI-Umfeld in einer neuen Rubrik vorzustellen, zu erklären und zu durchleuchten. Damit möchte ich mir vor allem selbst helfen, mein Wissen zu vertiefen, freue mich natürlich aber auch, wenn ich damit auch dem ein oder anderen Leser helfen kann. Nachdem ich kein BI-Guru bin, bitte ich um Kommentare und Feedback, falls ich Blödsinn oder Halbwahrheiten schreibe. Auch Anregungen für weitere Begriffe nehme ich gerne entgegen. Ich behalte mir ausserdem vor, ältere Posts nachträglich zu korrigieren und zu erweitern.
Business Intelligence
Business Intelligence hat nichts mit der Intelligenz des Unternehmens zu tun.
Vielmehr beschreibt BI den Zugang zu Information und unternehmensrelevante Daten, die in jedem Unternehmen bereits angehäuft wurden. Oft liegen diese Datenschätze in einer Vielzahl von unterschiedlichen Datenbanken, Excelsheets und Applikationen vergraben, und brauchen nur geborgen zu werden. Auch externe Informationen, z.B. Marktkennziffern oder Wettbewerber-Informationen können BI-relevant sein.
Aus all diesen Daten können Entscheider im Unternehmen Schlüsse ziehen, die es ihnen erlauben, die Unternehmensführung den aktuellen (Markt-)Gegebenheiten entsprechend anzupassen. Ziel ist es dabei, gegenüber dem Wettbewerb das letzte Quäntchen Vorteil für das eigene Unternehmen herauszuholen.
Entscheidend dabei ist, dass die Daten akkurat, aktuell und relevant sind. Kein Unternehmen kann es sich heute mehr erlauben, aufgrund von Unternehmensdaten, die u.U. Jahre hinterherhinken und evtl. noch fehlerbehaftet sind, Schlüsse für das hier und jetzt zu ziehen.
Business Intelligence beschreibt also Wege, um unternehmenskritische Daten zur Beurteilung von Status und Perspektiven des Unternehmens aufbereiten und auswerten zu können.
Es gibt eine Vielzahl von kommerziellen und Open-Source Anwendungen zum Thema Business Intelligence. Mit dieser Software können Entscheider ohne Kenntnisse von SQL oder anderen Programmiersprachen Schlüsse aus ihren Unternehmensdaten ziehen, indem sie sich und ihren Mitarbeiten entsprechenden Analysen und Reports bereitstellen.

