<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Dijit &#187; ETL</title>
	<atom:link href="http://blog.dijit.de/category/business-intelligence/etl/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.dijit.de</link>
	<description>Wave me: thomasfriebel @ googlewave . com</description>
	<lastBuildDate>Sat, 10 Jul 2010 06:15:24 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
		<item>
		<title>TecChannel berichtet über Open Source BI-Tools</title>
		<link>http://blog.dijit.de/2009/10/tecchannel-berichtet-ueber-open-source-bi-tools/</link>
		<comments>http://blog.dijit.de/2009/10/tecchannel-berichtet-ueber-open-source-bi-tools/#comments</comments>
		<pubDate>Fri, 30 Oct 2009 08:49:55 +0000</pubDate>
		<dc:creator>Thomas</dc:creator>
				<category><![CDATA[Blog]]></category>
		<category><![CDATA[Business Intelligence]]></category>
		<category><![CDATA[ETL]]></category>
		<category><![CDATA[Glossar]]></category>
		<category><![CDATA[Talends Software]]></category>
		<category><![CDATA[birt]]></category>
		<category><![CDATA[jasper]]></category>
		<category><![CDATA[jasperreport]]></category>
		<category><![CDATA[jedox]]></category>
		<category><![CDATA[mondrian]]></category>
		<category><![CDATA[palo]]></category>
		<category><![CDATA[pentaho]]></category>
		<category><![CDATA[Talend]]></category>
		<category><![CDATA[weka]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/?p=431</guid>
		<description><![CDATA[Dr. Klaus Manhart hat am 10. Oktober einen 12-Seitigen Artikel &#8220;Kostenlose Open Source BI-Tools und -Suiten&#8220; auf TecChannel veröffentlicht. Darin durchleuchtet er alle relevantent BI-Tools aus  dem Open Source-Umfeld, wie z.B. JasperSoft, Pentaho, Kettle, Talend Open Studio, Palo oder Weka. Wer sich also einen schnellen Überblick verschaffen möchte, sollte den Artikel durchlesen.]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F10%2Ftecchannel-berichtet-ueber-open-source-bi-tools%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F10%2Ftecchannel-berichtet-ueber-open-source-bi-tools%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Dr. Klaus Manhart hat am 10. Oktober einen 12-Seitigen Artikel <em>&#8220;</em><a title="Kostenlose Open Source BI-Tools und -Suiten" href="http://blog.dijit.de/619" target="_blank"><em>Kostenlose Open Source BI-Tools und -Suiten</em></a><em>&#8220;</em> auf TecChannel veröffentlicht.</p>
<p>Darin durchleuchtet er alle relevantent BI-Tools aus  dem Open Source-Umfeld, wie z.B. JasperSoft, Pentaho, Kettle, Talend Open Studio, Palo oder Weka.</p>
<p>Wer sich also einen schnellen Überblick verschaffen möchte, sollte den Artikel durchlesen.</p>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/10/tecchannel-berichtet-ueber-open-source-bi-tools/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Der TalendOpenStudio-Foundation-Training-Marathon</title>
		<link>http://blog.dijit.de/2009/10/der-talendopenstudio-foundation-training-marathon/</link>
		<comments>http://blog.dijit.de/2009/10/der-talendopenstudio-foundation-training-marathon/#comments</comments>
		<pubDate>Thu, 15 Oct 2009 12:50:28 +0000</pubDate>
		<dc:creator>Thomas</dc:creator>
				<category><![CDATA[Das Unternehmen Talend]]></category>
		<category><![CDATA[ETL]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/?p=375</guid>
		<description><![CDATA[Bis zum Jahresende finden ab dem 27. Oktober deutschlandweit und wöchentlich, dreitägige Foundation-Trainings zu Talend Open Studio statt. Die einzelnen Termine und Veranstaltungsorte können in meinem Talend-Event-Kalender nachgeschlagen werden.]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F10%2Fder-talendopenstudio-foundation-training-marathon%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F10%2Fder-talendopenstudio-foundation-training-marathon%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Bis zum Jahresende finden ab dem 27. Oktober deutschlandweit und wöchentlich, dreitägige Foundation-Trainings zu Talend Open Studio statt. Die einzelnen Termine und Veranstaltungsorte können in meinem <a title="Talend-Event Kalender" href="/talend-events" target="_blank">Talend-Event-Kalender</a> nachgeschlagen werden.</p>
<p>Im Foundation Training bekommt man das grundlegende Rüstzeug, um mit TOS erfolgreich eigene ETL- und Integrationsprojekte stemmen zu können. Angefangen bei der Installation, über die Bedienung der Oberfläche, über die Verwendung der einzelnen Komponenten, über das Deployment hin zum Debugging von Jobs erfährt man alles Notwendige, um mit Talend schnell ans Ziel zu kommen.</p>
<p>Anmelden kann man sich durch Download und Unterschrift des <a title="Anmeldung zum TOS Foundation Training" href="http://www.talend.com/doc2download/order_form_training_de_oct09.pdf" target="_self">Anmeldeformular-PDFs</a>.</p>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/10/der-talendopenstudio-foundation-training-marathon/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>iX vergleicht Pentaho DI und Talend Open Studio</title>
		<link>http://blog.dijit.de/2009/03/ix-vergleicht-pentaho-di-und-talend-open-studio/</link>
		<comments>http://blog.dijit.de/2009/03/ix-vergleicht-pentaho-di-und-talend-open-studio/#comments</comments>
		<pubDate>Fri, 27 Mar 2009 13:44:55 +0000</pubDate>
		<dc:creator>Thomas</dc:creator>
				<category><![CDATA[ETL]]></category>
		<category><![CDATA[Talend in der Presse]]></category>
		<category><![CDATA[pentaho]]></category>
		<category><![CDATA[Talend]]></category>
		<category><![CDATA[vergleich]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/2009/03/ix-vergleicht-pentaho-di-und-talend-open-studio/</guid>
		<description><![CDATA[Im Computermagazin iX vom heise Verlag, in der Ausgabe 04/2009, vergleicht der Autor Frank Pientka die beiden Open Source ETL-Tools PDI und TOS. Talend schneidet in dem Artikel sehr gut ab. Das liegt sicherlich auch daran, das Talend sich beinahe ausschließlich auf ETL (also Extract-Transform-Load) konzentriert, während Pentaho den kompletten BI-Stack bedient. Gerade das Handling]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fix-vergleicht-pentaho-di-und-talend-open-studio%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fix-vergleicht-pentaho-di-und-talend-open-studio%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Im <a href="http://www.heise.de/ix" target="_blank">Computermagazin iX</a> vom heise Verlag, in der Ausgabe 04/2009, vergleicht der Autor Frank Pientka die beiden Open Source ETL-Tools PDI und TOS.<br />
Talend schneidet in dem Artikel sehr gut ab. Das liegt sicherlich auch daran, das Talend sich beinahe ausschließlich auf ETL (also Extract-Transform-Load) konzentriert, während Pentaho den kompletten BI-Stack bedient.<br />
Gerade das Handling der Metadaten, sowie die Vielzahl von Konnektoren und Komponenten ist nach Ansicht des Autors eine klare Stärke von Talend Open Studio.</p>
<p>Zu finden ist der Artikel übrigens auf den Seiten 100 bis 102.</p>
<p> </p>
<div class="zemanta-pixie"><img class="zemanta-pixie-img" src="http://img.zemanta.com/pixy.gif?x-id=938a8d6d-43ff-8e2d-a80d-28774139d263" alt=" in "  /></div>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/03/ix-vergleicht-pentaho-di-und-talend-open-studio/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Wöchentliche Talend-Retrospection (2)</title>
		<link>http://blog.dijit.de/2009/03/woechentliche-talend-retrospection-2/</link>
		<comments>http://blog.dijit.de/2009/03/woechentliche-talend-retrospection-2/#comments</comments>
		<pubDate>Sun, 22 Mar 2009 20:21:38 +0000</pubDate>
		<dc:creator>Thomas</dc:creator>
				<category><![CDATA[Das Unternehmen Talend]]></category>
		<category><![CDATA[ETL]]></category>
		<category><![CDATA[Talend in der Presse]]></category>
		<category><![CDATA[benchmark]]></category>
		<category><![CDATA[news]]></category>
		<category><![CDATA[Talend]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/?p=285</guid>
		<description><![CDATA[Auch in der vergangenen Woche gab es wieder einige News und Pressemitteilungen rund um Talend. Zum einen hätten wir da ein Interview mit Yves de Montcheuil, VP of Marketing, und Dashboard Insight. Darin erzählt Yves mal wieder, wie das Geschäftsmodell hinter Talend aussieht und was Open Source-Software für Veränderungen im BI-Umfeld zur Zeit bewirkt. Ausserdem]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fwoechentliche-talend-retrospection-2%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fwoechentliche-talend-retrospection-2%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p><!--proximic--><br />
Auch in der vergangenen Woche gab es wieder einige News und Pressemitteilungen rund um Talend.</p>
<p>Zum einen hätten wir da ein <a href="http://www.dashboardinsight.com/news/news-posts/one-on-one-with-yves-de-montcheuil.aspx" target="_blank">Interview mit Yves de Montcheuil</a>, VP of Marketing, und <a href="http://www.dashboardinsight.com" target="_blank">Dashboard Insight</a>. Darin erzählt Yves mal wieder, wie das Geschäftsmodell hinter Talend aussieht und was Open Source-Software für Veränderungen im BI-Umfeld zur Zeit bewirkt.</p>
<p>Ausserdem wurde die <a href="http://www.pressreleasepoint.com/experian-qas-and-talend-sign-technology-partnership" target="_blank">Technologie-Partnerschaft zwischen Experian QAS und Talend</a> bekanntgegeben. Experian QAS stellen Adressvalidierungsmechanismen bereit, mit deren Hilfe Talend Data Quality und Talend Open Profile leistungsfähiger gemacht werden soll.</p>
<p>Eine weitere Partnerschaft, diesmal mit Acxius Strategic Consulting, wurde ebenfalls bekannt gemacht. Der Artikel wurde auf informationengineer.com veröffentlicht und kann <a href="http://www.informationengineer.org/2009/03/18/acxius-strategic-consulting-announces-partnership-with-talend.html" target="_blank">hier nachgelesen</a> werden.</p>
<p><strong>ETL-Benchmark</strong><br />
Ausserdem bin ich in Xing, in der Gruppe ETL, auf einen Diskussionstrang gestossen, der sich mit dem Thema Benchmark von ETL-Software befasst. Darin ist ein gewisses Misstrauen gegenüber dem Manapps-Benchmark, den ich bereits vor einigen Wochen mal <a href="http://blog.dijit.de/2009/03/etl-software-benchmark/">hier gepostet</a> hatte, auszumachen. Sicherlich kann man davon ausgehen, dass derjenige der diesen Benchmark durchgeführt hat, so manche Tools besser beherrscht, als manch andere. Daher kann ich mir schon durchaus vorstellen, dass der Benchmark nicht 100%ig optimal gelaufen ist (vor allem für die, die schlecht abgeschnitten hatten).<br />
In diesem Zusammenhang bin ich dann auch noch auf folgendes Post und seine interessante Diskussion gestoßen: <a href="http://it.toolbox.com/blogs/infosphere/was-the-manapps-etl-benchmark-test-flawed-or-baised-28697" target="_blank">Vincent McBurney: Was the ETL Benchmark Test Flawed or Biased?</a><br />
In dieser Sache bin ich natürlich voreingenommen und halte mich mit meiner Meinung zurück, aber es sollte sich jeder selbst durchlesen.</p>
<p>Das war die vergangene Woche kurz zusammengefasst.</p>
<div class="zemanta-pixie"><img class="zemanta-pixie-img" src="http://img.zemanta.com/pixy.gif?x-id=5f2ecbea-12d6-416a-97c6-edabef4a494c" alt=" in "  /></div>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/03/woechentliche-talend-retrospection-2/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ETL und ELT &#8211; Pro und Contra Listen</title>
		<link>http://blog.dijit.de/2009/03/etl-elt-pro-contra-liste/</link>
		<comments>http://blog.dijit.de/2009/03/etl-elt-pro-contra-liste/#comments</comments>
		<pubDate>Mon, 16 Mar 2009 20:02:28 +0000</pubDate>
		<dc:creator>Thomas</dc:creator>
				<category><![CDATA[Blog]]></category>
		<category><![CDATA[ETL]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/?p=257</guid>
		<description><![CDATA[Ich bin im b-eye-network soeben über einen (zwar schon etwas älteren aber) sehr interessanten Post zum Thema ETL und ELT gestoßen. Auch wenn ich heute im BI Glossar erstmal nur ETL vorgestellt habe, möchte ich diesen Post von Dan E. Linstead nicht für mich behalten: ELT and ETL &#8211; candit view on pros and cons.]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fetl-elt-pro-contra-liste%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fetl-elt-pro-contra-liste%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Ich bin im <a title="BI Network - B-Eye-Network" href="http://www.b-eye-network.com" target="_blank">b-eye-network</a> soeben über einen (zwar schon etwas älteren aber) sehr interessanten Post zum Thema ETL und ELT gestoßen. Auch wenn ich heute im BI Glossar erstmal nur ETL vorgestellt habe, möchte ich diesen Post von Dan E. Linstead nicht für mich behalten: <a title="Unterschiede zwischen ETL und ELT, als pro- und contra-listen" href="http://www.b-eye-network.com/blogs/linstedt/archives/2005/05/elt_and_etl_can.php" target="_blank">ELT and ETL &#8211; candit view on pros and cons</a>.</p>
<p>Er stellte darin ETL und ELT einander gegenüber und zeigt die jeweiligen Argumente dafür und dagegen auf. ETL kommt dabei nicht ganz so gut weg. Ich frag mich nur, ob sich da seine Meinung von damals zu heute wieder ein wenig geändert hat.</p>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/03/etl-elt-pro-contra-liste/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Glossar: ETL (Extract-Transform-Load)</title>
		<link>http://blog.dijit.de/2009/03/glossar-etl-extract-transform-load/</link>
		<comments>http://blog.dijit.de/2009/03/glossar-etl-extract-transform-load/#comments</comments>
		<pubDate>Mon, 16 Mar 2009 13:30:00 +0000</pubDate>
		<dc:creator>Thomas</dc:creator>
				<category><![CDATA[ETL]]></category>
		<category><![CDATA[Glossar]]></category>
		<category><![CDATA[Talends Software]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/2009/03/glossar-etl-extract-transform-load/</guid>
		<description><![CDATA[Unter ETL (Extract,Transform and Load oder Extrahieren, Transformieren und Laden) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu extrahieren, diese entsprechend aufzubereiten (transformieren) und anschließend in ein Zielsystem zu laden. Extract Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fglossar-etl-extract-transform-load%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fglossar-etl-extract-transform-load%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Unter ETL (<em>Extract,Transform and Load</em> oder <em>Extrahieren, Transformieren und Laden</em>) versteht man den Vorgang, Daten aus verschiedenen Datenquellen zu <strong>extrahieren</strong>, diese entsprechend aufzubereiten (<strong>transformieren</strong>) und anschließend in ein Zielsystem zu <strong>laden</strong>.</p>
<h3>Extract</h3>
<p><div style="float:left;margin-right:10px;"><script
  language="JavaScript1.1"
  type="text/javascript"
  src="http://www.contaxe.com/go/go.js?
t=33&amp;c=13639&amp;s=15598&amp;query=business+intelligence%2Cdata+ware
house%2Cetl%2Cdata+integration&amp;rnd=1">
</script></div>Die Daten im Unternehmen werden von verschiedensten System verwaltet, seien es nun ERP, CRM, Web-Shops oder Excelsheets. Zur Überführung dieser Daten in ein Data Warehouse (DWH) oder in ein anderes Zielsystem ist es notwendig, auf die heterogene Datenlandschaft zugreifen zu können, und die Informationen in die Transformationsprozesse einfliessen zu lassen.</p>
<h3>Transform</h3>
<p>Die Transformation der Daten kann beispielsweise eine reine Zusammenführung der Daten sein. Bestelldaten eines Kunden, wie die im Webshop hinterlegte Lieferadresse, werden mit den Kontaktdaten des Kunden aus dem CRM zusammengeführt. Transformation kann aber auch wesentlich mehr bedeuten. Eine Bereinigung und Aufbereitung (Cleansing) der Daten kann z.B. im Transformationsprozess stattfinden. Man stelle sich z.B. einen Kundendatensatz vor, bei dem das Geschlecht bzw. die Anrede (Herr, Frau) nicht definiert ist. Aufgrund des Vornamens liese sich diese Informationen aber durch Lookups in entsprechenden Namenslisten vervollständigen, zumindest in einem Großteil der Fälle. Bleiben wir beim Geschlechtermerkmal: Herr, m , Mann, male, männlich, 1 oder 0 &#8211; das sind alles Varianten der gleichen Information. Diese werden  im  Transformationsprozess bereinigt, so dass am Ende die Geschlechtertrennung mit 2 Werten erfolgen kann: männlich oder weiblich, 0 oder 1, m oder w, usw..   </p>
<h3>Load</h3>
<p>Mit dem Laden ist das Befüllen eines Zielsystems gemeint. Oftmals sind das Data Warehouses oder Data Marts. Aber auch ein Excelsheet oder eine CSV-Datei sind mögliche Ausgabeziele.</p>
<p>ETL kann und wird auch in sehr vielen Fällen durch reine Programmierung erfolgen. Ein oder mehrere Entwickler schreiben entsprechende Programme und Skripts. Dies kann aber schnell, insbesondere natürlich bei aufwendigen Systemgegebenheiten, wie z.B. viele (unterschiedliche) Quellen, komplexe, sich häufig verändernte Transformationen oder auch unterschiedlichen Ausgabezielen, sehr aufwendig, kostenintensiv und fehleranfällig werden.<br />
Daher gibt es mittlerweile eine Vielzahl von Produkten, teils integriert in die kommerziellen BI-Lösungen, als auch als Open Source-Software. Unter die letzte Gruppe fällt eben auch <a href="http://www.talend.com" target="_blank">Talend Open Studio</a>. Diese Software hilft dabei, die ETL-Prozesse, meist durch grafische Entwicklungsumgebungen, leicht umsetzen, warten und verteilen zu können.<br />
Ich habe mal eine (recht überschaubare) <a title="Nicht vollständige Liste von ETL-Software" href="liste-etl-tools/" target="_self">Liste von ETL-Software</a> zusammengestellt.</p>
<div class="zemanta-pixie"><img class="zemanta-pixie-img" src="http://img.zemanta.com/pixy.gif?x-id=316a0282-0a11-47c3-84f4-a7e9bfad8c25" alt=" in "  /></div>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/03/glossar-etl-extract-transform-load/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Datenqualität in Textfeldern mit RegExp überprüfen</title>
		<link>http://blog.dijit.de/2009/03/datenqualitat-in-textfeldern-mit-regexp-uberprufen/</link>
		<comments>http://blog.dijit.de/2009/03/datenqualitat-in-textfeldern-mit-regexp-uberprufen/#comments</comments>
		<pubDate>Fri, 13 Mar 2009 18:08:59 +0000</pubDate>
		<dc:creator>Thomas</dc:creator>
				<category><![CDATA[Blog]]></category>
		<category><![CDATA[ETL]]></category>
		<category><![CDATA[Talends Software]]></category>
		<category><![CDATA[Web 2.0]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/2009/03/datenqualitat-in-textfeldern-mit-regexp-uberprufen/</guid>
		<description><![CDATA[Einen interessanten Ansatz, um Texteingaben nach bewussten Falscheingaben zu durchsuchen, hat mein Kollege Sebastiao in seinem Blog veröffentlicht.Er macht sich dabei eine sehr interessante Tatsache zu nutze &#8211; das Tastatur-Layout. Die Problemstellung kennen sicherlich einige Web-Programmierer:Der Besucher der Website soll, bevor er z.B. ein Whitepaper oder ein Programm herunterladen kann, möglichst viel über sich und]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fdatenqualitat-in-textfeldern-mit-regexp-uberprufen%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fdatenqualitat-in-textfeldern-mit-regexp-uberprufen%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Einen interessanten Ansatz, um Texteingaben nach bewussten Falscheingaben zu durchsuchen, hat mein Kollege Sebastiao in <a target="_blank" href="http://scorreiait.wordpress.com/2009/03/13/how-to-detect-random-text-in-a-free-text-field/trackback/">seinem Blog veröffentlicht</a>.<br />Er macht sich dabei eine sehr interessante Tatsache zu nutze &#8211; das Tastatur-Layout.</p>
<div align="center"><img alt="400px-KB Germany Svg in " style="max-width: 800px; float: none;" src="http://upload.wikimedia.org/wikipedia/commons/thumb/3/36/KB_Germany.svg/400px-KB_Germany.svg.png" width="" height="" /></div>
<p>Die Problemstellung kennen sicherlich einige Web-Programmierer:<br />Der Besucher der Website soll, bevor er z.B. ein Whitepaper oder ein Programm herunterladen kann, möglichst viel über sich und sein Unternehmen preisgeben. Je besser diese Informationen sind, desto leichter kann das Marketing diese im Anschluss verwerten.<br />Nun hat nicht jeder Besucher Lust, von einem Vertriebler angeschrieben oder angerufen zu werden, denn diese könnenn ja oftmals sehr hartnäckig sein. Dummerweise sind immer einige Felder als Pflichtfelder gekennzeichnet, ohne deren Befüllung man einfach nicht weiter zum gewünschten Ziel kommt.<br />Ablösung schafft das Eingeben von &#8220;irgendwas&#8221;, hauptsache, das Feld enthält Text, und der Weiter-Link funktioniert endlich.</p>
<p>Um den Vertrieb nicht unnötig mit solchen Pseudo-Adressen zu quälen, sollten diese schnellstmöglich wieder aus dem CRM oder der Datenbank entfernt werden.</p>
<p>Nur, wie soll man diese denn automatisiert von guten Eingaben unterscheiden?</p>
<p>Sebastio bedient sich dabei Regular Expressions. Und wie soll das nun von statten gehen?<br />Ganz einfach, wenn man davon ausgeht, dass auf Grund des Layouts der Tastatur, also der Anordnung der Tasten, die meisten Eingaben aus zufälligen Konsonantenketten bestehen.<br />Man kann das sehr gut bei sich selbst beobachten. Die Zeigefinger liegen bei mir zum Beispiel immer auf der mittleren Buchstaben reihe. Linke Hand auf dem F, rechte Hand auf dem H.<br />Wenn ich eben mal &#8220;Blödsinn&#8221; eingeben möchte, dann drücke ich einfach meiner Finger der Reihe nach auf die darunterliegenden Tasten. Und das sind dann eben lauter Konsonanten, denn die Vokale befinden sich alle, bis auf das A, in der ersten Buchstabenreihe.<br />Tatsächlich ist es beim französischen Layout sogar wirklich so, dass alle Vokale ausschließlich in der ersten Zeile liegen.</p>
<p>Die RegExp von Sebastiao würde ich daher für deutsche Benutzer ein wenig umändern, so dass auch mal ein A in einem Wust von Konsonanten, aus der mittleren Zeile auftauchen darf.</p>
<p>Eine solche Regel ist natürlich auch nicht auf den Talend Open Profiler beschränkt, man kann diese genauso in PHP oder Perl oder sonstwo einsetzen.</p>
<div class="zemanta-pixie"><img class="zemanta-pixie-img" src="http://img.zemanta.com/pixy.gif?x-id=32f408e7-2cdd-4cbb-b4cb-600c56483378" alt=" in " /></div>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/03/datenqualitat-in-textfeldern-mit-regexp-uberprufen/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Umfrage: Open Source in der Datenintegration</title>
		<link>http://blog.dijit.de/2009/03/umfrage-open-source-in-der-datenintegration/</link>
		<comments>http://blog.dijit.de/2009/03/umfrage-open-source-in-der-datenintegration/#comments</comments>
		<pubDate>Tue, 10 Mar 2009 16:53:07 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Business Intelligence]]></category>
		<category><![CDATA[Das Unternehmen Talend]]></category>
		<category><![CDATA[ETL]]></category>
		<category><![CDATA[open source]]></category>
		<category><![CDATA[studie]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/?p=208</guid>
		<description><![CDATA[Der it-administrator berichtet in einem Artikel über die Ergebnisse einer, von Talend durchgeführten, Umfrage zum Thema OS in der Datenintegration. Im Artikel Open Source in der Datenintegration wird das Ergebnis der Studie kurz zusammengefasst wiedergegeben. Das Papier lässt sich natürlich auch vollständig von der Talend-Website herunterladen. Die Einordnung des Artikels in den Bereich Client/Server ist]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fumfrage-open-source-in-der-datenintegration%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fumfrage-open-source-in-der-datenintegration%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Der <a title="IT-Administrator Homepage" href="http://www.it-administrator.de" target="_blank">it-administrator</a> berichtet in einem Artikel über die Ergebnisse einer, von Talend durchgeführten, Umfrage zum Thema OS in der Datenintegration.</p>
<p>Im Artikel <a title="Artikel Open Source in der Datenintegration" href="http://www.it-administrator.de/themen/server_client/52164.html" target="_blank">Open Source in der Datenintegration</a> wird das Ergebnis der Studie kurz zusammengefasst wiedergegeben. Das Papier lässt sich natürlich auch vollständig von der Talend-Website <a title="Talend Studie zu OS bei Datenintegration" href="http://www.talend.com/document-download.php?doc=landosdi" target="_blank">herunterladen</a>.</p>
<p>Die Einordnung des Artikels in den Bereich Client/Server ist für mich nicht direkt nachvollziehbar, aber vielleicht liegt es daran, dass einfach eine Rubrik &#8220;Software&#8221; oder &#8220;Daten&#8221; fehlt.</p>
<p>Jedenfalls kurz zusammengefasst: Von 1000 Befragten nutzen rund 30% zusätzlich zu den Kommerziellen, die ihnen zur Verfügung stehen auch noch Open-Source Programme, um Aufgaben überhaupt oder aber effizienter erledigen zu können. </p>
<p>Um&#8217;s Geld (für Lizenzkosten) scheint es dabei den wenigsten Anwendern zu gehen. Viel wichtiger scheinen Leistungsfähigkeit und Herstellerunabhängigkeit (gegenüber proprietären Lösungen) zu sein.<br />
Die weiteren Zahlen will ich hier gar nicht alle aufführen; sie lassen sich im Artikel oder im Whitepaper nachlesen.</p>
<p>Ich kann hier natürlich nicht anders, als  zu schreiben: Benutzt doch einfach alle Talend Open Studio zu ETL-Zwecken. Ich würde mich freuen <img src='http://blog.dijit.de/wp-includes/images/smilies/icon_smile.gif' alt="Icon Smile in " class='wp-smiley' /> </p>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/03/umfrage-open-source-in-der-datenintegration/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ETL-Software Benchmark</title>
		<link>http://blog.dijit.de/2009/03/etl-software-benchmark/</link>
		<comments>http://blog.dijit.de/2009/03/etl-software-benchmark/#comments</comments>
		<pubDate>Sat, 07 Mar 2009 17:56:48 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Business Intelligence]]></category>
		<category><![CDATA[ETL]]></category>
		<category><![CDATA[Talends Software]]></category>
		<category><![CDATA[benchmark]]></category>
		<category><![CDATA[software]]></category>
		<category><![CDATA[vergleich]]></category>

		<guid isPermaLink="false">http://blog.dijit.de/?p=183</guid>
		<description><![CDATA[Wenn auch nicht ganz neu &#8211; ich hatte diesen Benchmark bereits als PDF gesehen &#8211; hier mal ein Vergleich einiger der bekanntesten ETL-Tools. Ganz klar, Talend Open Studio ist natürlich auch vertreten, wenn auch noch in der Version 2.4. Das schöne an diesem Benchmark ist, dass darin die jeweiligen Testcases für alle Tools entsprechend bebildert]]></description>
			<content:encoded><![CDATA[
<!-- google_ad_section_start -->
<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fetl-software-benchmark%2F"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fblog.dijit.de%2F2009%2F03%2Fetl-software-benchmark%2F&amp;source=thomasfriebel&amp;style=normal" height="61" width="50" alt=" in " /><br />
			</a>
		</div>
<p>Wenn auch nicht ganz neu &#8211; ich hatte diesen Benchmark bereits als PDF gesehen &#8211; hier mal ein Vergleich einiger der bekanntesten ETL-Tools. Ganz klar, Talend Open Studio ist natürlich auch vertreten, wenn auch noch in der Version 2.4.</p>
<p>Das schöne an diesem Benchmark ist, dass darin die jeweiligen Testcases für alle Tools entsprechend bebildert sind. Daher kann man sich so mal einen groben Überblick über die entsprechenden Programme verschaffen und vergleiche ziehen.</p>
<p><a style="font:14px Helvetica,Arial,Sans-serif;display:block;margin:12px 0 3px 0;text-decoration:underline;" title="Etl Benchmarks Manapps C221008" href="http://www.slideshare.net/guest738c5586/etl-benchmarks-manapps-c221008-presentation?type=document">Etl Benchmarks Manapps C221008</a></p>
<div id="__ss_800863" style="width: 477px; text-align: left;"><object width="477" height="510" data="http://static.slideshare.net/swf/ssplayerd.swf?doc=etlbenchmarksmanappsc221008-1227987934443903-8&amp;rel=0&amp;stripped_title=etl-benchmarks-manapps-c221008-presentation" type="application/x-shockwave-flash"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="src" value="http://static.slideshare.net/swf/ssplayerd.swf?doc=etlbenchmarksmanappsc221008-1227987934443903-8&amp;rel=0&amp;stripped_title=etl-benchmarks-manapps-c221008-presentation" /><param name="allowfullscreen" value="true" /></object> </p>
<div style="font-size: 11px; font-family: tahoma,arial; height: 26px; padding-top: 2px;">View more <a style="text-decoration:underline;" href="http://www.slideshare.net/">documents</a> from <a style="text-decoration:underline;" href="http://www.slideshare.net/guest738c5586">guest738c5586</a>. (tags: <a style="text-decoration:underline;" href="http://slideshare.net/tag/datastage">datastage</a> <a style="text-decoration:underline;" href="http://slideshare.net/tag/informatica">informatica</a>)</div>
</div>
<p>Gefunden auf <a title="slideshare.net" href="http://www.slideshare.net" target="_blank">slideshare.net</a> .</p>
<!-- google_ad_section_end -->
]]></content:encoded>
			<wfw:commentRss>http://blog.dijit.de/2009/03/etl-software-benchmark/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
