Wave me: thomasfriebel @ googlewave . com
Talends Software
Video: Martin Lange zu seinen neuen Palo-Komponenten
10. Jul
Ein neues Video im Talend-Channel zeigt Martin Lange im Interview. Er erklärt darin, was es mit den neuen Palo-Komponenten auf sich hat.
Diese Konnektoren gehen weit über die Fähigkeit der bisherigen Palo-Komponente in Talend Open Studio hinaus, denn sie erlauben nicht nur das befüllen der Measures, sondern auch das Erstellen von Dimensionen, Cubes und Hierarchien, sowie das Auslesen der im Cube gespeicherten Daten. Und das mit ungeahnter Geschwindigkeit, da hier das native Network-Protocoll verwendet wird. Ein weiterer, sich daraus ergebender Vorteil ist, dass man nun endlich auch von Nicht-Windows-Systemen aus auf Palo-Server zugreifen kann.
Wer Palo nicht kennt, sollte sich übrigens unbedingt mal die geniale OLAP-Lösung von Jedox anschauen.
Hier nun das besagte Video (auf Deutsch). Viel Vergnügen beim Anschauen.
Video: Talend MDM Community Edition Installations-Tutorial
13. Mrz
Jim Walker, der Talend MDM Produktmarketing Manager, erklärt in diesem Tutorial-Video, wie man die Open Source MDM-Lösung von Talend installiert und konfiguriert.
Weitere Videos zu Talend findet man im TalendChannel auf youtube.
Possibly related posts: (automatically generated)
- Related posts on howto
- How to use SoftBank prepaid on your US iPhone « chris.ivarson
- HOW TO MAKE PLUM WINE FROM SCRATCH – using 5 gallon demijohns …
- Howto: Make Firefox Load Faster | Fix Mozilla Firefox
Talend MDM
03. Mrz
Ich hatte letzte Woche das Vergnügen, mich mit Talends Master Data Management Lösung 5 Tage lang intensiv auseinanderzusetzen und muss sagen: Genial!
Mit der Version 4, die wohl für Mai 2010 antizipiert ist, wird uns ein wirklich großer Wurf gelingen. Die Lösung bietet alles, was man zum MDM benötigt – out-of-the-box und all-in-one.
Data Container und (Active) Data Model
Das Herzstück der Lösung ist der Data-Hub. Dieser kann in unterschiedliche Data Container unterteilt werden in denen wiederum unterschiedliche, frei definierbare Data Models verwaltet werden. Ein solches Datenmodell wird als XML-Struktur (genauer, als XSD) definiert und kann entweder mit den grafischen Boardmitteln Talend MDMs oder externen XML-Modellierungstools erstellt und gepflegt werden.
Änderungen an den Datenmodellen können zu jedem Zeitpunkt erfolgen, ohne dass zwangsläufig auch Bestandsdaten im Hub aktualisiert werden müssen.
Für bestimmte Benutzerrollen kann explizit der Schreib/Lese-Zugriff geregelt werden. Auch Pattern und andere Constraints können für jedes Element einer Entität (Stammdatensatz) hinterlegt werden. Ebenso ist die Verwaltung von Kardinalitäten möglich (meist 0..1). Durch die Angabe von Fremdschlüssel-Elementen lassen sich verschiedene Entitäten in Beziehung zu einander bringen.
Die verwendete XML-Datenbank, standardmäßig eXist, unterstützt idealerweise die Indexierung der Daten, so dass der Stammdatenbestand schnell durchsucht werden kann.
Der Inhalt des MDM Hub kann zusätzlich auch noch in beliebig vielen Versionen gehalten werden. Somit hat man die Möglichkeit zu jedem, zuvor versionierten Daten- und Konfigurationsstand, zurück zu springen.
Übrigens ist es auch leicht möglich, mehrere Hubs gleichzeitig zu betreiben und sich untereinander synchronisieren zu lassen. Somit kann gewährleistet werden, dass der Ausfall bzw. die Unerreichbarkeit eines einzelnen Hubs ein weltweit agierendes Unternehmen nicht lahmlegt.
Web-UI
In einer browserbasierten Oberfläche können neue Stammdaten in den Data Container eingepflegt und Bestehende geändert und gelöscht werden. Somit braucht ein Business-Anwender nicht mit dem Studio zu hantieren, sondern kann sich wirklich auf seine Aufgabe konzentrieren. Mithilfe von zuvor definierten Workflows kann dabei auch sichergestellt werden, dass bestimmte Master-Data-Records nur von berechtigten Personen verändert werden. Ein einfacher Sachbearbeiter sollte vielleicht nicht unbedingt in der Lage sein, seine Gehaltseinstellungen zu verändern. Stattdessen beantragt er, gestützt durch die Workflow-Engine, eine Änderung des Gehalts, die dann von einem Vorgesetzten akzeptiert oder angelehnt wird. Ein Workflow ist in seiner Komplexität nicht limitiert. Die zugrundeliegende BPM-Lösung Bonita von BonitaSoft macht das grafische Erstellen von Workflows möglich.
Generell lässt sich die Berechtigung bis auf Feldebene herunterbrechen. Dies geschieht bei der Definition des Datenmodells. Die im Active Data Model hinterlegten Constraints und Labels werden ohne weiteres Zutun im Browser umgesetzt. Dadurch werden Fehleingaben im Data-Hub verhindert.
Datenverteilung
Zur Entgegennahme und Verteilung der Master-Data-Records dient die Integration Suite. Mit ihr lassen sich entsprechende Jobs auf die bekannte visuelle Art erstellen, die die Daten entweder in bzw. aus den Hub holen, oder aber Validierungen oder Bereinigungen dieser vornehmen. Da die Integration Suite ein (Java) Codegenerator ist, sind hier dem Entwickler keine Grenzen gesetzt. Somit ist Talends MDM-Plattform wirklich nach allen Seiten hin offen und vollkommen transparent.
Workflows mit Bonita
Bei Stammdaten handelt es sich per Definition um unternehmenskritische Daten. Eine Änderung dieser Daten erfolgt meistens eher seltener. Vor allem aber sind Änderungen an den Stammdaten gewissen Regeln unterworfen. Hier gilt es Abhängigkeiten zu berücksichtigen, dort Berechtigungshierarchien abzubilden. Mit der Workflow-Engine von BonitaSoft ist das auf einfache Art möglich. Workflows werden in der Workflow-Perspektive angelegt und verwaltet. Erstellte Workflows werden dann mithilfe von Triggern in den Prozess mit eingebunden.
Vieles mehr
Das sind nur ein paar der Dinge, die Talend MDM ausmachen. Es gibt noch viel mehr zu entdecken und auch noch vieles, worüber ich bald schreiben werde.
Bis dahin kann ich nur eines empfehlen: Ausprobieren!
Übrigens: Weitere Infos zu Talend MDM gibts auch im Talend-Forum unter http://www.talendforum.de/thread-18.html
Possibly related posts: (automatically generated)
- Related posts on mdm
- Tobis-Blog.de » Schnäppchen & Links: u.a. mit Southpark.de: South …
- Melhores do Mundo – Megan Fox é uma boneca
- Related posts on Talend
- Talend and BonitaSoft sign an OEM partnership
- Open Source can help cut IT software budgets in 2010
5 Minuten-Rundgang durch Talend Open Studio
08. Feb
Nicht unbedingt brandneu, aber sicherlich sehr interessant für alle, die es noch nicht kennen: Das 5-Minuten-Video über Talend.
Weiteres Video-Footage und Recorded Webinars zu verschiedensten Themen gibt’s natürlich auf der Talend-Website und im Talend Youtube-Channel.
Possibly related posts: (automatically generated)
Talend veröffentlich Open Source MDM
25. Jan
So schnell kann es gehen. Talend hat heute, am 25. Januar 2010, seine Open Source Lösung Talend MDM Community Edition vorgestellt. Nach gerade mal sechs Monaten Entwicklung und Anpassung wurde die von BonitaSoft erworbene Lösung in die Produktlandschaft von Talend integriert.
Damit ist Talend der einzige Softwarehersteller, der das komplette Portfolio im Bereich Datenmanagement abdeckt. Von Datenqualität und -profiling über Datenintegration hinzu Stammdaten-Management bietet Talend nun ein komplettes Lösungspaket an. Und das sowohl kostenlos als Open Source und zu erschwinglichen Preisen für Unternehmen, die noch weitere Leistungsmerkmale benötigen
Weil vielleicht nicht jedem bekannt ist, um was es sich bei Master Data Management (kurz MDM) eigentlich handelt, hier mein vorerst einfacher Versuch es zu beschreiben:
In Unternehmen werden gleiche Entitäten von verschiedenen Applikationen verwaltet. Beliebtes Beispiel hier ist der Kunde. Der steht im ERP-System (SAP, Navision, etc.), wird im Web-Shop gepflegt und taucht auch noch in irgendwelchen Excel-Listen auf. Wie stellt man nun sicher, dass der gleiche Kunde in allen System auch die gleiche Anschrift hat, oder z.B. die gleiche, unternehmensweite Kundennummer? Wenn man nicht gerade Heerscharen von sich langweilenden Entwicklern beschäftigt, gar nicht, oder eben mit einem MDM-System. Dieses kümmert sich um die Integrität solcher Stammdaten.
Wer also gleich mal ausprobieren möchte, was das Talend MDM kann, der braucht es sich nur von der Talend-Website herunterladen.
Und wer während des Herunterladens (es sind knapp 280 MB) mehr lesen möchte, dem empfehle ich die heute veröffentlichte Pressemitteilung zu lesen.
Und wem das immer noch nicht reicht, der sollte mal Steve Sarsfields Blog besuchen und dort den Artikel ETL, Data Quality and MDM for Mid-sized Business lesen.
Possibly related posts: (automatically generated)
- Related posts on master data management
- Pack de smileys : plus de 3000 smileys ! « julius
- 451 CAOS Theory » 451 CAOS Links 2010.01.25
- Teleseminar and Webinar Related Info » Teleseminar Hosting …
Neue Version 3.2.3 von Talend Open Studio und Talend Open Profiler
14. Jan
Die Programme TOS (für Datenintegration/ETL) und TOP (zum Datenprofiling bzw. Datenqualitätsanalyse) wurden am Dienstag in der Version 3.2.3 veröffentlicht.
Es handelt sich dabei überwiegend um Bugfixes und nur winzige Erweiterungen. Neue Features gibt es keine zu melden.
Dafür wird dann voraussichtlich im April jeweils die Version 4.0 released. Somit ist die Version 3.2.3 nur eine Veredelung der bereits genialen Programme Open Studio und Open Profiler.
Changelog zu Talend Open Studio 3.2.3
- [metadata wizards] AS400 – Retrieve schemas of another library (mlelandais) – resolved/needs doc.
- [graphical User Interface] Old job imported to TOS, item of it is not corresponding (qwei) – closed.
- [SCDELT] [SCDELT component] start and end date list can’t get data after add schema (qwei) – closed.
- [Java components] [tPostgresqlSCDELT], type1 not effective if the compareing fields value is NULL (mhirt) – closed.
- [Java components] tFetchFile : If nothing put in file name, there is a problem to get the initial filename (mhirt) – closed.
- [Java components] tDenormalizeSortedRow generate invalid java code (mhirt) – closed.
- [Java components] tConvertType: Add die on error parameter (mhirt) – closed.
- [Java components] tExtractXMLField doesn’t support null Integer values (mhirt) – closed.
- [schema management] DB2 retrieve schema , error (nrousseau) – closed.
- [repository] Fail to rename folder (qwei) – closed.
- [metadata wizards] DB connection , export as context can not work (qwei) – closed.
- [repository] Fail to update or delete data in MSSQL database (nrousseau) – closed.
- [Java components] tFileProperties: md5-checksum is not always 32 chars long (mhirt) – closed.
- [Java components] tfileInputDelimited text enclosure not supporting context variable (mhirt) – closed.
- [Java components] Inserting invalid dates in MSSQL-Server always throws an error and can’t be redirected to rejects (mhirt) – closed.
- [Java components] Column datatype DATE in teradata occurs trouble when INSERTING (mhirt) – closed.
- [Java components] in a multi-schema file input one schema is skipped due to an unappropriate “trim()” (mhirt) – closed.
- [repository] Open older version problems in the version tab of jobsetting view. (qwei) – closed.
- [metadata wizards] create connection wizard is readonly (qwei) – closed.
- [technical] Need to limit or avoid as much as possible the repository access (nrousseau) – closed.
- [sqlBuilder] [sqlbuilder] “Read query” seems can edit (qwei) – closed.
- [job designer editor] tRunJob problems (xhyu) – closed.
- [graphical User Interface] Multiple row1 structures created in a job. (xhyu) – closed.
- [repository] delete a folder which contains some jobs, cause error (xhyu) – closed.
- [business model] assagin file to business models (xhyu) – closed.
- [job designer editor] saving schema in metadata dialog cause problems (xhyu) – closed.
- [Java components] No header is written in component tFileOutputExcel (mhirt) – closed.
- [Java components] [tFileInputXML] : Get Nodes option, problem on optional node. (mhirt) – closed.
- [graphical User Interface] tOracleOutput using an existing connection shouldn’t have batch size option (ayvonet) – closed.
- [??? unknown ???] workspace in use,can’t start multiple instances at the sametime though I open first wrokspace (qwei) – closed.
- [Java components] Unable to use tInformixInput – java.lang.reflect.InvocationTargetException (qwei) – closed.
- [Java components] Using an Oracle Service Name connection (qwei) – closed.
- [Java components] tFileInputMSDelimited does not accept “+” as delimiter (qwei) – closed.
- [general] A strange log in the workspace log file (cli) – closed.
- [Java components] Dublicate local variable in tELTAggregate (mhirt) – closed.
- [Java components] tFilterRow: invalid operator description (mhirt) – closed.
- [Java components] log4j Warnings with tFileInputExcel with Excel 2007 files (mhirt) – closed.
- [Java components] [tMSSqlOutput] : Job lock when using option “Create if not exist” or “Drop table if exist and create” (mhirt) – closed.
- [technical] Some threads can remain in memory after use the application for some time (qwei) – closed.
- [properties] Error in generate code when using a xml connection with source file *.xsd (qwei) – closed.
- [Java components] Informix database in stats & logs with error “Transactions not supported” (qwei) – closed.
- [Java components] Informix database in stats & logs generate code error (qwei) – closed.
- [Java components] Can’t hold multiple SQL Templates in ELT components (qwei) – closed.
- [Java components] ConcurrentModificationException when collecting stats from parallel iterate (mhirt) – closed.
- [metadata wizards] XML metadata wizard cannot process specific empty attribute : xmlns (xhyu) – closed.
- [graphical User Interface] From time to time, components are no more clickable (nrousseau) – closed.
- [schema management] Select ‘Use the sql filter’ as filter conditions, error pop up (xhyu) – closed.
- [properties] SCD component config node parameters is error. (qwei) – closed.
- [Java components] tAdvancedFileOutputXML do include namespace in output file (lwang) – closed.
Changelog zu Talend Open Profiler 3.2.3
- [database support] Have a DB2/ZOS support in TOP like in TOS (scorreia) – closed.
- [analysis] Column analysis Blank count uses TRIM() function not supported by DB2 (hmassy) – resolved/needs doc.
- [analysis] schema analysis on sql server always failed (bzhou) – closed.
- [database support] can’t show oracle database structure (bzhou) – closed.
- [analysis] not match row Query in Redundancy analysis don’t return the right result (bzhou) – closed.
- [DQ Repository View] cannot move analysis into another folder (bzhou) – closed.
- [indicators] Show text indicators in DQ repository (bzhou) – closed.
- [DQ Repository View] Cannot create new analysis from subfolders (bzhou) – closed.
- [wizards] Issues on indicator threshold options (bzhou) – closed.
- [drill down] the sql is not correct. (bzhou) – closed.
- [technical] Talend Open Profiler crash on startup (bzhou) – closed.
- DQ Repository View] Wrong lable of delete menu just for the dqrule and resource file. (bzhou) – closed.
- [drill down] Cannot drill down into data after a migration (bzhou) – closed.
- [analysis] Wrong datamining type for datetime column in Time correlation analysis (bzhou) – closed.
- [analysis] wrong tooltip message even the number of matched rows in the specify range. (bzhou) – closed.
- [analysis] Sybase connection Analysis not executed yet: wrong display (bzhou) – closed.
- [analysis] DB Schema not recognized on Functional Dependency Analysis (bzhou) – closed.
- [database support] odbc support about ms access (bzhou) – closed.
- [database support] odbc support about oracle (bzhou) – closed.
- [talend exchange] Enable the user to adapt the timeout variable for the Talend Exchange connection (hcheng) – closed.
tFileFetch: HTTP-Zugriff in Talend Jobs
18. Nov
Mit tFileFetch kann man in seinen ETL-Prozessen auf beliebige HTTP-Server zugreifen, entweder um Dateien herunterzuladen, oder Daten zu übermitteln. Auch der Upload von Dateien ist dabei möglich. Ausserdem bietet tFileFetch auch den lesenden Zugriff auf Dateien auf einem FTP- sowie auf einem Samba (SMB)-Server. FTP und SMB-Zugriff werde ich jedoch in diesem Beitrag außenvorlassen.
![]()
Die Komponente tFileFetch, deren Name zugegebenermaßen nicht unbedingt auf die ganze dahinterliegende Funktionalität schließen lässt, befindet sich im Bereich Internet der Komponenten-Palette.
Wenn das Protokoll http ausgewählt ist, kann man zum einen Dateien und Seiten aus Talend herunterladen und zum anderen auch HTML-Formulare ausfüllen, ja sogar Dateien hochladen.
Im Feld URI muss man dazu die vollständige Adresse samt Protokoll (also http://) angeben. Das Destination Directory sollte auf das Verzeichnis zeigen, in dem das Ergebnis des Aufrufs abgelegt werden soll. Je nachdem, ob man nun eine Datei herunterlädt, eine Seite aufruft oder ein Formular abschickt, wird das Ergebnis des Aufrufs dort unter dem entsprechenden Namen abgelegt (also bei http://www.meinserver.de/xyz/index.html als index.html).
Möchte man dies nicht, so kann man im Feld Destination Filename auch einen eigenen Namen explizit vergeben.
Beim Zugriff auf HTTP-Server werden für das Öffnen eines Dokuments normalerweise die Methode GET und beim Versenden von Formulardaten die Methode POST verwenden. Auch wenn es noch weitere Zugriffsmethoden (wie z.B. PUT oder DELETE) gibt, werden diese von tFileFetch nicht unterstützt. Der Zugriff über GET bedingt, dass evtl. zu übertragende Formulardaten in der URL übergeben werden. Daher ist der Upload von Dateien nur mit POST möglich. Auch ist die Anzahl der Zeichen, die in einer URL enthalten sein dürfen auf unter 4000 beschränkt. Aus diesem Grund ist standardmäßig die Checkbox POST method aktiviert. Möchte man keine Formulardaten an den Server übermitteln, empfiehlt es sich daher, diese Checkbox abzuwählen.
In der Tabelle Parameters können die einzelnen Formularfelder in Form von Key-Value-Paaren ausgefüllt werden. Für jedes Feld fügt man einfach mit dem grünen Plus eine neue Zeile in der Tabelle hinzu. Die Spalte Name muss den Feldbezeichner enthalten während in Value der zu übertragende Wert eingetragen wird.
Möchte man Dateien mit dem Formular hochladen, so muss dies im Reiter Advanced settings eingerichtet werden. Hat man die Checkbox Upload ausgewählt, so erscheint darunter eine Tabelle. In dieser Tabelle trägt man nun wieder die Namen der File-Upload-Felder ein und unter File den absoluten Pfad zur Datei.
Beim Upload von Dateien ist es erforderlich, dass die Übertragungsmethode POST unter Basic settings aktiviert ist.
Ist beim Zugriff auf die angegebene URI eine HTTP-Authentifizierung erforderlich, so kann man die entsprechende Checkbox anwählen und dann den Benutzernamen und das Passwort angeben.
Seit der Version 3.2 von Talend Open Studio und Talend Integration Suite lassen sich Proxy-Einstellungen job-weit mit der Komponente tSetProxy einrichten, daher verzichte ich auf die Beschreibung der Proxy-Settings in tFileFetch.
Beim Zugriff auf einen Server kann natürlich auch einmal ein unerwünschter Zustand eintreten, wie z.B. eine Überlastung oder Downtime des Servers. Damit der Talend-Prozess dann nicht endlos wartet, bis seine Anfrage beantwortet wird, gibt es das Feld Timeout. Hier kann man die maximale Zeit, die die Komponente geduldig auf Response wartet, in Millisekunden angeben.
In diesem Beispielszenario wird ein Formular per POST an eine URL geschickt und, mit den per File-Upload übermittelten Transaktionen, aus der Datei transaktionen_2009_11.csv, eine CSV-Datei erzeugt. Diese wird als Ergebnis des Aufrufs im Verzeichnis /var/temp/result/ als umsaetze.csv abgelegt.
Da es sich bei dieser URL um einen geschützten Bereich auf dem Web-Server handelt, werden der Benutzername und das Passwort für die Authentifizierung mit übertragen. War der Aufruf erfolgreich, so werden die heruntergeladenen Daten mit der Komponente tFileInputDelimited eingelesen und mit tMysqlOutput in die Zieltabelle einer MySQL-Datenbank übertragen.
Aber auch eine Spam-Maschine lässt sich mit dieser Komponente relativ schnell und unkompliziert erstellen. Nur wie das geht werde ich hier sicherlich nicht vormachen.
Possibly related posts: (automatically generated)
- Related posts on komponente
- Hirnfasching.de» Blogarchiv » Neues aus den Niederlanden
- Alexander Ambronn » Coaching bei Umstrukturierungen stoppt …
- Rolf.Aschenbeck » Blog Archiv » Riesterrente rechnet sich nicht
tServerAlive: Lebt denn der Server noch?
16. Nov
Beim Design von Datenintegrationsprozessen macht man sich oftmals viele Gedanken im Vorfeld. So werden Schwächen in der Datenqualität meist schon vorab ermittelt (z.B. mit Talend Open Profiler) und dann im ETL-Prozess eine entsprechende Optimierung umgesetzt.
Auch zur Laufzeit auftretende Fehler, wie der Klassiker, die NullPointer-Exception werden bereits berücksichtigt und z.B. mit tSchemaComplianceCheck verhindert. Aber eine Prüfung auf Verfügbarkeit eines entfernten Rechners (z.B. dem Datenbank- oder dem FTP-Server) wird eher selten explizit vorgenommen. Meistens laufen die entsprechenden Komponenten dann eben in eine entsprechende Exception und der Prozess wird (durchaus auch kontrolliert) beendet.
Dumm nur, wenn bis dahin schon andere System angezapft oder z.B. temporäre Dateien angelegt wurden. Viel Aufwand, der letztlich umsonst war und u.U. aber entsprechende Last verursacht hat.
Mit tServerAlive hat man die Chance, diese unnötige Last zu vermeiden. tServerAlive befindet sich in der Komponenten-Palette im Bereich Misc bzw. Verschiedenes. Die Komponente tServerAlive pingt ein entferntes System entweder über das Ping- oder das Telnet-Protokoll an.
Erhält tServerAlive im definierten Zeitraum (siehe das Feld Timeout) keine entsprechende Antwort vom Zielsystem, so ist das Ergebnis des Aufrufs false und wird in der globalMap abgelegt. Antwortet der angepingte Rechner hingegen, so schreibt tServerAlive true in die globalMap (z.B. tServerAlive_1_SERVER_ALIVE_RESULT).
Der Zugriff auf das Ergebnis erfolgt dann einfach via ((Boolean)globalMap.get(“tServerAlive_1_SERVER_ALIVE_RESULT”)).
Dieses Szenario pingt meinen Server an. Das Ergebnis des Ping-Versuchs wird mit Hilfe von tFixedFlowInput in einen künstlich generierten Datensatz übertragen.
Hier sieht man den vollständigen Zugriff auf das Ergebnis, in Form eines Boolean-Objekts (true/false), aus der globalMap.
Dieser Datensatz wird anschließend mit tLogRow auf die Konsole ausgegeben. Wie dieser Output dann aussieht, zeigt das Bild links.
Somit hat man ein einfaches Instrument an der Hand, um sicherzustellen, das entfernte Systeme, auf welche man in seinen ETL-Jobs zugreifen möchte, auch wirklich verfügbar sind.
Oder man programmiert sich mit tServerAlive und einer tInfiniteLoop einen Wächter, der einfach in regelmäßigen Intervallen prüft, ob noch alle Systeme laufen und ggfs. eine Status-EMail verschickt.
Possibly related posts: (automatically generated)
- Related posts on komponente
- Wir haben das Rauchverbot gelockert, so please stop smoking …
- In Israel wurde der Raketenabwehrschild der NATO geschmiedet und …
- Social Media – Spiegel der Gesellschaft « Totterturm
tApacheLogInput: Apache Logfiles in TOS einlesen
12. Nov
Der einfachste Weg, um standardformatierte Log-Files des Apache HTTP-Servers in einem Talend-Job einzulesen, ist es die Komponenten tApacheLogInput zu verwenden.
tApacheLogInput geht davon aus, dass das Logfile in dem Format vorliegt, in welchem Apache HTTP es standardmäßig erzeugt. Sobald man an der Konfiguration der Logfile-Generierung seitens Apaches Änderungen vornimmt, ist die Kompontene tApacheLogInput nicht mehr zu verwenden. Dann heißt es, mit tFileInputPositional die Struktur nachzubauen.
Das Standard-Schema der Komponente tApacheLogInput sieht wie hier dargestellt aus und ist nicht veränderbar.
Einzustellen gibt es bei dieser Komponente nicht all zu viel. Lediglich der Pfad zum Logfile muss entsprechend angepasst werden.Optional kann die Job-Ausführung auch abgebrochen werden, sobald ein Eintrag im Logfile nicht dem Schema entspricht bzw. das Logfile nicht gelesen werden kann.
Sind die Daten des Apache Logfiles erstmal im Job, dann kann man damit ganz normal verfahren. Zum Beispiel liesse sich über die Spalte agent herausfinden, ob der Eintrag von einem normalen Website-Besucher oder aber von einem der vielen Robots und Spider (wie googlebot, googleadsense, yahooslurp!, etc.) stammt.
Possibly related posts: (automatically generated)
- Related posts on apache
- GET DOWN TONIGHT – Setting up a basic web server using Ubuntu 9.10 …
- Young guns and surprise guests turn Firebird Raceway into an …
- Related posts on howto
- How to configure Grub2 in Ubuntu 9.10 | Linuxers | Crazy Crispy’s Blog
TecChannel berichtet über Open Source BI-Tools
30. Okt
Dr. Klaus Manhart hat am 10. Oktober einen 12-Seitigen Artikel “Kostenlose Open Source BI-Tools und -Suiten“ auf TecChannel veröffentlicht.
Darin durchleuchtet er alle relevantent BI-Tools aus dem Open Source-Umfeld, wie z.B. JasperSoft, Pentaho, Kettle, Talend Open Studio, Palo oder Weka.
Wer sich also einen schnellen Überblick verschaffen möchte, sollte den Artikel durchlesen.
