Wave me: thomasfriebel @ googlewave . com
Datenqualität in Textfeldern mit RegExp überprüfen
Einen interessanten Ansatz, um Texteingaben nach bewussten Falscheingaben zu durchsuchen, hat mein Kollege Sebastiao in seinem Blog veröffentlicht.
Er macht sich dabei eine sehr interessante Tatsache zu nutze – das Tastatur-Layout.
Die Problemstellung kennen sicherlich einige Web-Programmierer:
Der Besucher der Website soll, bevor er z.B. ein Whitepaper oder ein Programm herunterladen kann, möglichst viel über sich und sein Unternehmen preisgeben. Je besser diese Informationen sind, desto leichter kann das Marketing diese im Anschluss verwerten.
Nun hat nicht jeder Besucher Lust, von einem Vertriebler angeschrieben oder angerufen zu werden, denn diese könnenn ja oftmals sehr hartnäckig sein. Dummerweise sind immer einige Felder als Pflichtfelder gekennzeichnet, ohne deren Befüllung man einfach nicht weiter zum gewünschten Ziel kommt.
Ablösung schafft das Eingeben von “irgendwas”, hauptsache, das Feld enthält Text, und der Weiter-Link funktioniert endlich.
Um den Vertrieb nicht unnötig mit solchen Pseudo-Adressen zu quälen, sollten diese schnellstmöglich wieder aus dem CRM oder der Datenbank entfernt werden.
Nur, wie soll man diese denn automatisiert von guten Eingaben unterscheiden?
Sebastio bedient sich dabei Regular Expressions. Und wie soll das nun von statten gehen?
Ganz einfach, wenn man davon ausgeht, dass auf Grund des Layouts der Tastatur, also der Anordnung der Tasten, die meisten Eingaben aus zufälligen Konsonantenketten bestehen.
Man kann das sehr gut bei sich selbst beobachten. Die Zeigefinger liegen bei mir zum Beispiel immer auf der mittleren Buchstaben reihe. Linke Hand auf dem F, rechte Hand auf dem H.
Wenn ich eben mal “Blödsinn” eingeben möchte, dann drücke ich einfach meiner Finger der Reihe nach auf die darunterliegenden Tasten. Und das sind dann eben lauter Konsonanten, denn die Vokale befinden sich alle, bis auf das A, in der ersten Buchstabenreihe.
Tatsächlich ist es beim französischen Layout sogar wirklich so, dass alle Vokale ausschließlich in der ersten Zeile liegen.
Die RegExp von Sebastiao würde ich daher für deutsche Benutzer ein wenig umändern, so dass auch mal ein A in einem Wust von Konsonanten, aus der mittleren Zeile auftauchen darf.
Eine solche Regel ist natürlich auch nicht auf den Talend Open Profiler beschränkt, man kann diese genauso in PHP oder Perl oder sonstwo einsetzen.

| Artikel drucken | Dieser Beitrag wurde von Thomas am 13.03.2009 um 19:08 veröffentlicht und unter Blog, ETL, Talends Software, Web 2.0 abgelegt. Du kannst allen Antworten zu diesem Beitrag durch RSS 2.0 folgen. Du kannst eine Antwort schreiben oder einen Trackback von deiner eigenen Seite hinterlassen. |
