Auf dem webspace auf dem dieser Blog läuft, kann man sich eine Applikation (webalizer) einrichten, um die die Statistiken zu betrachten. Um mir diesen Applikationsslot freizuhalten lade ich mir lieber bei Bedarf die aktuelle access.log herunter und jage sie durch webalizer.
Eigentlich ist das ja auch so simpel wie nur irgendwas, aber eines ärgerte mich dann doch zunehmend, vor lauter Bots war an eine Analyse gar nicht zu denken.
webalizer bietet zwar durchaus in der Konfigurationsdatei einiges an, um sich Bots zu entledigen, aber die zu konfigurieren war mir viel zu umständlich und unflexibel.
Also galt es den ganzen Mist herauszufiltern. Dazu bieten RegEx ein breites Spektrum.
Etwas vergleichbares hatte ich im Internet nicht gefunden, und da vermutlich auch andere dieses Schicksal teilen, werde ich ein kleines Shell-Skript zum herunterladen anbieten.
Im Prinzip muß man es nur von dem Ordner aus aufrufen, in dem sich die access.log-Datei befindet. (Achtung! - webalizer erzeugt u.a. eine index.html-Datei, es sollte also nicht im root-Verzeichnis eines webspaces erledigt werden.) Es wird eine Zwischendatei angelegt, aus der webalizer gespeist wird (eine direkte Pipe ist leider nicht möglich, da webalizer mit dem Erzeugen beginnt, bevor sed fertig ist), diese Hilfsdatei wird aber wieder entfernt. auch die Logdatei bleibt intakt, für diejenigen, die dies gerne auf einem Servre ausführen möchten.
Das Shell-Skript:

antibot.sh
Viel Erfolg!
Nergal