Die Macht der Logfiles


Wie häufig kommt der Googlebot und welche Seiten besucht er denn bei mir? Das sind fragen die man mit dem gängigem SEO gar nicht beantworten kann. Um dem genauer auf den Grund zu gehen, muss man sich mit den Logfiles seiner Seite beschäftigen.

Serverlogfiles immer Prüfen

Warum ist es wichtig die Logfiles auszuwerten?

Was viele nicht wissen, auch Google hat ein Budget zum Crawlen von Webseiten. Das heist wenn der Crawler bei Dir schlechten oder fehlerhaften Content Crawlt, wird er wahrscheinlich nie oder selten den Content aufnehmen den er soll.
In der Search Console kannst Du zwar sehen wie viele Seiten Google gecrawlt hat, aber bei weitem nicht alle. Auch im neuen Abdeckung Report sieht man nicht alles. Umso wichtiger ist es eben die Logfiles hier heranzuziehen.

Was zur hölle sind Logfiles?

Wenn Ihr Euch das fragt, lasst es euch kurz erklären.
Logfiles sind Dateien die auf dem Server gespeichert werden und jeden HIT auf der Seite aufzeichnen. Das heist jeder klick, jeder Aufruf einer Seite wird hier Protokolliert. Wenn Du eine große Seite hast oder viele Hits/zugriffe, dann werden diese Logfiles schnell sehr groß und von einigen Providern auch schnell gelöscht. Somit solltet Du diese selbst sichern zur weiteren Verwendung. Natürlich gibt es auch Provider die diese Logfiles ebenso speichern in Archivform.
Der Inhalt dieser Logfiles oder sogar jeder einzelnen Zeile sind folgende:
User Agent, IP des Aufrufenden, Zeitpunkt des Aufrufs, URI, also den Pfad der aufgerufenen Seite, Status Code, also die Antwort des Servers, Übertragene Bytes
Dadurch das die IP in diesen gespeichert wird, haben wir hier gleich mal ein „Problem“ mit der DSGVO, also ein Datenschutzrechtliches Problem. Man kann die letzte 3er stelle aber bei den meisten Providern per Knopfdruck anonymisieren lassen. Das sollte man auch tun.

Kann ich sehen was der Googlebot Crawlt?

Das kann man tatsächlich genau in den Logfiles sehen. Eine Zeile sieht zum Beispiel so aus:
66.249.0.xxx – – [02/Jan/2019:00:05:44 +0100] „GET /sitemap.xml HTTP/1.1“ 200 905 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“ „Traffic IN:593 OUT:5281“ „Client: 66.249.66.xxx“
An diesem Beispiel sieht man auch gleich das der Googlebot sehr einfach zu identifizieren ist.

der Googlebot hinterlässt seine Spuren

Wie werte ich nun diese Logfiles aus?

Das kann man mit warscheinlich sehr hohem Aufwand manuell machen. Man lädt sich die Logfiles runter, unter umständen riesige Datenmengen, entpackt diese und macht sich Excel Listen.
Es geht aber auch einfacher. Es gibt natürlich Tools die so etwas automatisiert machen können.
Dazu schaut einfach mal in Google nach Logfile Analyzer. Zwei Tools die ich aber auch gut finde, sind ELK und Screaming Frog Analyzer.

Aber was bringt mir das jetzt mit dem Auswerten?

Mit den Logfiles findet mal direkt heraus welche URL’s gecrawlt werden. Darunter werden sich bestimmt auch URL’s mit Parameter finden die eigentlich nichts in Google zu suchen haben. Diesen kann man sich dann direkt annehmen und in der Parameterbehandlung ausschalten.

Alles schön und gut, aber was kann ich damit nun ableiten?

Ja, das ist erstmal ein großes Problem. Man steh am Anfang erstmal da und kapiert die Daten die hier geliefert werden gar nicht.

Statuscodes verraten Dir was falsch läuft

Hier noch 3 Maßnahmen für Dich:

  • Hattest Du einen Relaunch und es werden plötzlich viel mehr URLs gecrawlt als gewollt? Schau nach ob diese URL’s nötig sind und ob diese automatisiert entstanden sind.
  • Hast Du viele Produkte? Werden alle Produkte gecrawlt? Falls nicht, prüfe die interne Verlinkung.
  • Schau Dir Status Codes wie 404 oder 301 an, Kommen diese sehr häufig am tag vor? 404 sind Fehlerseiten, kannst Du diese umleiten auf relevante Seiten? Bei 301er solltest Du schauen ob diese korrekt verlinkt sind.

Hat Dir der Artikel gefallen ? Dann hinterlasse mir Doch einen Kommentar.