Zurück zum Blog

Google Analytics und Datenqualität

Liefert Google Analytics noch korrekte Daten?

Hatten Sie jemals mehr als eine Web-Analyse-Software für Ihre Website im Einsatz? Vielleicht wundern Sie sich, warum die Daten nicht immer übereinstimmen. In diesem Artikel gebe ich einen Überblick über Faktoren, welche die Zuverlässigkeit der aufgezeichneten Daten beeinflussen.

Analytics Screenshot

Wie viele Daten erfasst Google Analytics wirklich?

Update Juli 2020: Marco Saric hat in einem Blogbeitrag einen Testlauf mit einem Consent-Banner vorgestellt, welches 100 Prozent DSGVO konform implementiert ist (und es dem Besucher dementsprechend einfach macht Tracking abzulehnen). Das Resultat: Nur 9 Prozent der Benutzer stimmten dem Tracking zu.

Das Aufzeichnen von relevanten und korrekten Daten ist für die Planung fast aller Geschäftsprozesse unabdingbar. In vielen Fällen kann man beobachten, dass Tracking-Methoden für Websitestatistiken oft konträre Ergebnisse liefern. In diesem Beitrag analysiere ich anhand einiger Real-Live-Tests die Verlässlichkeit von Google Analytics und gebe einige Beispiele für Faktoren, welche die Ergebnisse beeinträchtigen können.

Ich konzentriere mich in diesem Beitrag auf Google Analytics als populärstes Beispiel für Web-Analyse-Software. Verwenden Sie keine Logfileanalyse oder eine selbst-gehostete Analysesoftware (z.B. Matomo) treffen die Informationen aber auch auf andere Anbieter zu.

Unser Test-Setup

  • Testzeitraum: ein Monat
  • Websites:
    • Website A (ca. 1500 Impressions / Tag)
    • Website B (ca. 733 Impressions / Tag)
  • Verwendete Tracking-Tools:
    • Google Analytics (traditionell)
    • Google Analytics (serverseitiges Tracking über Server Access-Log)
    • Matomo

Die Logfile-Daten wurden bereits bei der Aufzeichnung mittels einer Data-Pipeline von den wichtigsten Bots und Fehl-Hits bereinigt, welche den größten Teil des sonst üblichen "Over-Reportings" ausmachen (Google Analytics filtert zusätzlich noch genauer aus).

Die vorläufigen Ergebnisse:

Tracking-Tool Impressions Website A Impressions Website B Abweichung A Abweichung B
Google Analytics (traditionell) 306093 22727 Baseline Baseline
Google Analytics (serverseitig) 473874 36022 + 54,81% + 58,5%
Matomo 383576 28720 + 25,31% + 26,37%

Interessant ist die massive Abweichung des serverseitigem Trackings gegenüber dem clientseitigem Google Analytics. Nach einigen Maßnahmen zur Datenbereinigung stellt sich die Frage, ob hier noch primär die "traditionellen" Gründe für Overreporting (Crawler etc.) ausschlaggebend sind. Die ebenfalls hohe Diskrepanz zu Matomo (trotz ähnlicher Tracking-Strategie) ist ebenfalls bemerkenswert (nachdem die Abweichung lt. unserer Erfahrungen und den FAQ von Matomo durchschnittlich nur bei 5-10 Prozent liegen sollte). Dies deutet auf spezielle Faktoren hin, die eventuell in der betrachteten Zielgruppe häufiger auftreten. Wir werden das Thema in Zukunft weiter genau analysieren und gegenchecken.

Weitere Tests: Andere ähnliche Analysen versuchen unter anderem mittels "Obfuscation" (Umbenennen der Google-Analytics Scripts und Funktionen) AdBlockern und Browsern das Blocken des Google-Analytics-Codes zu erschweren. Nachdem aber die Daten schließlich an eine Domain von Google gesendet werden müssen, kann jedenfalls dieser letzte Schritt einfach geblockt werden.

Die Gründe für fehlende Daten in Google Analytics

Ich habe in einer kurzen Recherche über mögliche Gründe für die Abweichungen Punkte gesammelt, die vielleicht einige Hinweise geben können:

Grund 1: Ad-Blocker

Ad-Blocker als Browsererweiterungen sind derzeit beliebt wie nie zuvor: Populäre Plugins wie "AdBlock Plus" und "uBlock Origin", oder spezialisierte Privatsphäre-Plugins wie "Privacy Badger" können neben Werbeanzeigen auf Google, YouTube und Facebook auch alle gängigen Tracking-Codes blockieren.

Lt. Statistiken verwenden (in Europa, Stand Dez. 2019) ca. 35 Prozent aller Nutzer einen AdBlocker - Tendenz steigend.

Das Problem ist derzeit bereits so akut für Google, dass auch in Chrome jetzt ein AdBlocker integriert wurde. Dieser blockt zwar nicht alle Ads, soll aber das Problem von besonders unangenehmen Werbeschaltungen verringern (und vermutlich vermeiden, dass Benutzer dann einen AdBlocker installieren). Technische Änderungen in Google Chrome sollen die Möglichkeiten von zusätzlichen Ad-Blockern weiter einschränken.

Grund 2: Browser-Privatsphäreeinstellungen

Neben zusätzlichen Ad-Blockern bieten auch Browser Privatsphäreeinstellungen: Sowohl Mozilla Firefox (Privatsphäreschutz) und Apple Safari (ITP) können Google Analytics komplett blockieren.

Der Anteil beider Browser liegt (in Österreich, Stand Dez. 2019) bei über 33 Prozent (Mozilla Firefox: 21 Prozent, Safari: 12 Prozent) - dies hat durchaus Potential für verminderte Aussagekraft in der Statistik.

Grund 3: DSGVO On-Page Tracking Opt-Out

Die DSGVO (EUGH Urteil Oktober 2019) macht es notwendig, dass Cookies von Drittanbietern nicht mehr automatisch bestätigt werden dürfen. Eine Opt-Out Möglichkeit reicht im Fall von Google Analytics also nicht mehr aus.

Dies führt naturgemäß dazu, dass ein hoher Anteil an Benutzern auf das explizite Opt-In in Tracking-Software verzichten.

Grund 4: Fehler in Tracking-Scripts

Der Code, welcher auf der Website selbst für die Aufzeichnung der Daten zuständig ist, ist nicht immer unproblematisch. Ist dieser falsch eingebaut, hat man noch eines der besten Szenarien: Es werden keine Daten aufgezeichnet, was zumindest schnell zu erkennen ist. Komplexer ist das Verhältnis zwischen verschiedenen Einbaumethoden:

  • Direkter Einbau des Codes vs. Einbau über einen Tag Manager (Bsp. Google Tag Manager): Ein längerer Testlauf mit verschiedenen Einbaumethoden stellte um rund ein Prozent mehr Seitenaufrufe bei direktem Einbau des Analytics-Codes fest.
  • Leichte Fehler im Einbau: Code im Body-Tag vs. Head-Tag: Durch die Ladereihenfolge kann die Ausführung des Tracking-Codes beeinträchtigt werden: Quellen sprechen von bis zu 20 Prozent weniger augezeichneten Seitenaufrufen.
  • Manipulation oder alternativer Tracking-Code: Um (die eher schlechte) Performance des regulären Google-Analytics-Scripts zu verbessern greifen manche Websites auf explizites Caching / Inlining des Tracking-Scripts zurück oder nutzen eine alternative Implementierung. Technische Probleme können hier dafür sorgen, das das Tracking-Skript und somit die Aufzeichnung temporär nicht verfügbar ist.

Grund 5: Bessere Bot- und Crawlererkennung

Nicht jeder aufgezeichnete Seitenaufruf ist auch einem realen Besucher zuordenbar. Denn nicht nur Crawler von Suchmaschinen, sondern auch von sozialen Netzwerken (Facebook ..) oder Messengern (WhatsApp ..) und weiteren Plattformen rufen Seiten automatisiert auf - je nach Themenbereich, Umfang und Art der Website mehr oder weniger.

Hier hat insbesondere Google Analytics, nicht zuletzt aufgrund der guten Datenlage sehr gute Filtersysteme, um automatische Aufrufe auszufiltern.

Genaue Statistiken auch in Zukunft

Die schwindende Menge an durch Google Analytics erfasste Benutzer ist in vielerlei Hinsicht problematisch. Nicht nur, dass die konkrete Anzahl der User nicht mehr unbedingt die Realität widerspiegelt - das Bild des Benutzerverhaltens wird auch zu einem Benutzersegment hin verzerrt, welches weder Adblocker noch alternative Browser verwendet. Strikte Auslegungen der DSGVO können das Problem noch stark verschärfen.

Ich nehme nicht an, dass Trends zu mehr Privatsphäre noch umzukehren sind - wir arbeiten daher aktiv an Strategien, welche trotz geringerer Datenmenge genaue Informationen und Rückschlüsse auf die Effektivität von Werbemaßnahmen zulassen. Verwendet man ein Tool wie Google Analytics, können die Daten schon derzeit oft lückenhaft sein.