Unsere Spuren im Netz

Wo hinterlassen wir Spuren im Netz? Egal was wir tun, in dem Moment wo ein IP-Paket auf die Reise außerhalb unseres Netzes geht, entstehen Spuren unserer Aktivität und Existenz im Netz. Angefangen mit einer Anfrage an einen Domains Name Server (DNS) über das Senden einer E-Mail, über ein Herrunterladen einer Datei von einem FTP-Server bis zum Surfen im Netz immer hinterlassen wir Spuren in den Log-Dateien der beteiligten Rechner. Dies ist ein so weites Feld, dass ich mich in diesem Artikel auf die Spuren beim Surfen beschränke.

Um diesen Spuren nachzugehen, habe ich ein OpenSUSE 13.1 mit einem Firefox in einer virtuellen Maschine auf meinem Rechner installiert. Schon bei der Installtion und den Update habe ich mit zahlreichen Server im Internet Kontakt aufgenommen, die jetzt wissen, dass ich einen Rechner neu aufgesetzt habe und ein openSUSE 13.1 installiert habe. Bei einem Windows XP, Vista, 7 oder 8 wäre es nicht anders gewesen. Hier käme noch ein Anmeldung bei Mircosoft hinzu. Auch diesen Vorgang will ich nicht weiter untersuchen. In diesem Artikel will ich mich auf das Surfen mit dem Browser beschränken.

Da ich einen Internen Proxy-Server (kurz: Proxy) verwende, hinterlasse ich beim Surfen etwas mehr Spuren im Netz als andere Nutzer. Wie im Artikel Google-Frage: Kann man beweisen, dass man Pornos herunterlädt? beschrieben, trägt mein Proxy Server in den Header einer HTTP-Anfrage die interne IP-Adresse des Rechners in X-Forwarded-For ein, der die Anfrage gestellt hat. Kurz: Immer wenn ich eine Seite, ein Bild, Video, Dokument oder sonstige Datei erfährt der Server am anderen Ende nicht nur die derzeitige IP-Adresse meines T-Online Anschlusses sondern auch die interne IP-Adresse des genutzten Rechners. Auch wenn die dynamische IP-Adresse meines Anschlusses laufend wechselt, bewegen sich die möglichen IP-Adressen in einem kleinen Teilnetz. Zusammen mit anderen Daten, die ein Browser still und heimlich überträgt, wird es wohl möglich sein, die Rechner auch mit einer neuen IP-Adresse zu identifizieren.

Informationen aus Firefox Datenbanken

Der Firefox verwendet SQLite3-Datenbanken um seine internen Informationen, wie Chronik und Cookies zu speichern. Eine zentrale Rolle spielt dabei die Datenbank places.sqlite. In ihr gibt es folgende Tabellen:

  • moz_anno_attributes
  • moz_annos
  • moz_bookmarks
  • moz_bookmarks_roots
  • moz_favicons
  • moz_historyvisits
  • moz_hosts
  • moz_inputhistory
  • moz_items_annos
  • moz_keywords
  • moz_places

In moz_historyvisits sind die Zeiten der Besuche der Seiten für die Erstellung der Chronik enthalten. In moz_host die besuchten Server und im moz_places die aufgerufenen Seiten (URL). Für die weitere Betrachtung können wir uns auf die Tabellen moz_hosts und moz_places beschränken. Hier stehen die Hosts und die abgerufenen Seiten. Die Uhrzeiten der Aufrufe interessieren weniger. Die Auswertung lässt sich recht einfach mit den zwei folgendem SQL Befehlen in der Shell durchführen:

echo -e "select host from moz_hosts;\n.quit" | sqlite3 places.sqlite
echo -e "select url, title from moz_places;\n.quit" | sqlite3 places.sqlite

 
Wer darüber hinaus auch das Datum und die Uhrzeit Zugriffe haben möchte, dem sei auf einem Linux System der folgende Befehl ans Herz gelegt:

echo -e „select moz_places.url,datetime(moz_historyvisits.visit_date/1000000,’unixepoch‘) from moz_places INNER JOIN moz_historyvisits on moz_historyvisits.place_id = moz_places.id‘;“ | sqlite3 places.sqlite

 

Erster Start des Firefox

Mit dem ersten Start des Firefox öffnet sich die von OpenSUSE voreingestellte Startseite www.opensuse.org/de. Ist dies Seite die einzige Seite und der einzige Server, die bisher ausgerufen wurde? Schauen wir uns die Chronik an.

Nach dieser Chronik wurden wir von www.opensuse.org auf die Unterseite www.opensuse.org/de umgeleitet. Nicht weiter schlimm. Alles auf einem Server. Nach den Einträgen in der Datenbank haben wir aber schon weit mehr Server aufgesucht.

  • en-us.add-ons.mozilla.com
  • en-us.www.mozilla.com
  • forums.opensuse.org
  • opensuse.org
  • software.opensuse.org

Schaue ich in meinen Proxy ergibt sich folgende Liste:

  • beans.opensuse.org
  • clients1.google.com
  • counter.opensuse.org
  • download.opensuse.org
  • gtglobal-ocsp.geotrust.com
  • safebrowsing-cache.google.com
  • safebrowsing.clients.google.com
  • static.opensuse.org
  • www.opensuse.org

Manche Einträge in moz_places sind offenbar feste Einträge (mozilla.org). Einige Einträge im Proxy stammen vom Update nach der Installation. Andere Abrufe (z.B. https://ssl.gstatic.com, fehlen, weil mein Proxy keine HTTPS Verbindungen abfängt. Was sollte der Proxy bei einer verschlüsselten Verbindung zwischenspeichern? Der Inhalt der Kommunikation bleibt ihm verborgen.

Halten wir fest: Kurz nach der Installation wissen, Google, OpenSUSE, Symantec Corporation (geotrust.com) und MarkMonitor (gstatic.com) über den Rechner Bescheid.

Nach eigener Aussage ist MarkMonitor the Global Leader in Online Brand Protection. gsttatic.com steuert zu der Seite das kleine Google+ Symbol bei. Ob sie wirklich nicht mehr machen?

MarkMonitor Domain Management™
MarkMonitor Brand Protection™
MarkMonitor AntiPiracy™
MarkMonitor AntiFraud™

War mir so bisher nicht bewusst, dass MarkMonitor und Google zusammen arbeiten. Wer ganz unbedarft das Google+ Symbol in seiner Seite einbindet, der liefert – ungewollt – Informationen an MarkMonitor. Die wesentlichen wären: Die IP-Adresse des Anschluss, der verwendete Browser mit Betriebssystem und im Referrer die Seite, auf der das Symbol eingebunden ist.

Aufruf dieser Seite

Der Aufruf dieser Seite bringt in moz_hosts nur einen Eintrag mehr: byggvir.de.

Nach Aufruf einer Unterseite stehen zwei Einträge in der moz_places.

  • http://byggvir.de/
  • http://byggvir.de/2014/01/04/google-frage-beweisen-porno-laden/

Der Aufruf muss aber noch weitere Server (vg05.met.vgwort.de) ansprechen, denn auf den Artikelseiten ist ein Bild (Zähl-Pixel) der Verwertungsgesellschaft Wort (VG-Wort) eingebaut, das die Zugriffe auf meine Artikel an VG-Wort meldet. [1] Also auch VG-Wort „kennt“ jetzt die neue Maschine. Wenn ich den Artikel zur Ausschüttung melde, dann wissen Sie auch auf welcher Seite das Cookie befindet. Annahme ist hierbei, dass jemand, der das Zähl-Pixel abgerufen hat auch den Artikel aufgerufen hat. Ob der Artikel auch gelesen wurde, spielt für die Ausschüttung keine Rolle. Aber über dieses Zählpixel findet sich nichts in den Datenbanken des Firefox. Auch Aufrufe von JavaScript oder Stylesheet werden durch Firefox hier nicht aufgezeichnet. Wenn der Cache eingeschaltet ist, dann finden wir diese Dateien möglicherweise im Cache. Leider werden dort die Daten recht schnell überschrieben.

Informationen aus dem Firefox Cache

Der Cache ist leider nicht so einfach zu lesen. Aber auch hierfür gibt es ein Script ff_cache_find_0.3.pl[2] Der folgende Befehl extrahiert die Server, von denen Daten im Cache gelandet sind. Dies müssen nicht alle Server sein, die angesprochen werden. Wenn ein Element nicht zwischengespeichert wird, dass steht es auch nicht im Cache.

ff_cache_find_0.3.pl _CACHE_MAP_ | grep ‚^Request‘ | sed ’s#.*://##; s#/.*##‘ | sort -u

 
Wir finden mit diesem Befehl folgende zusätzliche Server, die angefragt wurden.

  • 0.gravatar.com
  • 1.gravatar.com
  • byggvir.de
  • sb-ssl.google.com
  • u1.ipernity.com
  • vg05.met.vgwort.de

byggvir.de war zu erwarten, vgwort.de hatte ich bereits erwähnt. Kommentare sind mit einem Bild des Kommentators verziert, dazu wird bei gravatar.com ein Bild gesucht und, wenn vorhanden, angezeigt. Weiterhin sind hier auf der Seite Bilder, die ich bei ipernity.com veröffentlicht habe eingebunden.

Obwohl nur zwei Seiten Aufgerufen wurden, sind schon 16 Server und acht Organisationen an der Kommunikation beteiligt. Aber meine Seite ist harmlos im Vergleich zu kommerziellen Seiten mit Werbung.

Heise-Online

Versuchen wir es als nächste Seite Heise-Online (heise.de). (Dazu am besten alle Firefox Daten löschen.) Beim ersten Start fehlt der Flashplayer. Nachinstallieren, weitere Spuren hinterlassen, aber die ignoriere ich jetzt.

Wie zu erwarten findet sich in places.sqlite ein zusätzlicher Host heise.de, nicht mehr und nicht weniger. Aber im Cache finden wir nun Daten von 39 weitere Servern[3]. Reduziert auf die Second Level Domain bleiben immer noch 24 zusätzliche Domains.

Rechner Second Level Domain
  1. 1.f.ix.de
  2. 2.f.ix.de
  3. 2542116.fls.doubleclick.net
  4. 3.f.ix.de
  5. a.ligatus.com
  6. ad-emea.doubleclick.net
  7. ad.zanox.com
  8. ad2.adfarm1.adition.com
  9. ad4.adfarm1.adition.com
  10. adclick.g.doubleclick.net
  11. banner.congstar.de
  12. banners.webmasterplan.com
  13. c.betrad.com
  14. cdn-de-c-143.heias.com
  15. d.ligatus.com
  16. de.ioam.de
  17. dslshop.vodafone.de
  18. heise.de
  19. heise.ivwbox.de
  20. i.ligatus.com
  21. imagesrv.adition.com
  22. integr.al
  23. media4.congstar-media.de
  24. media6.congstar-media.de
  25. ocsp.thawte.com
  26. pagead2.googlesyndication.com
  27. partner.googleadservices.com
  28. pixel.adsafeprotected.com
  29. pubads.g.doubleclick.net
  30. s0.2mdn.net
  31. script.ioam.de
  32. static.adsafeprotected.com
  33. toolbox.contentspread.net
  34. vfd2dyn.vodafone.de
  35. www.active-srv02.de
  36. www.googletagmanager.com
  37. www.googletagservices.com
  38. www.heise.de
  39. x.ligatus.com
  1. 2mdn.net
  2. active-srv02.de
  3. adition.com
  4. adsafeprotected.com
  5. betrad.com
  6. congstar-media.de
  7. congstar.de
  8. contentspread.net
  9. doubleclick.net
  10. googleadservices.com
  11. googlesyndication.com
  12. googletagmanager.com
  13. googletagservices.com
  14. heias.com
  15. heise.de
  16. integr.al
  17. ioam.de
  18. ivwbox.de
  19. ix.de
  20. ligatus.com
  21. thawte.com
  22. vodafone.de
  23. webmasterplan.com
  24. zanox.com

Wer mag, kann die einzelnen Domains untersuchen, aber einige beschäftigen sich mit Werbung, andere mit Datenerhebung für Werbung im Internet. Mit jedem erneuten Aufruf der Seite kommen weitere dazu, denn die Werbeeinblendungen wechseln. In den Namen der eingebetteten Bilder sind sicher mehr Informationen kodiert, als für die Anzeige des richtigen Bildes notwendig. Gerade bei 1 Pixel großen Zählgrafiken ist es wichtig, das der Name ständig wechselt, damit die Grafik vom Browser nicht aus dem Cache des Browsers oder eines Proxy bereitgestellt wird. Über Cookie wollen wir jetzt lieber nicht nachdenken.

Alle diese Anbieter kennen die IP-Anschlusses meines Anschlusses. Über weitere Datenbanken wissen sie, dass ich Kunde der Telekom bin und in der Nähe von Bonn wohne. Melde ich mich gleichzeitig mit meinen Mobiltelefon oder Tablet mit eingeschaltetem GPS bei Google, Facebook und Co. an, können diese den Anschluss bis auf Straße und Hausnummer lokalisieren.

Da darf ich mich nicht wundern, wenn ich maßgeschneiderte Werbung bekomme.

RedTube.com

Aufgrund des großen Interesses an den Massenabmahnungen wg. Erwachseneninhalten (Porno) auf Redtube hier das Ergebnis, wenn nach dem Start als erstes Redtube.com aufgerufen wird.

Rechner Second Level Domain
  1. ads.trafficjunky.net
  2. ads2.contentabc.com
  3. apis.google.com
  4. cdn1.ads.brazzers.com
  5. cdn1.ads.contentabc.com
  6. cdn1.traffichaus.com
  7. e1.static.hoptopboy.com
  8. images.cdn.redtube.com
  9. img01.redtubefiles.com
  10. img02.redtubefiles.com
  11. img03.redtubefiles.com
  12. img04.redtubefiles.com
  13. redtube.com
  14. syndication.traffichaus.com
  15. www.google-analytics.com
  16. www.redtube.com
  1. brazzers.com
  2. contentabc.com
  3. google-analytics.com
  4. hoptopboy.com
  5. redtube.com
  6. redtubefiles.com
  7. traffichaus.com
  8. trafficjunky.net

Mit 16 zusätzlichen Servern in acht Domains geht Redtube deutlich sparsamer mit der Verteilung von Informationen an andere um als Heise-Online. Mit TrafficHaus.com und TrafficJunky.net beteiligt sich RedTube auch am Traffic-Handel.

Fazit

Allein der Aufruf einer kommerziellen Seite streut die Informationen über zahlreiche weitere Firmen, die der Nutzer nicht gewahr wird. Wer gegen diese Verbreitung der Daten etwas unternehmen will, dem hilft ein Werbeblocker als Add-On; z.B. Adblock Edge (ABE).

Genug für heute, morgen früh ist der Urlaub zu Ende und die Arbeit fängt wieder an. Gute Nacht

  1. [1]Dies bringt mir ein kleines Zubrot zum Betrieb dieses Server. 2013 waren es sagenhafte 40€, je 10€ für 4 Artikel. Das Zubrot deckt knapp die Kosten des Servers für 4 Monate. Vielleicht ist 2013 etwas besser gelaufen.
  2. [2]Zu finden unter code.google.com
  3. [3]Liste bereinigt um die, die wir bereits kennen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.