ok ... Kurzfassung:
Ich betreibe nen eigenen kleinen Server mit diversen Seiten (2-3 Boards, nen TS, ne MC-Map ... halt son kleines zeug für privaten Zweck im kleinen Kreis) ... benutze dafür eine DynDns-Adresse.
Achte peinlichst genau, dass ich diese Adresse nirgendwo "verlinkbar" offenlege. bzw die unterliegende Struktur.
nun wurde ich heute aber drauf aufmerksam gemacht, dass man eine dieser Seiten (um genau zu sein, meine MC-Map) bei Google findet.
Ich gegengeprüft: sogar mit Google-Cache Abbild.
Auch eines meiner "Boards" findet man mit Google.
Ich hätte eigentlich gedacht, wenn auf entsprechende "Seiten" nirgends öffentlich verlinkt wird, wird Google diese auch nicht "finden".
nun eine simple Frage: Wie kommt Google da ran? Chrome-User potentiell?
zur Info: mit "Seiten" meine ich: blubel.ath.cx/schieß oder blubel.ath.cx/michtot .... blubel.ath.cx bietet nicht die Möglichkeit zu entsprechenden Seiten zu navigieren.
Ich bin mir über robots.txt bewußt, dachte nur eigentlich, dass dies nicht nötig sei, wenn es eh nirgendwo öffentlich verlinkt wird.
PS: sollte der Thread-Titel zu "offensiv" sein, entschuldigt mich bitte ... nur irgendwie ist mir nix Sinnvolles eingefallen XD
Google ist die Krake
Moderatoren: Moderatoren, Redakteure
- Lazy Sloth
- Beiträge: 2030
- Registriert: 09.08.2007 22:40
- Persönliche Nachricht:
Re: Google ist die Krake
Im Zweifelsfall fragt Google einfach beim Domain-Registrar...
Chrome würde ich da nicht wirklich verdächtigen, eher die ganzen Android-Browser.
Zum Thema robots.txt: Was ist so schwer daran, einfach eine Datei
als blubel.ath.cx/robots.txt zu serven? Falls kein Webserver läuft, einfach ein thttpd oder sowas aufsetzen, nur für diese Datei. Gehe aber davon aus, dass schon einer läuft, wenn es schon ein paar Boards gibt.
€DIT: Mal eine ganz andere Frage, wie sind diese genannten Boards denn zu erreichen?[/size]
€DIT 2: Nach gefühlt 100-maligem Durchlesen des Posts glaube ich, dass ich ihn nicht ganz verstehe...
Ist denn das Minecraft-"Verzeichnis" von außen erreichbar? Kann man es mittels eines Webbrowsers "besuchen"...? Wenn ja, reicht es ja schon dass einer der Nutzer den Link mittels einer Mail weiterreicht, die irgendwie durch Googlemail geht. Google liest ja alle Mails mit.
Chrome würde ich da nicht wirklich verdächtigen, eher die ganzen Android-Browser.
Zum Thema robots.txt: Was ist so schwer daran, einfach eine Datei
Code: Alles auswählen
User-agent: *
Disallow: /
€DIT: Mal eine ganz andere Frage, wie sind diese genannten Boards denn zu erreichen?[/size]
€DIT 2: Nach gefühlt 100-maligem Durchlesen des Posts glaube ich, dass ich ihn nicht ganz verstehe...

Ist denn das Minecraft-"Verzeichnis" von außen erreichbar? Kann man es mittels eines Webbrowsers "besuchen"...? Wenn ja, reicht es ja schon dass einer der Nutzer den Link mittels einer Mail weiterreicht, die irgendwie durch Googlemail geht. Google liest ja alle Mails mit.
Re: Google ist die Krake
Da fallen mir gerade 'ne ganze möglicher Wege ein.
Addresszeile mit Vervollständigung durch Google (also mitunter Chrome), irgendwo ein öffentlicher Post, sehr wahrscheinlich aber durch DynDNS selber. Schließlich müssen die ja deine Addresse den DNS-Servern zugänglich machen und da Google ja selber einen betreibt wäre dieser Weg sehr wahrscheinlich. Wie sie dann an die exakten URL's ist 'ne andere Frage, AFAIK sollte ja nur der Domänenname gesendet werden.
Um eine "robots.txt" kommt man halt nicht mehr herum, besser gleich mit Authentifizierung.
Addresszeile mit Vervollständigung durch Google (also mitunter Chrome), irgendwo ein öffentlicher Post, sehr wahrscheinlich aber durch DynDNS selber. Schließlich müssen die ja deine Addresse den DNS-Servern zugänglich machen und da Google ja selber einen betreibt wäre dieser Weg sehr wahrscheinlich. Wie sie dann an die exakten URL's ist 'ne andere Frage, AFAIK sollte ja nur der Domänenname gesendet werden.

Um eine "robots.txt" kommt man halt nicht mehr herum, besser gleich mit Authentifizierung.

Re: Google ist die Krake
ok nochmal von vorne:
das meine Dyndns-Adresse bei Google auftaucht: kein Problem. Das ist normales "Crawling" wahrscheinlich irgendwo bei DynDns-geführter Listen....
das aber die "Struktur" da drunter ersichtlich ist, ist sehr wohl für mich ein Problem. ... man gibt meine DynDns Adresse ein und findet bei Google unterliegende Strukturen. das gefällt mir nicht
der Dns kümmert sich nur um die Auflösung des "Host"-Anteils der Adresse. den schließe ich dabei aus.
erstmal danke dafür 
Wie die Boards erreichbar sind: nur indem ich jemanden den direkten Link gebe
....
Aber gut, habe ich meine Lektion gelernt.
Worum ich mir hauptsächlich Gedanken mache: ich gebe hier und dort mal gerne Links zu "Urlaubsbildern" einzelnen Freunden frei. .... sollten diese aber nun auf Google-Auftauchen, wäre mir das etwas unangenehm ...
War halt nur sehr überrascht, dass das passieren kann.
Da nur eines der Boards und eben die MC-Map betroffen sind, ginge ich davon aus, dass es an bestimmte User liegen müsse, die dieses spezielle Board benutzen.
(die Boards sind untereinander auch nicht ersichtlich.)
das meine Dyndns-Adresse bei Google auftaucht: kein Problem. Das ist normales "Crawling" wahrscheinlich irgendwo bei DynDns-geführter Listen....
das aber die "Struktur" da drunter ersichtlich ist, ist sehr wohl für mich ein Problem. ... man gibt meine DynDns Adresse ein und findet bei Google unterliegende Strukturen. das gefällt mir nicht

der Dns kümmert sich nur um die Auflösung des "Host"-Anteils der Adresse. den schließe ich dabei aus.
Code: Alles auswählen
$> cd /var/www/
$> /var/www$ echo "User-agent: *
> Disallow: /" >> robots.txt

Wie die Boards erreichbar sind: nur indem ich jemanden den direkten Link gebe

Aber gut, habe ich meine Lektion gelernt.
Worum ich mir hauptsächlich Gedanken mache: ich gebe hier und dort mal gerne Links zu "Urlaubsbildern" einzelnen Freunden frei. .... sollten diese aber nun auf Google-Auftauchen, wäre mir das etwas unangenehm ...
War halt nur sehr überrascht, dass das passieren kann.
Da nur eines der Boards und eben die MC-Map betroffen sind, ginge ich davon aus, dass es an bestimmte User liegen müsse, die dieses spezielle Board benutzen.
(die Boards sind untereinander auch nicht ersichtlich.)
- Scorcher24_
- Beiträge: 15527
- Registriert: 11.11.2004 14:31
- Persönliche Nachricht:
Re: Google ist die Krake
Ein Crawler muss sich aber halt auch nicht an die robots.txt halten.
Viele ignorieren die sogar.
Das einzige was bei privatem Inhalt hilft, ist den Zugang zu beschränken.
Boards nur für angemeldete User sichtbar machen und Bilderverzeichnisse mit .htaccess und .htpasswd schützen.
Viele ignorieren die sogar.
Das einzige was bei privatem Inhalt hilft, ist den Zugang zu beschränken.
Boards nur für angemeldete User sichtbar machen und Bilderverzeichnisse mit .htaccess und .htpasswd schützen.
Re: Google ist die Krake
Scorcher24 hat geschrieben:Ein Crawler muss sich aber halt auch nicht an die robots.txt halten.
Viele ignorieren die sogar.
Das einzige was bei privatem Inhalt hilft, ist den Zugang zu beschränken.
Boards nur für angemeldete User sichtbar machen und Bilderverzeichnisse mit .htaccess und .htpasswd schützen.
boards sind geschützt, .... ^^ ... immerhin
htaccess und htpasswd ... da ich von HTML soviel Ahnung habe, wie nen Regenwurm vom fliegen, werde ich mich mal flott belesen

thx für den Hinweis

- Scorcher24_
- Beiträge: 15527
- Registriert: 11.11.2004 14:31
- Persönliche Nachricht:
Re: Google ist die Krake
Hat mit HTML eher weniger zu tun, sondern mit http :p.
http://www.webmaster-toolkit.com/htacce ... ator.shtml
http://www.webmaster-toolkit.com/htacce ... ator.shtml