Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

Mit robots.txt das Crawling einer Webseite steuern

5
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Dies ist ein älterer Beitrag, der nicht unbedingt die aktuelle Haltung des Autors darstellt. Insbesondere zu den Themen Datenschutz, Google und Social Media ist der Autor aufgrund mittlerweile gewonnener Erkenntnisse anderer Meinung als früher! Was Web Hosting angeht, empfehle ich Strato, 1&1 und andere große nicht mehr.

Suchmaschinen werden immer wichtiger, zumal der über die Trefferlisten von Google, Bing und Co generierte Traffic immer weiter zunimmt. Im Zuge dessen spielt die Datei robots.txt eine große Rolle. Wir erklären, warum.

Das Robots File

Beispielhafter Aufbau einer robots.txt

Zunächst eine Illustration des Aufbaus der robots-Datei, die eine reine Textdatei ist, anhand eines Beispiels, in dem drei Zeilen für je ein anderes Verzeichnis Angaben zu den Zugriffsrechten (Disallow) machen und eine den Agent angibt, der auf die Dateien zugreifen darf (hier sind es alle Agents, gekennzeichnet über den Stern).

# robots.txt
User-agent: *
Disallow: /abc.css
Disallow: /privat/
Disallow: /jccs/
Sitemap: http://www.meine-domain.de/sitemap.xml

Alle Zeilen, die mit dem Gatter beginnen, im Einfachbeispiel ist es die erste Zeile, gelten als Kommentar.

Die Disallow Angaben sind insbesondere sinnvoll für Ressourcen, die nicht in den organischen Suchindex aufgenommen werden sollen. Übrigens ist es nicht so, dass alle in robots.txt für die Indizierung mit dem Schlüsselwort disallow ausgeschlossenen Verzeichnisse und Dateien tatsächlich auch nicht von Suchmaschinen oder einem Webcrawler berücksichtigt werden! Vielmehr wird normalerweise jede Ressource, die von außerhalb via Link referenziert wird, von einem Crawler auch in den Index aufgenommen. Allerdings werden derart gecrawlte Seiten in den SERPs (Suchergebnisseiten) im angezeigten Snippet oft entsprechend gekennzeichnet. Siehe auch die Hilfe von Google, die dieses Thema weiter beleuchtet.

Auch möglich sind Allow Angaben, diese sollen aber nicht nach Disallow Infos in robots.txt stehen, da die erste Angabe die übergeordnete Regel angibt.

Die Anweisungen in der Robots-Datei folgen übrigens alle dem Robots Exclusion Standard, der besagt, dass Webcrawler für eine gefundene Website im Root-Verzeichnis der Domain zuerst nach besagtem File suchen. So können Website-Betreiber einfach und standardisiert einzelne Bereiche ihrer Website für Suchmaschinen verriegeln.

Ist robots.txt wirklich notwendig?

Kurz gesagt kann man diese Frage mit ja beantworten. Es gilt schon alleine als Qualitätskriterium, wenn die Robots-Datei vorhanden ist bzw. als kleiner Mangel, wenn sie es nicht ist. Hier verhält es sich ungefähr wie bei einer Sitemap: Sie ist nicht erforderlich, aber ihre Verfügbarkeit erfreut Suchmaschinen und Webcrawler.

Weiterhin erleichtert die Datei mit ihren Informationen den Suchmaschinen das Leben, insbesondere beim Auffinden anderer Dateien als der ursprünglichen, vor allem wenn sie in einem sonst unbekannten Verzeichnis liegen. Da die Datenmenge im Netz immer weiter wächst, sollen selbst mächtige Serverparks wie die von Google schonend mit ihren Zugriffen umgehen. Und das bedeutet ein auf Effizienz getrimmtes Crawlen der Webseiten im Internet. Die robots.txt unterstützt die Suchmaschinen und Webcrawler genau dabei, denn sie hilft, die Crawler von irrelevanten Inhalten fernzuhalten und gibt zudem eine Referenz auf die o.g. Sitemap, welches das Indizieren von Dateien wiederum schneller gestaltet. Die Webcrawler merken sich natürlich, welche Datei bereits in den Index aufgenommen wurde und welche Anweisung noch nicht ausgeführt wurde.

Neben dem SEO-Thema sollte man mit dem robots.txt File auch Zugriffsrechte für User setzen und SEO-wirksam 404-Fehler vermeiden (404 = Seite nicht gefunden).

Die robots.txt Datei testen

Um zu prüfen, ob robots.txt ein gültiges Format hat, gibt es diverse kostenlose Online Tools. Wir empfehlen die Google Webmaster Tools dafür zu verwenden: Zu testende Webseite auswählen (oder neu registrieren), dann unter Crawling den Menüpunkt robots.txt Tester auswählen:

robots.txt crawl
Robots.txt Tester

Mit dem Robots.txt Generator kann der Inhalt der Datei mit Hilfe eines Online-Assistenten komfortabel erzeugt werden.

PS: Dies ist ein älterer Beitrag.

Kernaussagen dieses Beitrags

robots.txt hilft Suchmaschinen, Webseiten effizient zu crawlen.

Die Datei gibt Suchmaschinen an, welche Bereiche einer Webseite sie besuchen dürfen.

Eine robots.txt-Datei ist kein Muss, aber sie wird von Suchmaschinen positiv bewertet.

robots.txt kann auch genutzt werden, um Zugriffsrechte für Nutzer zu setzen und 404-Fehler zu vermeiden.

Es gibt kostenlose Online-Tools, um die Gültigkeit von robots.txt zu testen und zu generieren.

Über diese Kernaussagen

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere Lösungen an (mit und ohne KI).
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Quelle: Klaus Meffert, Dr. DSGVO Blog, Link: https://dr-dsgvo.de/robots-txt
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Dieser Beitrag wird in anderen Beiträgen erwähnt