| |
Le fichier robots.txt
Un spider est un programme automatique utilisé par les moteurs de recherche afin de trouver et d'indexer le contenu d'un site web.
Les spiders vérifient dans la racine des domaines l'existence d'un fichier particulier, qui s'appelle "robots.txt". Ce fichier transmet des informations au robot (spider) à propos des fichiers et des répertoires qu'il peut ou ne peut pas indexer ou visiter.
Le formattage d'un fichier robots.txt consiste en plusieurs enregistrements. Chaque enregistrement contient deux champs, d'une part le nom de l'user-agent et d'autre part des instructions à suivre par les robots. Le format est :
User-agent:<nom du robot>
Disallow:<instructions>
User-agent
La ligne User-agent spécifie le nom du robot qui est concerné par les instructions. Par exemple:
User-agent: googlebot
Vous pouvez aussi utiliser le caractère "*" pour spécifier tous les robots. Par exemple
User-agent: *
Vous pouvez trouver les noms des agents qui passent sur votre site en consultant vos logs bruts, et en cherchant dans le fichier de logs le terme robots.txt.
Disallow:
La seconde partie de l'enregistrement consiste à placer des instructions Disallow:. Ces instructions spécifient des noms de fichier ou de répertoire. Par exemple, la ligne suivante demande aux spiders de ne pas indexer le fichier email.htm :
Disallow: email.htm
Vous pouvez aussi spécifier des répertoires :
Disallow: /cgi-bin/
Si vous laissez l'instruction Disallow vide les robots pourront indexer n'importe quel fichier sans restriction. Au moins une ligne d'instruction disallow doit-être présente pour chaque directive User-agent afin d'être valide. Un fichier robots.txt vide est traité comme s'il n'existait pas.
Exemples
L'exemple ci-dessous autorise tous les robots à indexer tous les fichiers:
User-agent: *
Disallow:
L'exemple ci-dessous interdit l'accès à tous les robots pour tous les fichiers et répertoires :
User-agent: *
Disallow: /
L'exemple suivant interdit l'accès à tous les robots aux répertoires cgi-bin et images:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
L'exemple ci-dessous refuse au robot googlebot l'accès à tous les fichiers et répertoires:
User-agent: googlebot
Disallow: /
Si vous souhaitez voir des exemples plus complexes, regardez les fichiers robots.txts dans des sites web sur le net.
Le fichier robots.txt doit être créé avec un éditeur de texte. Seul un fichier robots dont l'extension est .txt est accepté par les robots. Toutes les autres extensions telles que .htm, .htm, ou .rtf sont ignorées.
|