Les moteurs de recherche ont des robots (crawlers) qui indexent les pages web. Le crawler de Google s’appelle GoogleBot et celui de Yahoo Yahoo Slurp.
A chaque fois qu’un crawler visite une page web, il en fait l’analyse, en extrait les liens vers d’autres pages web et les indexe dans sa base de données.
La soumission manuelle : il suffit de se rendre sur les différents moteurs de recherche et d’y remplir le formulaire de soumission. Ensuite, le crawler vient visiter votre site, en fait l’analyse, en extrait les liens et les indexe dans sa base. Si tout se passe bien, il fait de même de même avec les liens indexés à l’étape précédente, et ainsi de suite, jusqu’à crawler l’intégralité de votre site web. Avec un peu de temps, l’intégralité de votre site web sera ainsi crawlée.
L’indexation naturelle : il est parfois plus facile de profiter de la notoriété des autres. Obtenez des liens sur des sites déjà indexés dans les moteurs de recherche. Ces liens vous permettront d’être signalé aux moteurs de recherche.
Qu’est-ce qui gêne l’indexation correcte de votre site
Principalement la technologie employée pour sa construction : le flash (bien que les robots Google semblent être aujourd’hui capable de lire le code Flash) dans lequel les liens ne sont pas lus, le javascript à utiliser avec modération, et les frames qui faussent la lecture des robots.
De plus, la navigation à l’intérieur du site doit être soignée (maximum 3 clics depuis la page d’accueil, passage facile d’une page à l’autre). Enfin, la longueur des pages ne doit pas être excessive ; il vaut mieux faire des pages courtes avec un thème précis pour chacune.
Les aides pour une indexation correcte de votre site
Le sitemap : c’est une page spécifique (invisible du visiteur) où sont listées toutes les pages du site. Les moteurs de recherche les plus importants y trouvent ainsi plus rapidement les informations nécessaires à l’indexation.
Le fichier robots.txt : c’est ce fichier, placé à la racine de votre site, que visitent en premier les robots. Le webmaster y place les indications qu’il souhaite être vues (ou pas) par les robots. Ce même fichier sert aussi à savoir quels robots ont visité le site.
La SandBox
C’est un outil spécifique à Google qui est une sorte de "purgatoire" pour les nouveaux arrivants et qui laisse ainsi le temps de détecter d'éventuels tricheurs capables de détourner l’algorithme de Google.