Sugar Daddy Meet - Site de rencontre exclusif Sugar Daddy No1 à rechercher
Actualités Rencontre

Bloquer les URL dynamiques de Googlebot à l’aide de son fichier Robots.txt

J’ai essayé de comprendre comment bloquer certaines URL dynamiques de googlebot. Les robots de recherche de Yahoo! Slurp et MSNBot utilisent la même syntaxe ou une syntaxe très similaire pour bloquer les URL dynamiques. À titre d’exemple, j’ai cette ligne dans mon fichier htaccess qui me permet d’utiliser des pages statiques au lieu de pages dynamiques, mais j’ai trouvé que parfois googlebot parcourt toujours mes pages dynamiques. Cela peut conduire à un contenu en double qui n’est toléré par aucun des principaux moteurs de recherche.

J’essaie de nettoyer mon site personnel car il se classe actuellement bien sur Yahoo, mais pas sur Google. Je pense que MSN Live a des algorithmes similaires à ceux de Google, mais ce n’est en aucune façon prouvé scientifiquement. Je ne dis cela que de ma propre expérience personnelle avec le référencement et les sites de mes clients. Je pense avoir trouvé des réponses sur la façon de bien se classer sur Google, MSN et éventuellement Yahoo! Je suis en plein test en ce moment. J’ai réussi à bien me classer sur Google pour le site d’un client qui avait déjà des mots clés pertinents. Quoi qu’il en soit, voici comment bloquer les pages dynamiques de Google à l’aide de votre fichier robots.txt. Ce qui suit est un extrait de mon fichier htaccess :

RewriteRule personals-dating-(.*).html$ /index.php?page=view_profile&id=$1

Cette règle, au cas où vous vous poseriez la question, me permet de créer des pages statiques comme personals-dating-4525.html à partir du lien dynamique index.php ? Page = view_profile & id = 4525. Cependant, cela a causé des problèmes, car maintenant Googlebot peut et m’a « chargé » de contenu en double. Le contenu en double est mal vu et entraîne plus de travail sur Googlebot, car il doit maintenant explorer des pages supplémentaires et l’algorithme peut le considérer comme du spam. La morale est un contenu en double qui doit être évité à tout prix.

Ce qui suit est un extrait de mon fichier robots.txt :

User-agent: Googlebot

Disallow: /index.php?page=view_profile&id=*

Notez le signe « * » (astérisque) à la fin de la deuxième ligne. Cela indique simplement au Googlebot d’ignorer un nombre quelconque de caractères à la place de l’astérisque. Par exemple, Googlebot ignorera-t-il index.php ? Page = view_profile & id = 4525 ou tout autre nombre, ensemble ou caractères. Autrement dit, ces pages dynamiques ne seront pas indexées. Vous pouvez vérifier si les règles de votre fichier robots.txt fonctionneront correctement en vous connectant à votre compte de panneau de configuration de webmaster Google. Si vous n’avez pas de compte Google, créez-en un simplement depuis Gmail, AdWords ou AdSense et vous aurez accès aux outils et au panneau de contrôle des webmasters de Google. Si vous voulez obtenir un meilleur classement, vous devriez en avoir un. Ensuite, tout ce que vous avez à faire est de vous connecter à vos comptes gmail, adwords ou AdSense pour avoir un compte. Ils facilitent la création d’un compte et c’est gratuit. Cliquez sur l’onglet « Diagnostics » puis sur le lien « outil d’analyse robots.txt » dans la section Outils dans la colonne de gauche.

Au fait, votre fichier robots.txt doit se trouver dans votre dossier racine Web. Googlebot vérifie le fichier robots.txt de votre site une fois par jour et il sera mis à jour dans le panneau de configuration du webmaster de Google sous la section « outil d’analyse robots.txt ».

Pour tester votre fichier robots.txt et valider si vos règles fonctionneront correctement avec Googlebot, saisissez simplement l’URL que vous souhaitez tester dans le champ « Tester l’URL avec ce fichier robots.txt ». J’ai ajouté la ligne suivante dans ce champ :

http://www.personals1001.com/index.php?page=view_profile&id=4235

Ensuite, j’ai cliqué sur le bouton « Vérifier » en bas de la page. Googlebot bloquera cette URL sous certaines conditions. Je pense que c’est un meilleur moyen de bloquer Googlebot au lieu d’utiliser l’outil « Suppression d’URL » que vous pouvez utiliser. L’outil « Suppression d’URL » se trouve dans la colonne de gauche du panneau de configuration du webmaster de Google. J’ai lu dans certains cas dans des groupes Google que des personnes ont eu des problèmes avec l’outil « Suppression d’URL ».