Le passage de GoogleBot directement dans Google analytics

Article mise à jour le: 5 octobre 2019

Les possesseurs de site internet connaissent bien l’outil Google Webmaster Tool. Ce outil donne accès à de nombreux dashboard dont une vue montrant le volume de crawl par les robots Google. Le problème est que cet outil, tout intéressant qu’il soit, manque sacrément de finesse pour piloter au mieux l’arborescence en terme de linking des pages d’un site internet.

Le linking et le crawl

Ce qui est intéressant pour un webmaster, c’est bien évidemment de connaître les pages les plus vues par Googlebot. Juste un rappel pour les personnes qui tomberaient sur cet article et qui se demanderaient de quoi il retourne, les robots de Google parcourent en permanence le web, sautant de page en page en fonction des liens trouvés sur chaque site. Cela fait partie du fonctionnement de base des moteurs de recherche: parcourir le maximum de pages le plus efficacement possible, pour au final rapatrier dans l’index du moteur les pages les plus intéressantes avant de les scorer et de les classer dans les résultats.

Le linking ou l’architecture de liens en interne sur un site est donc relativement crucial puisque, selon l’arborescence, il permet de diffuser du « jus » aux pages et donc d’indiquer d’une façon plus ou moins tacite quelles sont les pages à mettre en avant.

Tout le problème reste donc de savoir quelles sont les pages vues et à quelle fréquence par les robots d’indexation de Google pour savoir où le robot passe et surtout où il ne passe pas. Un site régulièrement crawlé et crawlé en profondeur aura plus de chances de se faire indexer (pas forcément bien positionné mais si google lâche de la bande passante pour récupérer chaque page, c’est qu’il y a de fortes chances de bien se faire positionner tout de même).

La classe Galvanize en php pour récupérer l’information dans google analytics

La solution « hardcore » consiste dans ce cas à aller récupérer l’information dans les logs serveurs bruts. Des logiciels permettent de les mettre en forme, la création d’un datawarehouse peut aider mais ce n’est pas ce que l’on recherche dans ce cas, on cherche une solution simple, simplement pour faire quelques vérifications à l’occasion du passage du googlebot. Pour les amateurs de Awk, quelque chose comme ça permettra de trouver l’information rapidement en ligne de commande:


grep Googlebot monFichierDeLogs | grep monUrldeSite| awk '{print $7}' | sort |uniq -c |sort -n

A moins d’y adjoindre un traitement, ce n’est pas franchement l’idéal. Et c’est là que la classe Galvanize.php vient à la rescousse.

Pour l’installer rien de plus simple. Il vous suffit de télécharger Galvanize.php et de l’installer dans un répertoire de votre dossier web. Ensuite vous aller vous rendre dans votre console google analytics pour créer, pour le même compte, une « propriété » différente. Comme cela vous pourrez, sous le même compte, garder un compte pour les « visites humaines » et un autre dashboard avec les données de crawl de googlebot, vous pouvez par exemple le nommer monSiteInternet-crawl.

Vous allez aller ensuite ajouter quelques lignes de code dans le fichier footer.php par exemple (fichier présent a priori sur la totalité du site internet). En admettant que votre class php soit installée dans le répertoire de votre thème (dans le cas d’un wordpress ou d’un autre CMS), cela donne ça (vous n’avez plus qu’à coller l’UA du nouveau compte crée dans google analytics):


include_once 'Galvanize.php';
if(strstr($_SERVER['HTTP_USER_AGENT'] ,'Googlebot')){
$GA = new Galvanize('UA-XXXXXXXX-1');
$GA->trackPageView();
}

L’affaire est pliée, renvoyez le tout sur votre serveur et vous n’avez plus qu’à attendre le passage du bot!  Vous pourrez voir dans les jours d’après (et même en live grâce à la fonction temps réel de google analytics) chaque crawl du web. Pas mal si vous venez à changer votre maillage interne ou si vous avez entrepris de grandes modifications sur votre site internet. Merci au site www.watussi.fr pour cette astuce très utile!

Cliquez, partagez!

Le coin des achats professionnels