Olivier Papon : créateur de l’outil d’analyse de logs seolyzer.io

Olivier Papon : créateur de l’outil d’analyse de logs seolyzer.io

Je reçois aujourd’hui Olivier Papon, le créateur de l’outil SEOLYZER accessible sur seolyzer.io. Pour celles et ceux qui ne connaissent pas, c’est un outil d’analyse de logs en ligne gratuit couplé, depuis peu, à un crawler pour permettre de recouper les informations. On va se la jouer Noob dans cet interview : j’ai remarqué que pas mal de SEO qui ne travaillent pas sur des très gros sites ont des notions d’analyses de logs mais n’en comprennent pas vraiment les enjeux, comment les exploiter, comment les décrypter, etc…On creuse le sujet ensemble.

Olivier, veux tu te présenter et présenter SEOLYZER pour commencer?

Bonjour Jérôme ! Merci pour l’invitation, c’est toujours un plaisir de discuter SEO !

Je m’appelle Olivier, j’ai 36 ans et j’évolue dans le monde du SEO depuis mon premier job, il y a 14 ans en agence. Assez discret dans la communauté SEO auparavant, j’ai lancé Seolyzer.io en novembre 2017 : c’est un outil gratuit  qui propose de l’analyse de logs, un crawler, et un service de monitoring. Pour simplifier une suite SEO technique 🙂

Peux tu expliquer brièvement ce qu’un SEO peut analyser et optimiser grâce à l’analyse de logs?

Avant toute chose, il faut replanter le contexte. L’analyse de logs a souvent été présentée comme une spécialité complexe, réservée aux experts et aux gros sites à gros budget. C’est FAUX.
Un SEO Junior avec un petit site, avec peu de budget, peut s’y intéresser : cela n’a rien de plus compliqué qu’un sitemap ou un robots.txt 🙂

L’analyse de logs permet de savoir comment le robot de Google, appelé Googlebot, parcourt un site, le temps qu’il y passe, les erreurs qu’il rencontre, etc… : en analysant les traces qu’il laisse sur le serveur dans les fichiers de logs, on connaît chacun de ses mouvements,  page par page.

Pour comprendre l’intérêt principal de l’analyse de logs, il faut comprendre la notion de budget de crawl : Google affecte un temps de crawl à chaque site en fonction de divers critères (popularité, fraîcheur des contenus…), car parcourir des sites lui coûte cher en infrastructure et le web est bien trop vaste.
Google doit se concentrer sur les pages qui lui permettront d’apporter les meilleurs réponses aux internautes avec les ressources dont il dispose. Ainsi grâce à l’analyse de logs “classique”, on peut déterminer si les pages parcourues par Googlebot sur notre site, sont bien celles qui ont un intérêt pour l’internaute et mais aussi celle qui ont un réel enjeu pour notre business. L’analyse de logs est en fait une Search console améliorée où les données sont plus fiables et détaillées.

Le must est l’analyse de logs en temps réel qui permet en plus de suivre les actions de Googlebot à la seconde près et tous les KPIs sensibles lors d’une mise en production notamment (erreurs 404, 500…). Dans ce cas, la Search console peut tout à fait vous envoyer une notification en cas de problème, mais le délai étant de 48h… le mal sera déjà fait et les corrections bien plus chronophages.

Comment enregistres tu les passages de Google Bot?

Les passages de Googlebot sont contenus dans les fichiers de log ni plus ni moins, en fonction du site, de l’infrastructure et des besoins du SEO. Il y a plusieurs possibilités :

  • Le temps réel : un agent Seolyzer est à installer sur le ou les serveurs dédiés ; celui-ci transmet en live les logs SEO à l’outil et ils apparaissent instantanément dans les dashboards.
  • Le ftp : un peu plus old school mais ça fonctionne toujours aussi bien : on dépose des fichiers de log sur un serveur FTP, à intervalles réguliers. Ceux-ci sont traités et les données sont disponibles sur les dashboards.
  • L’upload manuel : c’est la version web du ftp, on dépose directement les fichiers dans le navigateur pour envoi et traitement, on ne peut pas faire plus simple 🙂

Expliques nous comment un SEO peut exploiter les principales rubriques

Avec plaisir, je vais même les agrémenter de use cases que j’ai pu rencontrer, même si ils ne sont pas exhaustifs, c’est tellement plus parlant.

Crawl volume

Cela correspond au graphe que nous avions sur l’ancienne Search Console (avec 48-72h de retard) qui nous permettaient de vérifier l’activité des robots Google sur chaque site. Cela permet de répondre à des questions de bon sens : Google crawle t-il mon site? Et à quel volume? Sur quelle plage horaire ?

Use cases :

  • On publie un lot de contenus : comment Google va réagir ?
  • On oublie de renouveler un nom de domaine pendant 24h (ça arrive ;)) : Googlebot s’est arrêté de crawler et le site commence à être désindexé ; quand va t-il recommencer ?

Crawl volume by group

La catégorisation par groupes est essentielle.
Elle vous permet de savoir quel type de pages de votre site est le plus consultée par Google. Elle vous permet aussi de visualiser toutes les pages que vous n’avez pas catégorisées et que vous pourriez ne pas connaître.

Use case :

  • Googlebot passe 35% de sont temps sur des pages AMP, mais celles-ci ne représentent que 0.04% des visites.
  • Mes pages produits représentent 1% du temps passé par Googlebot, pourtant leur indexation est indispensable pour mon chiffre d’affaires

HTTPS Status code

Il faut partir du principe que l’objectif ultime est de ne servir que des pages en code 200 (ndlr : entêtes HTTP 200 qui indiquent que la page existe et est accessible) à Google. Bien sûr, il restera toujours des 301 (ndlr : redirections), ou quelques 404 (ndlr : pages introuvables) à corriger, mais il faut absolument éviter les erreurs 50x.

Use case :

  • Un ensemble de règles de redirections 301 doivent être poussées en production. Googlebot va t-il rapidement les prendre en compte ? Le bon code va t-il lui être retourné ?
  • Le serveur subit une forte affluence qui génère des time-out : Googlebot reçoit des 503.

AVG performance & performance

Il existe un nombre conséquent de KPIs pour mesurer la performance d’un site.
Lorsque qu’on parle de performance dans les logs d’un serveur, on mesure généralement le temps qu’il a fallu au serveur pour servir la requête (cache ou génération du PHP et appels à la base de données dans 99% des cas).

Most crawled

Ce sont les pages les plus consultées par GoogleBot.
Ces URL devraient être celles qui sont le plus importantes en SEO (comprendre celles qui doivent se positionner, celles qui ont été travaillées) et logiquement répondre en “200”. Si vous constatez que votre page contact fait partie de ces pages là, il y a surement un problème.
Dans les URL les plus crawlées, vous pouvez retrouver le robots.txt ou le sitemap.xml : c’est normal, ce sont deux fichiers que Google utilise beucoup pour adapter son crawl

New pages

Ce sont les URL récemment découvertes par Google Bot.
Cette rubrique est très importante, surtout sur des sites où plusieurs intervenants travaillent : vous pourrez facilement detecter si de nouvelles pages sont mises en lignes, si des pages ont été renommées, si il y a des spider trap, etc…

La rubrique et ses sous rubriques SEO visits

Ces rubriques sont intéressantes car elles permettent d’avoir des statistiques SEO au niveau du moteur Google sans avoir à installer Search console ou Google analytics.
On peut extraire les pages actives : celles qui ont eu au moins 1 visite SEO dans la période donnée. C’est un optimisation qui se fait fréquemment lors d’une prestation SEO : cela consiste à extraire les pages inactives et les traiter (désindexation, suppression, fusion,  enrichissement éditorial, stratégie de maillage interne ou création de backlinks, diminution de la profondeur de clics, …)

Tu proposes un crawler depuis peu : en quoi est ce intéressant pour un SEO ?

Avant même l’analyse de logs, le crawler est l’outil de base de n’importe quel SEO. L’idée est bien évidemment de simuler le crawl d’un robot à partir de la page d’accueil d’un site. Cela permet de vérifier que le site correspond d’une manière générale aux guidelines des moteurs de recherche mais pas seulement : détection du contenu dupliqué, traitement des erreurs serveurs, vérifications des liens, check des balises SEO, visualisation du maillage interne…

Le résultat d’un crawl est immensément riche d’informations pour mettre en lumière des éléments d’optimisations ou des corrections à apporter.

Parlons un peu des nouveautés que tu mets en place régulièrement

Qu’est ce que tu as rajouté dernièrement?

Tu en parlais précédemment le crawler a été un cap dans le développement, puisque l’enjeu était de pouvoir de crawler rapidement, petits et énormes sites, là où certains crawler montrent vite leur limites. Cela a permis d’embrayer sur la visualisation du maillage interne avec calcul du Page Rank interne : cette fonctionnalité est énormément appréciée car elle est visuelle. En quelques secondes on peut aisément découvrir des problèmes de maillage sur un site ; et en plus c’est joli et coloré 🙂

En exclusivité une nouvelle feature qui vient d’être mise en ligne :

Quelles sont les prochaines?

Si je devais en sélectionner une parmis les 50 prochaines ? :p
Ce serait le monitoring temps réel des points SEO vitaux d’un site. C’est un aspect qui me tient à coeur parce que j’ai vu trop de sites dont le trafic SEO a été anéanti soudainement, bien souvent suite à une erreur humaine minime mais qui a des conséquences énormes. Nous avons initié le monitoring avec le robots.txt et cela a permis de sauver bon nombre de sites en quelques mois : suppression de robots.txt, Disallow de la préprod qui se retrouve en prod, site piraté…

Quelques questions complémentaires :

As tu prévu d’inclure d’autre la gestion d’autres bots (bing, qwant, crawlers SEO comme Majestic, ahrefs, moz, ..)?

La gestion des autres bots est prévu à moyen terme, il est bon de rappeler que la France utilise trop Google en comparaison aux autres pays.

Penses tu pouvoir connecter search console et/ou Google analytics

C’est un secret 😉

L’outil est gratuit : comment est ce que ça va évoluer dans le temps?

Effectivement, un outil comme celui-ci demande énormément d’investissement en développement, en infrastructure, en support, et en temps tout simplement.
La pérennité de l’outil passe par un modèle économique viable. Un modèle freemium sera adopté afin de conserver l’esprit original de l’outil : la démocratisation d’outils habituellement difficile d’accès.

Tu as combien de logs de GGbot (à peu près) en BDD?

Nous traitons environ 20 millions de pages consultées par Googlebot chaque jour.

Il faut savoir que les premières lignes de code de Seolyzer ont été écrites en 2015, soit deux ans avant le lancement de la version publique. Le pari étant de proposer l’outil au plus grand nombre, il a fallu optimiser chaque ressource, chaque octet en mémoire, chaque écriture sur  disque, d’autant plus que le service serait gratuit et temps réel.

Il a donc fallu beaucoup de R&D, de tests, de montées en charge sur des technos diverses et variées afin de trouver la bonne formule. Un challenge passionnant 🙂

 

Post Comment