Les différents filtres de l'algorithme de Google

Google est un petit cachotier, qui n’aime rien tant que de développer ses algorithmes mathématiques dans ses laboratoires ultra-secrets. De même lorsque l’on veut réellement comprendre le mode de fonctionnement des filtres, l’on est bien souvent obligé d’extrapoler, tant les informations purement techniques sont délivrées au compte goutte. C’est bien souvent plusieurs mois après l’annonce (ou pas) par le géant de Mountain View des nouvelles fonctionnalités, que l’on arrive à en comprendre les implications sur le référencement des sites. Les lignes qui suivent vont détailler les principales évolutions des algorithmes de Google, au travers de ces filtres les plus emblématiques.

Petits rappels techniques sur les principes de base du fonctionnellement de Google

Schématiquement un moteur de recherche tel que Google est constitué d’un ensemble de logiciels (sur des serveurs), qui recherchent, archivent et analysent en permanence les pages des sites (nouveaux, anciens et actualisés) au travers d’un certain nombre de critères. Ceci afin de pouvoir lors d’une requête d’un internaute, afficher les adresses des pages les plus pertinentes. De manière plus approfondie, le processus se déroule en trois étapes.

Le Crawl consiste pour un robot informatique (un bot en anglais), à « balayer » en permanence le web en suivant les liens internes et externes des sites, pour en copier le contenu (uniquement les textes en HTML, sans les images, vidéo et autres sons). Celui-ci est stocké dans la base de données sur les Datacenter de Google.

L’indexation est effectuée par un autre robot au travers de plusieurs tâches.
- L’analyse des mots-clés de l’entête.
- L’analyse sémantique du contenu (texte uniquemnt).
- L’analyse des liens pointant vers la page (popularité).
- Le rangement de la page dans la base de données.
- La création d’un index et d’un index inversé qui serviront pour la récupération des données.

Enfin la restitution, qui affiche à l’internaute les résultats les plus « pertinents », en fonction de d’analyse que fait le robot de Google des mots utilisés dans la requête.

Il convient d’apporter une précision importante concernant la notion de pertinence dans les réponses de Google. Celle-ci peut varier en fonction de très nombreux critères, qui changent régulièrement en fonction de la mise en service des nouveaux filtres détaillés ci-dessous.

La préhistoire de Google avec le PageRank

Au départ l’algorithme mathématique de Google se limitait à comptabiliser les liens pointant vers une page pour en définir son rang. C’est le PageRank. Le système à très vite trouvé ses limites et le bébé de L.E. Page et S. Brin (les créateurs de Google) a dû considérablement complexifier l’algorithme, en ajoutant des filtres de plus en plus nombreux et surtout interdépendants, pour affiner les réponses en fonction de critères externes ou internes à l’entreprise. Les lister tous est impossible, quand l’on sait que Google annonce effectuer en moyenne 500 optimisations par an faisant ainsi varier en permanence les SERP (pages de résultat : « Search Engine Result Pages » en anglais).

Présentation des filtres Google

Booster à la Caféine

Tel était en effet le but de la nouvelle architecture que Google dévoila en aout 2009, mais qu’elle utilisait probablement depuis plusieurs semaines déjà en mode test. Pour l’anecdote certains développeurs au sein du Staff, avaient même proposé très sérieusement Cocaïne comme nom de baptême. Plus sérieusement ces derniers ont réellement effectué une remise à plat de l’architecture, qui est passée d’un mode de travail par groupe de pages à une analyse et une indexation par page. Cafféîne, contrairement aux autres modifications annoncées par la suite, n’a pas touché aux algorithmes d’analyse des pages. En conséquence il n’a eu (en théorie) aucun impact sur le positionnement des SERP.

Plus 50 % de gain dans la rapidité ! Pari gagné

Dans l’ancienne architecture les moteurs de crawl et d’indexation procédaient à la récupération des pages, leur analyse et à leur indexation par paquets. Les résultats concernant chaque page n’étaient disponibles en SERP qu’une fois le groupe traité entièrement. Caféine procède par contre page par page, avec des résultats indexés qui se retrouvent ainsi plus rapidement disponibles, en réponse aux requêtes. La fraicheur de l’index est ainsi améliorée de 50 %, car la mise à jour de celui-ci s’effectue en temps réel pour l’ensemble des data-center partout dans le monde. De manière évidente, cela à permis d’augmenter considérablement sa taille. En 2013 l’on parlait déjà de 30 000 Milliards d’URL indexées. C’est Caféine qui a permis le développement des news instantanées, qui se retrouvent ainsi indexées quelques minutes seulement après leurs publications. C’est aussi grâce à Caféine qu’ont pu être développés les différents filtres d’analyse des contenus : Panda, Penguin et les autres volatiles du Zoo Google.

Permettre une plus grande personnalisation des recherches

En même temps que Google passait à Caféine, il modifiait aussi sa présentation pour les internautes, avec l’ajout d’outils supplémentaires pour personnaliser les recherches. Ceux-ci offraient ainsi plus de possibilités dans la chronologie, la position géographique, la sémantique et le mode d’affichage des résultats. Avec en corolaire pour les développeurs de sites, une plus grande complexité dans les informations à fournir à Google.

Dernier point mais non des moindres, comme il a été précisé plus haut Caféine n’étant pas une modification de l’algorithme, ne devait avoir aucun impact sur le classement des sites. L’expérience à montre depuis que l’incidence est en fait notable, ne serait-ce que par l’augmentation de la taille de l’index qui a accru la compétition sur les mots-clés.

Panda fait le grand nettoyage

On peut même dire que le symbole emblématique de la Chine (sic) fait œuvre de salubrité publique sur le web. Plus concrètement Google a décidé (bien souvent avec raison, il faut le reconnaitre) que trop de sites n’avaient pas les qualités en matière de contenu, pour se retrouver en tête du classement.

L’autopsie du Panda

Selon le staff technique de la Firme de Mountain View (Amit Singhal & Matt Cutts) qui présentait leur plantigrade en février 2011, les sites suivants seront pénalisés :

Les sites « sans valeur ajoutée » et de « faible qualité » pour les internautes. Il s’agit là d’une notion éminemment vague.

Les sites utilisant le duplicate content (contenu dupliqué).

Les sites signalés par les internautes comme étant de mauvaise qualité.

Et la meilleure pour la fin : les sites « qui ne sont pas très utiles ».

Qui à peur de Panda ?

Dans la réalité ce que vise Google avec Panda, c’est le déréférencement des fermes de contenus optimisées SEO. Ce type de site n’est construit que dans le but de générer des revenus publicitaires, sans un réel apport aux internautes. Ils sont parfaitement identifiables par plusieurs de leurs caractéristiques : mots clés optimisés sur les requêtes les plus fréquentes, mais sans rapport avec le contenu ; contenu de remplissage sans intérêt ; duplicate content ; débauche de liens pointant vers la page…
Ils correspondent généralement à la nomenclature suivante :

Les sites d’e-commerce (contenu pauvre, page répétitive…).

Les forums de discussions et d’échanges (idem ci-dessus).

Les annuaires, comparateurs de prix et en règle générale tous sites ayant des pages « miroirs » sans contenu informatif.

Les sites traitant d’actualités générales ou spécialisées qui se reprenne bien souvent mot à mots (duplicate content).

Bien évidemment le but réel (non avoué) de Google est de faire basculer le propriétaire ou gestionnaire des sites concernés dans le référencement payant.
Précisons enfin qu’au-delà des cas cités précédemment, n’importe quel site même de très haute qualité, peut faire les frais de Panda. Il suffit pour cela d’une simple page qui n’ait pas été convenablement réalisée ou actualisée.

Un Penguin…en képi de policier

Non madame ! Inutile de préparer la baignoire pour l’accueillir. Ce sympathique oiseau en smoking et cravate n’est là que pour taper sur les doigts des webmasters. En tout cas de ceux qui abuseraient du netlinking, du backlinking, du cloaking et des contenus similaires (en limite de duplicate content). Ceci dans le cadre d’une volonté de « sur-optimisation » SEO. En quelques mots de ce bon vieux Matt Cutts (responsable anti-spam de Google), lors de la présentation de ce Penguin en avril 2012, il s’agit de lutter contre les black hat du SEO. Au travers de ce filtrage ce sont les liens dit « spammy » qui sont visés, mais aussi et surtout la création artificielle de popularité des sites, dans le but d’y amener l’internaute (tromperie sur la marchandise). Pour avoir une idée claire des capacités du filtre il suffit de se reporter au Google’s Webmaster Guidelines ou en bon français : les Consignes aux webmasters ►ICI.
Parmi les multiples interdictions qu’impose Google, l’on trouve :

Les liens textuels non pertinents.

L’achat de liens retour sur des réseaux payants.

Les liens externes provenant de sites ayant un même propriétaire.

Les liens externes provenant de site sans thématique commune.

Les liens (et les textes) cachés ayant pour but une redirection trompeuse des internautes.

Création de pages miroirs sans contenu original, uniquement dans le cadre d’une politique de sur-optimisation.

Le Colibri*…et l’oiseau s’est fait Intelligence Artificielle

Un peu à l’image d’Hal 9000, l’ordinateur de 2001 l’odyssée de l’espace, le chef-d’œuvre de Stanley Kubrick, Colibri (Hummingbird en anglais) est en effet capable de comprendre le sens des requêtes des internautes et non plus seulement une succession de mots-clés. Révélé en septembre 2013, Colibri peut être qualifié de saut qualitatif au niveau de l’intelligence artificielle. Parmi les capacités auxquelles prétend notre oiseau-mouche (autre nom du colibri) l’on trouve la compréhension du sens d’une requête effectuée sur le mode conversation. À titre d’exemple (fournie par Google), sur une requête du type : « quel est l’endroit le plus près de chez moi pour acheter un iPhone 5S » Google affichera le magasin (endroit) vendant des iPhone 5S à proximité du domicile de la personne (à condition d’avoir préalablement signalé son adresse à Google). D’autre part Colibri est aussi et surtout optimisé pour les mobiles avec une compréhension en mode oral (Siri chez Appel).

* Le colibri est un oiseau extraordinaire, capable de voler en marche arrière et dont les battements d’ailes sont de l’ordre de plusieurs dizaines de fois par seconde. C’est un oiseau minuscule, mais pourtant extrêmement performant et rapide et capable d’une forme « d’intelligence » avancée dans sa recherche de nourriture.
Ce petit (très petit) tour d’horizon des évolutions des algorithmes de Google, montre les progrès réalisés dans ce qui peu à peu est en train d’émerger comme étant une Intelligence Artificielle, à même de « converser » (au travers des réponses aux requêtes) avec l’homme. Dernière petite précision, l’ensemble des filtres cités précédemment continue à être actifs et bénéficies en moyenne d’une mise à jour par mois. Abstraction faite des mises à jour pour les autres filtres non cités ici et des prochains à venir.

Les différents filtres de l’algorithme de Google

Petits rappels techniques sur les principes de base du fonctionnellement de Google

La préhistoire de Google avec le PageRank