Plus d'informations grâce à plus de 546 000 aperçus d'IA

Suite à ma première analyse de +546 000 aperçus d'IA, j'ai approfondi trois questions :

  1. Quel est le lien entre les données d’exploration courantes et les aperçus de l’IA ?
  2. Comment l’intention de l’utilisateur modifie-t-elle les aperçus de l’IA ?
  3. Comment se répartissent les 20 premières positions pour les domaines qui se classent dans la recherche organique et sont cités dans les AIO ?

Quel est le lien entre les données d’exploration courantes et les aperçus de l’IA ?

L'inclusion d'un crawl commun n'affecte pas la visibilité d'AIO autant que le simple trafic organique.

Common Crawl, une organisation à but non lucratif qui explore le Web et fournit les données gratuitement, est la plus grande source de données pour la formation de l'IA générative.

Certains sites, comme Blogspot, contribuent à beaucoup plus de pages que d'autres, ce qui soulève la question de savoir si cela leur donne un avantage dans les réponses LLM.

Résultat: Je me demandais si les sites qui proposent plus de pages que les autres auraient également plus de visibilité dans les aperçus AI. Cela s'est avéré faux.

J'ai comparé les 500 premiers domaines par contribution de page dans Common Crawl aux 30 000 premiers domaines de mon ensemble de données et j'ai trouvé une faible corrélation de 0,179.

La raison est que Google ne s'appuie probablement pas sur Common Crawl pour former et informer les aperçus de l'IA, mais sur son propre index.

J'ai ensuite analysé la relation entre les 3 000 principaux domaines par trafic organique de Semrush et les 30 000 principaux domaines de mon ensemble de données et j'ai trouvé une forte relation de 0,714.

En d’autres termes, les domaines qui génèrent beaucoup de trafic organique ont de fortes chances d’être très visibles dans les aperçus de l’IA.

L'AIO semble de plus en plus récompenser ce qui fonctionne dans la recherche organique, mais certains critères restent très distincts.

Il est important de souligner que certains sites déforment la relation.

En excluant Wikipédia et YouTube, la relation descend à une corrélation de 0,485 – toujours forte mais inférieure à celle des deux mastodontes.

La corrélation ne change pas lorsque l'on supprime des sites plus volumineux, ce qui renforce l'idée que faire des choses qui fonctionnent dans la recherche organique a un impact important sur les aperçus de l'IA.

Comme je l’ai écrit dans mon post précédent :

Un classement plus élevé dans les résultats de recherche augmente certainement les chances d'être visible dans les AIO, mais ce n'est de loin pas le seul facteur.

Par conséquent, les entreprises peuvent exclure le bot de Common Crawl dans robots.txt si elles ne souhaitent pas apparaître dans les ensembles de données publics (et l'IA de génération comme Chat GPT) et rester très visibles dans les aperçus de l'IA de Google.

Comment l’intention de l’utilisateur modifie-t-elle les aperçus de l’IA ?

L’intention de l’utilisateur façonne la forme et le contenu des AIO.
Dans mon analyse précédente, je suis arrivé à la conclusion que la correspondance exacte de la requête importe peu :

Les données montrent que seulement 6 % des AIO contiennent la requête de recherche.

Ce chiffre est légèrement plus élevé dans SGE, à 7 %, et plus faible dans les AIO en direct, à 5,1 %. Par conséquent, répondre à l’intention de l’utilisateur dans le contenu est beaucoup plus important que nous aurions pu le supposer. Cela ne devrait pas être une surprise puisque l’intention de l’utilisateur est une exigence de classement clé dans le référencement depuis de nombreuses années, mais voir les données est choquant.

Le calcul de l’intention exacte (dominante) de l’utilisateur pour l’ensemble des 546 000 requêtes nécessiterait une puissance de calcul extrêmement importante. J’ai donc examiné les abstractions communes : informationnelles, locales et transactionnelles.

Les abstractions sont moins utiles lors de l'optimisation du contenu, mais elles sont très utiles lorsqu'il s'agit d'examiner des données agrégées.

J'ai regroupé :

  • Requêtes informatives autour de mots interrogatifs tels que « quoi », « pourquoi », « quand », etc.
  • Requêtes transactionnelles autour de termes tels que « acheter », « télécharger », « commander », etc.
  • Requêtes locales autour de « à proximité », « proche » ou « près de moi ».
La réponse AIO contient une requête par intention de l'utilisateur

Résultat: Les différences d'intention des utilisateurs se reflètent dans la forme et la fonction. La longueur moyenne (nombre de mots) est presque égale pour toutes les intentions, à l'exception de l'intention locale, ce qui est logique car les utilisateurs veulent une liste d'emplacements plutôt que du texte.

De même, les questions d'achat AIO sont souvent des listes de produits avec un peu de contexte, à moins qu'il ne s'agisse de questions liées aux achats.

Les requêtes locales présentent le plus grand nombre de chevauchements de correspondance exacte entre la requête et la réponse ; les requêtes informatives présentent le plus faible nombre.

Comprendre et satisfaire l'intention des utilisateurs concernant les questions est plus difficile mais aussi plus important à voir dans les AIO que, par exemple, les extraits en vedette.

Comment se répartissent les 20 premières positions organiques ?

Dans ma dernière analyse, j'ai découvert que près de 60 % des URL qui apparaissent dans les AIO et les résultats de recherche organiques se classent en dehors des 20 premières positions.

Pour ce mémo, j'ai décomposé le top 20 plus en détail pour comprendre si les AIO sont plus susceptibles de citer des URL dans des positions plus élevées ou non.

Répartition des 20 premiers résultats de recherche pour les URL qui sont également des citations AIO

Résultat: Il s'avère que 40 % des URL dans les AIO se classent aux positions 11 à 20, et seulement la moitié (21,9 %) se classent dans le top 3.

La majorité, 60 % des URL citées dans les AIO, se classent toujours sur la première page des résultats organiques, ce qui renforce l'idée qu'un classement organique plus élevé tend à conduire à une plus grande chance d'être cité dans les AIO.

Cependant, les données montrent également qu’il est tout à fait impossible d’être présent dans les AIO avec un rang organique inférieur.

Où se classent les 20 premiers domaines visibles dans les AIO et les résultats de recherche

Scénarios

Je travaillerai avec mes clients pour répondre aux intentions des utilisateurs de l'AIO, fournir des informations uniques et personnaliser le format. Je vois des options pour la progression d'AI Overview que je suivrai et validerai avec des données dans les mois et les années à venir.

Option 1 : Les AIO s'appuient davantage sur les résultats organiques de premier ordre et répondent à une intention plus informative avant que les utilisateurs n'aient besoin de cliquer sur les liens vers les sites Web. La majorité des clics sur les sites proviennent d'utilisateurs qui envisagent ou ont l'intention d'acheter.

Option 2 : Les AIO continuent de fournir des réponses à partir de résultats diversifiés et laissent une petite chance aux utilisateurs de cliquer sur les résultats les mieux classés, bien que dans des quantités beaucoup plus faibles.

Sur quel scénario pariez-vous ?