Vectorisation et transformateurs (pas le film)

Les systèmes de recherche d’informations sont conçus pour satisfaire un utilisateur. Rendre un utilisateur satisfait de la qualité de son rappel. Il est important que nous comprenions cela. Chaque système et ses entrées et sorties sont conçus pour offrir la meilleure expérience utilisateur.

Des données d’entraînement aux scores de similarité et à la capacité de la machine à « comprendre » nos conneries fatiguées et tristes – c’est le troisième d’une série que j’ai intitulée, la récupération d’informations pour les crétins.

TL;DR

  1. Dans le modèle spatial vectoriel, la distance entre les vecteurs représente la pertinence (similarité) entre les documents ou éléments.
  2. La vectorisation a permis aux moteurs de recherche d’effectuer une recherche de concepts plutôt que de mots. C’est l’alignement de concepts, pas de lettres ou de mots.
  3. Les documents plus longs contiennent des termes plus similaires. Pour lutter contre cela, la longueur des documents est normalisée et la pertinence est priorisée.
  4. Google fait cela depuis plus d’une décennie. Peut-être depuis plus d’une décennie, vous aussi.

Choses que vous devez savoir avant de commencer

Certains concepts et systèmes que vous devez connaître avant de nous lancer.

Je ne me souviens pas de tout cela, et vous non plus. Essayez simplement de vous amuser et espérez que grâce à l’osmose et à la cohérence, vous vous souviendrez vaguement des choses au fil du temps.

  • TF-IDF signifie fréquence de document inverse de fréquence. Il s’agit d’une statistique numérique utilisée en PNL et en recherche d’informations pour mesurer la pertinence d’un terme au sein d’un corpus de documents.
  • Similitude cosinus mesure le cosinus de l’angle entre deux vecteurs, allant de -1 à 1. Un angle plus petit (plus proche de 1) implique une similarité plus élevée.
  • Le modèle du sac de mots est un moyen de représenter des données textuelles lors de la modélisation de texte avec des algorithmes d’apprentissage automatique.
  • Extraction de fonctionnalités/les modèles de codage sont utilisés pour convertir du texte brut en représentations numériques pouvant être traitées par des modèles d’apprentissage automatique.
  • Distance euclidienne mesure la distance en ligne droite entre deux points dans l’espace vectoriel pour calculer la similarité (ou la dissemblance) des données.
  • Doc2Vec (une extension de Word2Vec), conçue pour représenter la similitude (ou l’absence de similitude) entre les documents et les mots.

Qu’est-ce que le modèle spatial vectoriel ?

Le modèle spatial vectoriel (VSM) est un modèle algébrique qui représente des documents texte ou des éléments sous forme de « vecteurs ». Cette représentation permet aux systèmes de créer une distance entre chaque vecteur.

La distance calcule la similarité entre des termes ou des éléments.

Couramment utilisés dans la recherche d’informations, le classement de documents et l’extraction de mots-clés, les modèles vectoriels créent une structure. Cet espace numérique structuré de grande dimension permet le calcul de la pertinence via des mesures de similarité telles que la similarité cosinus.

Les termes se voient attribuer des valeurs. Si un terme apparaît dans le document, sa valeur est non nulle. Il convient de noter que les termes ne sont pas de simples mots-clés individuels. Il peut s’agir d’expressions, de phrases ou de documents entiers.

Une fois que les requêtes, expressions et phrases reçoivent des valeurs, le document peut être noté. Il a une place physique dans l’espace vectoriel choisie par le modèle.

En fonction de son score, les documents peuvent être comparés les uns aux autres en fonction de la requête saisie. Vous générez des scores de similarité à grande échelle. C’est ce qu’on appelle la similarité sémantique, où un ensemble de documents est noté et positionné dans l’index en fonction de leur signification.

Pas seulement leur similitude lexicale.

Je sais que cela semble un peu compliqué, mais pensez-y comme ceci :

Les mots sur une page peuvent être manipulés. Mot-clé bourré. Ils sont trop simples. Mais si vous pouvez calculer la signification (du document), vous êtes un pas de plus vers un résultat de qualité.

Pourquoi ça marche si bien ?

Les machines n’aiment pas seulement la structure. Ils adorent ça.

Les entrées et sorties de longueur fixe (ou stylisées) créent des résultats prévisibles et précis. Plus un ensemble de données est informatif et compact, meilleure est la classification, l’extraction et la prédiction que vous obtiendrez.

Le problème avec le texte est qu’il n’a pas beaucoup de structure. Du moins pas aux yeux d’une machine. C’est compliqué. C’est pourquoi il présente un tel avantage par rapport au modèle de récupération booléen classique.

Dans les modèles de récupération booléenne, les documents sont récupérés selon qu’ils satisfont aux conditions d’une requête qui utilise la logique booléenne. Il traite chaque document comme un ensemble de mots ou de termes et utilise les opérateurs AND, OR et NOT pour renvoyer tous les résultats qui correspondent à la facture.

Sa simplicité a son utilité, mais ne peut pas interpréter le sens.

Pensez-y davantage à la récupération de données qu’à l’identification et à l’interprétation des informations. Nous tombons trop souvent dans le piège du terme fréquence (TF) avec des recherches plus nuancées. Facile, mais paresseux dans le monde d’aujourd’hui.

Alors que le modèle spatial vectoriel interprète la pertinence réelle par rapport à la requête et ne nécessite pas de termes de correspondance exacts. C’est là toute sa beauté.

C’est cette structure qui crée un rappel beaucoup plus précis.

La révolution des transformateurs (pas Michael Bay)

Contrairement à la série de Michael Bay, réel L’architecture du transformateur a remplacé les anciennes méthodes d’intégration statiques (comme Word2Vec) par des intégrations contextuelles.

Alors que les modèles statiques attribuent un vecteur à chaque mot, les transformateurs génèrent des représentations dynamiques qui changent en fonction des mots environnants dans une phrase.

Et oui, Google fait cela depuis un certain temps. Ce n’est pas nouveau. Ce n’est pas GEO. Il s’agit simplement d’une recherche d’informations moderne qui « comprend » une page.

Je veux dire, évidemment non. Mais vous, en tant qu’être respirant, je l’espère, comprenez ce que je veux dire. Mais les transformateurs, eh bien, ils faire semblant :

  1. Les transformateurs pondèrent l’entrée des données par signification.
  2. Le modèle accorde plus d’attention aux mots qui exigent ou fournissent un contexte supplémentaire.

Laissez-moi vous donner un exemple.

« Les dents de la chauve-souris ont brillé lorsqu’elle s’est envolée de la grotte. »

Bat est un terme ambigu. L’ambiguïté est mauvaise à l’ère de l’IA.

Mais l’architecture du transformateur relie la chauve-souris aux « dents », au « vol » et à la « grotte », signalant que la chauve-souris est bien plus susceptible d’être un rongeur suceur de sang* que quelque chose qu’un gentleman utiliserait pour caresser la balle pour tracer une limite dans le meilleur sport du monde.

*Je ne sais pas si une chauve-souris est un rongeur, mais elle ressemble à un rat avec des ailes.

BERT contre-attaque

BERT. Représentations d’encodeurs bidirectionnels à partir de transformateurs. Hausse les épaules.

C’est ainsi que Google travaille depuis des années. En appliquant ce type de compréhension contextuelle aux relations sémantiques entre les mots et les documents. C’est en grande partie la raison pour laquelle Google est si doué pour cartographier et comprendre l’intention et son évolution au fil du temps.

Les mises à jour les plus récentes de BERT (DeBERTa) permettent aux mots d’être représentés par deux vecteurs : un pour le sens et un pour leur position dans le document. C’est ce qu’on appelle l’attention démêlée. Cela fournit un contexte plus précis.

Ouais, ça me semble bizarre aussi.

BERT traite simultanément toute la séquence de mots. Cela signifie que le contexte est appliqué à partir de l’intégralité du contenu de la page (pas seulement des quelques termes environnants).

Synonymes Bébé

Lancé en 2015, RankBrain a été le premier système d’apprentissage profond de Google. Eh bien, ça, je le sais, de toute façon. Il a été conçu pour aider l’algorithme de recherche à comprendre le lien entre les mots et les concepts.

C’était en quelque sorte l’ère de pointe de la recherche. N’importe qui peut créer un site Web sur n’importe quoi. Obtenez-le et classez-le. Gagnez beaucoup d’argent. Pas besoin d’aucune sorte de rigueur.

Des jours heureux.

Avec le recul, ces journées n’étaient pas idéales pour le grand public. Obtenir des conseils sur la planification des funérailles et la gestion des déchets commerciaux dans la chambre d’un jeune de 23 ans à Halifax.

À mesure que les requêtes nouvelles et évolutives augmentaient, RankBrain et la correspondance neuronale qui en découlait étaient essentiels.

Et puis il y a eu MAMAN. La capacité de Google à « comprendre » du texte, des images et du contenu visuel dans plusieurs langues simultanément.

La longueur des documents était un problème évident il y a 10 ans. Peut-être moins. Les articles plus longs, pour le meilleur ou pour le pire, donnaient toujours de meilleurs résultats. Je me souviens avoir écrit des articles de 10 000 mots sur des absurdités concernant les créateurs de sites Web et les avoir affichés sur une page d’accueil.

Même à ce moment-là, c’était une mauvaise idée…

Dans un monde où les requêtes et les documents sont mappés sur des nombres, on pourrait penser que les documents plus longs apparaîtront toujours sur les plus courts.

Rappelez-vous il y a 10 à 15 ans, lorsque tout le monde était obsédé par le fait que chaque article comptait 2 000 mots.

« C’est la durée optimale pour le référencement. »

Si vous voyez un autre article de 2 000 mots « Quelle heure est X », vous avez ma permission de me tirer dessus.

Les documents plus longs auront – du fait qu’ils contiennent plus de termes – des valeurs TF plus élevées. Ils contiennent également des termes plus distincts. Ces facteurs peuvent contribuer à augmenter les scores des documents plus longs

C’est pourquoi, pendant un certain temps, ils ont été le zénith de notre production de contenu merdique.

Les documents plus longs peuvent globalement être regroupés en deux catégories :

  1. Des documents verbeux qui répètent essentiellement le même contenu (bonjour, bourrage de mots clés, mon vieil ami).
  2. Documents couvrant plusieurs sujets, dans lesquels les termes de recherche correspondent probablement à de petits segments du document, mais pas à la totalité.

Pour lutter contre ce problème évident, une forme de compensation de la longueur du document est utilisée, connue sous le nom de normalisation pivotée de la longueur du document. Cela ajuste les scores pour contrecarrer le biais naturel des documents plus longs.

La distance cosinus doit être utilisée car nous ne voulons pas privilégier des documents plus longs (ou plus courts), mais privilégier la pertinence. Tirer parti de cette normalisation donne la priorité à la pertinence plutôt qu’à la fréquence des termes.

C’est pourquoi la similarité cosinusoïdale est si précieuse. Il est robuste pour la longueur du document. Une réponse courte et une réponse longue peuvent être considérées comme thématiquement identiques si elles pointent dans la même direction dans l’espace vectoriel.

Excellente question.

Eh bien, personne ne s’attend à ce que vous compreniez les subtilités d’une base de données vectorielles. Vous n’avez pas vraiment besoin de savoir que les bases de données créent des index spécialisés pour trouver des informations proches. voisins sans vérifier chaque enregistrement.

Il s’agit simplement pour des entreprises comme Google de trouver le bon équilibre entre performances, coûts et simplicité opérationnelle.

Les dernières excellentes recherches de Kevin Indig montrent que 44,2 % de toutes les citations dans ChatGPT proviennent des premiers 30 % du texte. La probabilité de citation diminue considérablement après cette première section, créant un effet « rampe de ski ».

Raison de plus pour ne pas créer inconsidérément des documents volumineux parce que quelqu’un vous l’a demandé.

Dans la « recherche IA », cela se résume en grande partie aux jetons. Selon le travail toujours excellent de Dan Petrovic, chaque requête dispose d’un budget de base fixe d’environ 2 000 mots au total, répartis entre les sources par classement de pertinence.

Dans Google, du moins. Et votre rang détermine votre score. Alors lancez-vous dans le référencement.

L’étude de Metehan sur ce que révèlent 200 000 jetons à propos de l’AEO/GEO met vraiment en évidence l’importance de cela. Ou le sera. Pas seulement pour nos emplois, mais aussi pour les préjugés et les implications culturelles.

Comme le texte est tokenisé (compressé et converti en une séquence d’identifiants entiers), cela a des implications en termes de coût et de précision.

  • La prose en anglais simple est le format le plus efficace en matière de jetons, avec 5,9 caractères par jeton. Appelons cela une efficacité relative de 100 %. Une ligne de base.
  • La prose turque n’en compte que 3,6. C’est 61% aussi efficace.
  • Tableaux de démarques 2.7. 46% aussi efficace.

Les langues ne sont pas créées égales. À une époque où les coûts des dépenses en capital (CapEx) montent en flèche et où les sociétés d’IA ont conclu des accords que je ne suis pas sûr qu’elles puissent encaisser, cela est important.

Eh bien, comme Google le fait depuis un certain temps, les mêmes choses devraient fonctionner sur les deux interfaces.

  1. Répondez à la question inversée. Mon Dieu. Allez droit au but. Je ne me soucie de rien d’autre que de ce que je veux. Donnez-le-moi immédiatement (parlé en tant qu’humain et machine).
  2. Alors chargez vos informations importantes en amont. Je n’ai aucune capacité d’attention. Les modèles à transformateur non plus.
  3. Lever l’ambiguïté. Travail d’optimisation d’entité. Reliez les points en ligne. Réclamez votre panel de connaissances. Auteurs, comptes sociaux, données structurées, création de marques et de profils.
  4. Excellent manger. Fournissez des informations fiables d’une manière qui vous distingue de la concurrence.
  5. Créez des liens internes riches en mots clés qui aident à définir le sujet de la page et du contenu. Une partie d’homonymie. En partie juste un bon UX.
  6. Si vous voulez quelque chose de axé sur les LLM, soyez plus efficace avec vos mots.
    • L’utilisation de listes structurées peut réduire la consommation de jetons de 20 à 40 % car elles suppriment les peluches. Non pas parce qu’ils sont plus efficaces*.
    • Utilisez des abréviations communément connues pour enregistrer également les jetons.

*Fait intéressant, ils sont moins efficaces que la prose traditionnelle.

Il s’agit presque exclusivement de donner aux gens ce qu’ils veulent rapidement et de lever toute ambiguïté. Dans un Internet plein de conneries, faire ça fonctionne vraiment, vraiment.

Derniers morceaux

Il y a des discussions sur la question de savoir si la démarque pour les agents peut aider à éliminer les superflus du code HTML sur votre site. Les agents pourraient donc contourner le encombré HTML et passez directement aux bonnes choses.

Dans quelle mesure cela pourrait être résolu en ayant une approche moins foutue du HTML sémantique, je ne sais pas. Quoi qu’il en soit, à surveiller.

Très SEO. Beaucoup d’IA.

Plus de ressources :


Lisez Leadership en matière de référencement. Abonnez-vous maintenant.