Cet article est le premier d’une série de 3 : le premier fait des rappels sur ce que sont les embeddings, le second aborde la présence des embeddings dans l’algorithme de Google, et le 3e explique comment utiliser les embeddings dans Screaming Frog pour différentes tâches SEO. Cette thématique était au coeur de ma conférence au Salon du Search Marketing à Lille.
Dans l’écosystème du marketing digital, une révolution silencieuse s’opère depuis une décennie. Les embeddings – ces représentations vectorielles qui transforment mots, phrases et concepts en données mathématiques exploitables – redéfinissent la façon dont les algorithmes comprennent et traitent le langage naturel. Pour les spécialistes du digital marketing, maîtriser cette technologie devient crucial pour optimiser leurs stratégies de contenu, leur SEO sémantique et leurs campagnes publicitaires automatisées.
Les fondations mathématiques du langage numérique
Avant de plonger dans les applications marketing, il convient de comprendre ce que sont réellement les embeddings. Cette technologie consiste à convertir des mots, des phrases, ou des images) en vecteurs de nombres réels dans un espace mathématique multidimensionnel. L’objectif : que la proximité géométrique entre ces vecteurs reflète la similarité sémantique des concepts qu’ils représentent.
Le terme « embedding » provient du concept mathématique de plongement, qui consiste à insérer un objet dans un espace de dimension différente tout en préservant ses propriétés structurelles essentielles. Dans notre contexte, on « plonge » des symboles discrets dans un espace vectoriel continu où ils deviennent manipulables par des algorithmes.
Les embeddings dans les modèles de langage (LLM) sont le résultat d’un processus de réduction dimensionnelle. Un vocabulaire de 50 000 tokens, initialement représenté par des vecteurs de 50 000 dimensions, se retrouve compressé en vecteurs denses de 768 (dans BERT) ou 1 024 dimensions (un LLM moderne light). Cette compression, loin d’être une limitation, permet de capturer les coordonnées des mots ou des phrases dans un espace vectoriel où la proximité entre les coordonnées correspond à la proximité sémantique entre ces mots et ces phrases. Et ce, de manière commode et efficace.
De Salton à Google : l’évolution d’une révolution
L’histoire des embeddings commence dans les années 1960 avec Gerard Salton et son modèle vectoriel pour la recherche d’information. Sa méthode représentait les documents comme des vecteurs dans un espace où chaque dimension correspondait à un terme du vocabulaire. La similarité entre documents était mesurée par le cosinus de Salton – l’angle entre leurs vecteurs respectifs.
Bien qu’innovante pour l’époque, cette approche produisait des représentations éparses (avec de nombreux zéros) et ne capturait pas les relations sémantiques complexes. Un document mentionnant « automobile » et un autre parlant de « voiture » étaient considérés comme totalement différents, malgré leur proximité conceptuelle.
La véritable rupture survient en 2013 avec Word2vec, développé par l’équipe de Tomas Mikolov chez Google. Cette approche utilise des réseaux de neurones pour apprendre des représentations denses des mots basées sur leur contexte d’usage. Word2vec propose deux architectures : Skip-gram (qui prédit les mots contextuels à partir d’un mot central) et CBOW (Continuous Bag of Words, qui fait l’inverse).
L’innovation majeure résidait dans la capacité du système à capturer des relations sémantiques complexes. L’exemple devenu célèbre « roi – homme + femme = reine » illustrait parfaitement cette capacité à effectuer des opérations arithmétiques sur le sens.
BERT et l’ère des embeddings contextuels
En 2018, Google franchit une nouvelle étape avec BERT (Bidirectional Encoder Representations from Transformers). Contrairement à Word2vec qui produit une représentation statique pour chaque mot, BERT génère des embeddings contextuels : la représentation d’un mot varie selon la phrase dans laquelle il apparaît.
Cette avancée majeure repose sur l’architecture Transformer avec attention bidirectionnelle. Là où les modèles précédents analysaient le texte de manière séquentielle, BERT examine simultanément l’ensemble du contexte, créant des représentations infiniment plus nuancées.
L’impact pour le marketing digital est considérable. Les algorithmes de recherche de Google, désormais alimentés par BERT, comprennent mieux l’intention derrière les requêtes utilisateurs, rendant obsolètes de nombreuses techniques de bourrage de mots-clés au profit d’une approche sémantique plus sophistiquée.
GPT et Gemini : vers l’intelligence artificielle générative
Les modèles GPT d’OpenAI et Gemini de Google représentent l’aboutissement actuel de cette évolution. Ces modèles génératifs créent des embeddings encore plus sophistiqués, capables de représenter non seulement des mots ou des phrases, mais des concepts complexes, du raisonnement et même des instructions.
Leur capacité multimodale (texte, image, audio) ouvre de nouvelles perspectives pour le marketing digital. Un même système peut désormais analyser un post Instagram, comprendre son contexte visuel et textuel, puis générer des recommandations publicitaires cohérentes. Les embeddings deviennent ainsi le langage universel permettant aux machines de naviguer entre différents types de contenus.
Ces modèles intègrent également des embeddings adaptatifs selon la tâche, optimisant automatiquement leurs représentations pour chaque contexte d’usage spécifique.
Applications stratégiques pour le marketing digital
Pour les professionnels du marketing digital, ces avancées technologiques se traduisent par des opportunités concrètes :
- SEO sémantique avancé : les embeddings permettent d’identifier les champs lexicaux pertinents et d’optimiser le contenu pour l’intention de recherche plutôt que pour des mots-clés isolés
- Personnalisation des campagnes : en représentant les profils utilisateurs et les contenus dans le même espace vectoriel, les algorithmes peuvent identifier des affinités subtiles invisibles aux approches traditionnelles
- Analyse de sentiment contextualisée : BERT et ses successeurs comprennent l’ironie, le sarcasme et les nuances culturelles, révolutionnant l’analyse des retours clients
- Génération de contenu intelligent : les modèles génératifs produisent des textes publicitaires, descriptions produits et newsletters adaptés à chaque segment de clientèle
Il y’a d’autres applications pour le SEO que nous détaillerons plus tard.
Les « embeddings » sont utilisés depuis dix ans dans l’algorithme de classement de Google. C’est leur présence qui conduit (avec d’autres outils) l’approche par mots clés à devenir de plus en plus obsolète.
Avant de faire du « GEO », utiliser les possibilités des embeddings pour le SEO classique est devenu incontournable
Pourquoi utiliser des approches qui datent des années 70 au lieu de technologies actuelles pour faire du SEO en 2025 ? D’autant plus si l’on prend conscience que bien avant ChatGPT, Google avait déjà commencé à introduire l’utilisation des embeddings dans son algorithme (dès 2015). C’est tout l’objectif de cette série d’articles de vous faire découvrir ce qui deviendra de plus en plus avec le temps le coeur de l’algorithme de Google, et comment utiliser ces technologies pour faire du SEO traditionnel.
Prochain article : dix ans de présence des embeddings dans l’algorithme de Google
Bibliographie pour approfondir
- Attention Is All You Need – Le papier fondateur des Transformers par Vaswani et al.
- BERT: Pre-training of Deep Bidirectional Transformers – La publication originale de BERT par Devlin et al.
- Efficient Estimation of Word Representations in Vector Space – L’article original sur Word2vec par Mikolov et al.
- The Vector Space Model for Automatic Indexing – Le travail pionnier de Gerard Salton
- Language Models are Few-Shot Learners – La publication GPT-3 qui a popularisé les modèles génératifs