Qu’est-ce qu’un n-gramme?
Les Ngram ou n-grammes sont des séquences contiguës de n éléments (ou “tokens”) extraits d’un texte ou d’une parole donnée. Ces éléments peuvent être des phonèmes, des syllabes, des lettres, des mots ou des symboles de base selon le niveau d’analyse choisi. Par exemple, dans une analyse textuelle basée sur les mots, un n-gramme de taille 1 (unigramme) serait un mot unique, tandis qu’un n-gramme de taille 2 (bigramme) comprendrait une paire de mots consécutifs. De même, un trigramme (n=3) impliquerait une séquence de trois mots.
Ainsi :
- “Référencement” est un unigramme
- “Référencement naturel” est un bigramme
- “Stratégie de contenus” est un trigramme