Lors du processus d’indexation de documents, les moteurs de recherche prennent en compte des listes de mots vides (stop words) par rapport à une langue donnée. Les mots vides sont des mots ignorés automatiquement lors d’une requête sur le moteur, ils correspondent aux mots grammaticaux comme les articles, adverbes, pronoms, prépositions, etc.
La prise en compte des mots vides est un premier pas dans la pertinence des résultats, car ces mots produisent du bruit (des résultats non pertinents). La liste peut être enrichie par rapport à une thématique particulière où les mots sont tellement courants qu’ils perdent leur sens.
Dans la mécanique d’un moteur de recherche, la linguistique a une place importante.
Exemples de mots vides (liste non exhaustive):
articles
le, la, les
démonstratifs
ce, ces, celles, celui, ceux, cet, cette, ci
pronoms
je, me, mon
tu, te, ton
il, le, son
elle, la, sa
on
nous, notre
vous, votre
ils, leur, sien
elles
adverbes de négation
ne
pas
plus
sans
jamais
rien
non
ni
point
aucun
nul
prépositions
avec, de, à , pour, en, dans, sur, par, sans
conjonctions de subordination
comme, lorsque, quand, puisque, si
conjonctions de coordination
et, ou, ni, mais, donc, car, or
verbes
aller, voir, manger, devoir, pouvoir, …