Vous avez peut-être remarqué dernièrement l’apparition d’un indice de fréquence sur les entrées du dictionnaire.
J’ai calculé les occurrences de tous les mots du dictionnaire français dans un corpus de textes et, comme les chiffres ne sont pas très évocateurs (les nombres d’occurrences allant de 0 à plusieurs milliards), j’ai établi un indice de fréquence basé sur la probabilité de chaque mot.
CORPUS
1. Wikipédia francophone (archive d’avril 2010) :
fr.wikipedia.org…
—» environ 341 millions de mots
2. Wikisource (archive d’avril 2010) :
fr.wikisource.org…
—» environ 157 millions de mots
3. Google 1-gram (juillet 2009) :
books.google.com…
—» environ 44,8
milliards de mots (plus de 130 fois Wikipédia)
Note : mes archives Wikipédia et Wikisource sont un peu vieilles parce que ça prend des heures à tout télécharger, décompresser, épurer, calculer… Mon PC date un peu, c’est pénible à mettre en œuvre. Je n’ai pas eu le courage de le refaire depuis l’an dernier.
RÉSULTATS
Le mot le plus fréquent est de loin « de » qui constitue 4,1 % de tous les mots ! Ensuite, ça baisse très vite, puisque, comme vous vous en doutez, la somme des pourcentages de tous les mots doit faire 100 %. Beaucoup de mots n’ont aucune occurrence dans le corpus. Et entre les deux, il y a beaucoup de variations. J’ai donc établi un indice de fréquence basé sur des seuils.
Dix indices de fréquence (de 0 à 9) :
9 : 0.1 % et plus
8 : moins de 0.1 %
7 : moins de 0.01 %
6 : moins de 0.001 %
5 : moins de 0.0001 %
4 : moins de 0.00001 %
3 : moins de 0.000001 %
2 : moins de 0.0000001 %
1 : moins de 0.00000001 %
0 : aucune occurrence trouvée dans le corpus
Dictionnaire français de 72226 entrées :
indice - nombre d’entrées
9 - 77 entrées (0.11 %)
8 - 724 entrées (1,00 %)
7 - 4441 entrées (6,15 %)
6 - 12704 entrées (17,59 %)
5 - 19386 entrées (26,84 %)
4 - 18174 entrées (25,16 %)
3 - 8714 entrées (12,06 %)
2 - 2455 entrées (3.40 %)
1 - 2479 entrées (3.43 %)
0 - 3072 entrées (4.25 %)
J’espère qu’il n’y a pas de bug ou d’erreur de calcul. Il faudra quand même que je vérifie tout ça. C’est
sans garantie. :)
Si j’avais voulu être précis, j’aurais plutôt créé un indice avec cent graduations, mais je préfère donner un
ordre de grandeur. Les libellés donnés à ces indices sont un peu arbitraires. J’essayerai d’en trouver de meilleurs. N’hésitez pas à faire des propositions.
À compter d’aujourd’hui, après chaque publication du dictionnaire, je mettrai à jour la base de données avec les nouveaux résultats obtenus.
NOTES
1. Parasitage des mots rares
Les données sont brutes et la reconnaissance des mots est quand même à améliorer. Le point important à retenir, c’est que le nombre d’occurrences d’une graphie est divisé et réparti également entre toutes les possibilités que celle-ci peut être.
Par exemple, la graphie
dans peut être la très courante préposition ou le pluriel du mot japonais
dan. Chaque mot récupère la moitié du nombre d’occurrences.
Autre exemple avec
politique, qui peut être le nom féminin ou plusieurs conjugaisons d’un verbe peu fréquent,
politiquer. Le nombre d’occurrences est divisé entre toutes ces possibilités :
— politique
nom fem,
— politique
v1i ipre 1sg,
— politique
v1i ipre 3sg,
— politique
v1i spre 1sg,
— politique
v1i spre 3sg,
— politique
v1i impe 2sg.
On arrive à la situation absurde où certains mots rares sont mieux lotis que des mots usuels dont ils tirent profit. C’est embêtant, mais pas dramatique. Avec ce système, même en divisant par 10, un mot fréquent comme
politique ne peut descendre au pire que d’un seul point sur l’échelle. En fait, cette situation profite surtout à certains mots qui se voient propulsés à des hauteurs qu’ils n’attendraient jamais autrement.
Il n’y a plusieurs moyens de remédier à ces problèmes :
— comparer les occurrences des formes fléchies d’un lemme et écrêter,
— étiqueter avec
rare ou avec une autre étiquette les mots parasites, étiquette qui signifierait au calculateur : divise par 1000, 10000 ou plus le nombre d’occurrences de ce mot,
ou
— une autre idée que vous allez me suggérer. ;)
2. Seules les graphies reconnues par le dictionnaire sont comptées
Par exemple, pour le mot
œuvre, les occurrences de la graphie
oeuvre ne sont pas incluse dans le résultat.
Si un mot est mal orthographié, il n’est pas compté, sauf si la graphie erronée est identique à un autre mot reconnu.
3. Les chiffres de Google
Les données de Google ont été élaborées à partir de textes numérisés. Cette numérisation n’est pas parfaite, et il y a beaucoup de coquilles. Par exemple, pour
épistémologie, j’ai trouvé :
épistémologie 103876
épistémologîe 68
épistcmologie 106
épistemologie 101
épistémologle 59
epistemologie 335
et il y a sûrement d’autres coquilles pour la même graphie.
On y trouve aussi des mots d’autres langues :
epistemology 2593
epistemologia 579
epistemolôgica 86
epistemolôgico 89
epistemologico 259
epistemológica 81
Ça ne semble pas problématique, attendu que tous les mots sont susceptibles d’être mal numérisés. Mais les données de Google souffrent d’un gros problème. Pour je ne sais quelle raison, tous les traits d’union ont disparu, les graphies sont soudées. Par exemple, les occurrences de
Grande-Bretagne sont enregistrées sur l’entrée
GrandeBretagne. Pour l’instant, je n’ai pas cherché à corriger ce problème, les mots composés ne bénéficient donc que des occurrences sur Wikipédia et sur Wikisource.