OK
AJAX error!

Les forumsDictionnaireest (verbe être) versus est (point cardinal) : indices de fréquence

est (verbe être) versus est (point cardinal) : indices de fréquence

Bonjour,
J'utilise le lexique téléchargé depuis la page de téléchargement de ce site. J'ai remarqué un problème dans les données de fréquence: la fréquence et l'indice de fréquence sont différents pour la forme "est" (nom masculin) et "est" (verbe être à la troisième personne), et la fréquence du nom masculin est supérieure. Je ne vois pas comment corriger ce problème dans la partie collaborative de ce site. Est-ce possible ? Sinon, quelqu'un peut-il le faire ?
le 19 janvier 2018 à 10:47
Bonjour,

L’indice de fréquence est calculé à partir des données de Google, Wikipédia et Wikisource.
Mais ce sont des données brutes dégagées de tout contexte.

Les données que vous voyez sur ce site ne sont que le résultat de ce calcul.

Le problème vient du fait que le “calcul” se base sur une estimation approximative de ce que peut être l’indice de fréquence “normal” lorsqu’il y a plusieurs possibilités.
Or, ici, le mot “est” étant un isolat sans autre forme fléchie permettant de faire une estimation de sa fréquence véritable. Du coup, l’algo coupe simplement la poire en deux, et fait une estimation basée sur la moyenne des fréquences trouvées pour les autres formes fléchies du verbe “être”.

Le problème ne concerne pas que le mot “est”, mais potentiellement tous les mots avec des conflits de ce genre.
le 19 janvier 2018 à 11:11
Est-ce que l'algorithme qui fait ce calcul et cette estimation est disponible quelque part ?
le 19 janvier 2018 à 13:58
code.grammalecte.net…
(Ce code est très vieux, je ne suis plus très sûr de ce que ça fait exactement…)

Pour les données brutes, il faut cloner le dépôt :
code.grammalecte.net…
Le nombre d’occurrences des mots est stocké dans les fichiers non versionnés qui prennent une place considérable (c’est pourquoi il ne sont pas versionnés).
le 19 janvier 2018 à 14:09
A-t-il été envisagé d'utiliser une bibliothèque comme Spacy (spacy.io…) pour extraire des données de fréquence qui prennent en compte la nature grammaticale des homonymes ? Serait-ce compliqué à faire ? Serait-ce utile pour le projet ?
le 19 janvier 2018 à 17:00
L’indice de fréquence ne sert (pour l’instant) à rien pour le correcteur grammatical, parce que on ne suit pas une approche statistique, et par ailleurs aussi parce que les chiffres qu’on a ne sont pas d’une grande fiabilité. Et même s’ils l’étaient, on n’en aurait pas l’utilité (pour l’instant) et je ne suis pas sûr du moment où on en aurait d’ailleurs besoin si la question se présentait.

Si on écrit “je travail”, il nous importe peu de savoir qu’on est sûr à 100 % que “travail” est un nom masculin, c’est quand même autre chose : un verbe mal écrit. Autrement dit, ce ne sont pas les statistiques de fréquence des mots qui déterminent s’il y a erreur ou non. C’est le contexte, et uniquement le contexte qui le permet. Et le contexte peut être totalement erroné lui-même.

L’indice de fréquence est présent dans le lexique uniquement parce que c’était relativement facile à calculer à partir des données existantes. Mais ça ne prétend nullement être autre chose qu’une approximation avec toutes les erreurs possibles.

Et ça ne veut pas dire qu’on cracherait sur des chiffres plus fiables bien sûr. Tout est bon à prendre.

Ce qui serait bien, c’est plutôt de deviner la nature grammaticale d’un mot lorsque le contexte ne le permet pas. Par exemple, savoir quel est le pourcentage de chance que “est” soit le verbe “être” et non le nom masculin désignant un point cardinal, ça pourrait être utile.
le 22 janvier 2018 à 10:52

Notification par e-mail    0