OK
AJAX error!

Les forumsGrammalecteMarquer les mots étrangers dans un fichier odt

Marquer les mots étrangers dans un fichier odt

Bonjour

Je voudrais avoir votre avis sur la façon dont on pourrait utiliser l'extension Linguiste - dont vous nous aviez indiqué que vous êtes le mainteneur - pour un nouvel usage. Linguiste permet notamment d'obtenir la liste des mots non reconnus par le dictionnaire. S'il s'agit de l'œuvre d'un étranger, on trouve naturellement dans cette liste nombre de noms propres ou de mots étrangers. Il est facile d'extraire manuellement la liste des mots étrangers (sous la forme "nom plus nombre d'occurrences"). A quel usage?

Théoriquement, lorsque l'on produit un ebook, il faudrait que ces noms étrangers soient tagués mais pratiquement presque personne ne fait ce travail. Il serait pourtant utile lorsque les Epub sont convertis en audio-books à destination des handicapés par exemple avec la technique TTS. On gagnerait naturellement beaucoup à prononcer de façon correcte les mots étrangers. Il deviendrait aussi possible de vérifier leur orthographe avec un dictionnaire de leur langue.

Ma question est la suivante:

Que faudrait-il faire pour que l'on puisse utiliser cette sélection - manuelle - de noms provenant de Linguiste pour leur donner un style de caractère propre à leur langue? Pour le dire en d'autres mots, que faudrait-il faire pour analyser le fichier odt en le comparant à cette sélection et pour y marquer chaque occurrence du style de caractère "Langue"?

Ce style de caractère pourrait ensuite être automatiquement converti sous forme de span dans les fichiers xhtml pour rendre possible l'usage décrit plus haut.
le 21 février 2018 à 09:09
Bonjour,

Le plus compliqué, c’est de créer une interface pour que l’utilisateur sélectionne les mots sur lesquels il veut que le style s’applique. Après il y a peut-être d’autres difficultés, comme la surcharge de styles ou les problèmes de casse. Je ne suis pas sûr. Et si vous voulez un style différent par langue, là, ça commence à devenir complexe.

Le plus compliqué sera peut-être de gérer les bugs de LibreOffice, comme c’est le cas pour le formateur de texte. Comme c’est le cas pour un nouvel élément que je suis en train d’ajouter. Ça devrait être simple, mais c’est compliqué parce que LO bugue et je ne sais pas quoi faire pour contourner le bug.
le 21 février 2018 à 12:37
Merci de votre réponse.

Je pense que l'on peut se contenter d'un style unique pour démarrer. Le xhtml est assez souple ensuite pour gérer quelques exceptions. Mais vous avez raison de le souligner, peut-être LO n'offre-t-il pas le support le plus adapté...

Je vais aussi poser la question par ailleurs.
le 21 février 2018 à 13:46
Aujourd’hui, j’avais envie de faire autre chose que perdre mon sang-froid sur un bug coriace, alors j’ai intégré les fonctionnalités du “Linguist” dans Grammalecte avec une nouvelle interface.
Demain, je suis pris. Mais après-demain je verrai si on peut étiqueter un mot sélectionné.
le 21 février 2018 à 20:26
Excellent! Merci de votre travail!
le 22 février 2018 à 04:46
Voici une préversion :
[[ lien supprimé ]]

L’outil ne s’appelle plus “Linguist(e)” mais “Recenseur de mots” ou “Enumerator of words” en anglais.

Pour la lenteur, je ne peux hélas pas faire grand-chose.
le 23 février 2018 à 19:10
Je suis impressionné. Un grand merci pour ce nouvel outil pratique que je viens d'essayer.

Tout d'abord le "Recenseur" s'intègre parfaitement dans Grammalecte et rajoute une fonctionnalité tout à fait appréciable. Quelques remarques en vrac et pardonnez mes incompréhensions probables.

- La recherche faite avec l'onglet "Mots inconnus" est beaucoup plus stricte que celle faite avec Linguiste. Pour un même texte, Linguiste donnait une liste de 346 mots, le recenseur en donne 129. La liste "stricte" du recenseur est la plus utilisable pour l'objet qui nous occupe. La liste de Linguiste est cependant utile aux fins d'OCR, puisqu'elle détecte des constructions incorrectes dignes d'intérêt (p. ex. "qu'ce"). Il me semble que cette dernière devrait être maintenue dans Grammalecte sous forme d'option OCR en plus de l'option "stricte".

- Les options "Formatage direct "et "Style de caractère" fonctionnent bien. Cependant, l'utilisateur doit être conscient que le style de caractère "accentuation" se superposera aux accentuations existantes. La possibilité d'effacer l'un et l'autre est bienvenue. La conversion ultérieure vers l'ePub se passe ensuite parfaitement bien. Avec mon convertisseur, le style "accentuation" est converti en <em>xxxxx</em> ce qui évite toute confusion avec les <i>xxxxx</i> que j'emploie par ailleurs pour les italiques. Une regex suffit alors pour mettre en place les spans langue.

Alternativement, l'extension AltSearch permet de donner n'importe quel style de caractère à un mot surligné au moyen d'un simple rechercher/remplacer. Dans ce dernier cas, même si l'on peut nettoyer ensuite le formatage direct de l'odt (mais pas le style de caractère), il est préférable de travailler sur une copie du fichier.
rechercher: [:::CharBackColor::]
remplacer: \C{xxxxx}
xxxxx étant le nom du style de caractère que l'on choisit sur un menu déroulant.

- Le bouton "taguer" permet de surligner mot par mot. Le taguage ne fonctionne pas si le mot en question est immédiatement suivi d'un point. Le nom du personnage principal du roman n'a ainsi été tagué que 96 fois sur 137.

- Sélection. On ne peut lancer l'outil que sur un seul mot à la fois. Il n'est pas possible de sélectionner un groupe de mots à traiter successivement. Je ne sais pas du tout si c'est techniquement envisageable.

Dès à présent, cependant, cet outil permet de taguer les mots les plus employés et donc de gommer efficacement les défauts les plus irritants à la lecture. Le défaut de prononciation d'un mot que l'on rencontre très occasionnellement perturbe beaucoup moins que celui du mot que vous rencontrez au détour de chaque page..

- Je n'ai pas rencontré de problème de lenteur digne d'être mentionné (Linux 64 bits) en travaillant sur un fichier de 60 000 mots. Il est vrai que j'ai changé d'ordinateur...

Voici pour les remarques à chaud. Je vais naturellement continuer à tester votre nouvel outil.

Encore merci pour votre réactivité et vive Grammalecte!
le 24 février 2018 à 02:13
Si la liste de mots est plus “stricte”, c’est parce que, contrairement à Linguist, qui distingue les mots par les espaces, Grammalecte utilise son propre tokeniseur pour analyser le texte, tokeniseur qui correspond à ce qui est nécessaire pour le français.
Il faudrait faire une option pour lister les compositions douteuses avec les préfixes élidés.

- Le bouton "taguer" permet de surligner mot par mot. Le taguage ne fonctionne pas si le mot en question est immédiatement suivi d'un point. Le nom du personnage principal du roman n'a ainsi été tagué que 96 fois sur 137.


Oui, ça fait partie des choses à améliorer.

- Sélection. On ne peut lancer l'outil que sur un seul mot à la fois. Il n'est pas possible de sélectionner un groupe de mots à traiter successivement. Je ne sais pas du tout si c'est techniquement envisageable.


C’est faisable, mais la lourdeur du processus me fait hésiter. Et il faut que j’améliore le point précédent auparavant pour faire ça proprement.
le 24 février 2018 à 08:37
Merci de votre réponse.

Dans l'immédiat, seule la question du point fausse l'utilisation du taguage.

Il n'y a pas d'urgence particulière pour la liste Linguist, puisque l'extension peut être conservée séparément. Sur la liste Linguist, j'utilise aussi régulièrement les détections du genre "Bar-bara".

En ce qui concerne les regex de groupe, à titre d'information l'éditeur de Calibre dispose d'un outil nommé "saved searches" écrit en Python qui permet d'exécuter sur les ePub un groupe de regex (j'ai été jusqu'à une douzaine). Il dispose également d'un bouton "Détails" donnant le nombre d'occurrences pour chacune d'entre elles dont il n'y a pas l'emploi ici puisque le nombre d'occurrences est déjà connu.

le 24 février 2018 à 09:38
Nouvelle préversion : www.dicollecte.org…

Vous pouvez sélectionner plusieurs mots et la tokenisation tient compte de la ponctuation.
le 24 février 2018 à 11:37
Merci beaucoup!

Il ne reste plus qu'à tester.
le 24 février 2018 à 12:06
Après avoir testé, tout fonctionne bien : la sélection groupée, une liste "riche" de noms (voire expressions) non reconnus, le taguage, etc.

J'ai honte d'oser formuler une dernière demande. Il semble utile de mettre en place un double classement (au choix) correspondant aux deux usages potentiels du Recenseur de mots.
- le classement par occurrence - existant - notamment pour la sélection TTS (priorité dans ce cas aux gros bataillons).
- un classement alphabétique (à la Linguist) optimisé pour détecter les graphies multiples (Margaret, Margarct, etc.) de sortie OCR
le 24 février 2018 à 13:50
Il suffit de cliquer sur l’intitulé des colonnes. ;)
le 24 février 2018 à 14:14
Formidable! Encore merci pour votre aide.
le 25 février 2018 à 10:55

Notification par e-mail    0