Mots d'un genre rare pour une terminaison donnée
Ce billet est motivé par l'énigme suivante, que vous avez peut-être déjà entendue :
Quel est le seul mot masculin en français qui se finit par "ette" ?
Je ne donnerai pas la réponse de cette énigme (enfin, pas directement, mais en un sens je l'ai déjà donnée), qui en admet d'ailleurs plusieurs. Ma question est de générer automatiquement de telles énigmes : des mots dont le genre est exceptionnel au vu de leur terminaison. En gros, des cas anormaux pour des tentatives de classification du genre suivant la terminaison, comme j'en ai déjà entrepris.
Une liste de telles énigmes calculée automatiquement est ci-dessous ; pour que ce soit plus amusant, j'ai également fait une version interactive qui permet de jouer en ligne (avec du HTML statique crade).
trouver un mot masculin en -lée
trouver un mot féminin en -lis
trouver un mot masculin en -tive
trouver un mot féminin en -heur
trouver un mot féminin en -et
trouver un mot féminin en -ou
trouver un mot masculin en -ise
trouver un mot masculin en -uille
trouver un mot masculin en -tière
trouver un mot féminin en -el
trouver un mot féminin en -ir
trouver un mot féminin en -sseur
trouver un mot féminin en -geur
trouver un mot masculin en -aine
trouver un mot féminin en -teur
trouver un mot féminin en -sson
trouver un mot masculin en -tion
trouver un mot féminin en -ment
trouver un mot féminin en -lon
trouver un mot féminin en -ré
trouver un mot masculin en -cité
trouver un mot masculin en -ente
trouver un mot féminin en -tère
trouver un mot féminin en -ux
trouver un mot féminin en -at
trouver un mot féminin en -ar
trouver un mot masculin en -isse
trouver un mot féminin en -cle
trouver un mot féminin en -raphe
trouver un mot masculin en -ude
trouver un mot masculin en -tte
trouver un mot féminin en -if
trouver un mot masculin en -uche
trouver un mot masculin en -nce
trouver un mot féminin en -it
trouver un mot masculin en -nie
trouver un mot masculin en -vité
trouver un mot féminin en -ant
trouver un mot féminin en -no
trouver un mot féminin en -stre
trouver un mot masculin en -rde
trouver un mot féminin en -ome
Observez que l'énigme classique sur -ette est également trouvée dans cette liste (mais avec le suffixe -tte). Le code source est disponible. Dans la suite, j'explique comment ces énigmes ont été calculées.
J'utilise la base de données Lexique dont j'extrais les données d'intérêt de la façon suivante :
- Considérer les noms (dans lexique, valeur de "NOM" pour "4_cgram").
- Ne considérer que des noms qui sont des mots de base, notamment, qui ne sont pas au pluriel ; j'utilise pour cela le champ "14_islem" de lexique.
- Éliminer les mots contenant des espaces (locutions), des apostrophes, des points, ou des traits d'union.
- Éliminer les mots vraiment rares (ceux dont l'usage est de 0 suivant le champ "8_freqlemlivres").
- Considérer les mots épicènes (i.e., qui existent dans les deux genres) comme existant à la fois dans un genre et dans l'autre, avec la même fréquence d'usage (ce qui est bien entendu une approximation).
On obtient ainsi le fichier de données que l'on va utiliser pour générer les énigmes. Une énigme va être un suffixe (par exemple "ette") et un genre (par exemple "féminin"), de sorte qu'il existe des mots des deux genres se terminant par le suffixe, mais que le genre indiqué soit exceptionnel.
Par paresse, j'adopte une approche simple me permettant de réutiliser le code de mon travail précédent. Je calcule les suffixes maximaux tels qu'il existe un mot de chaque genre terminant par ce suffixe, dont j'extrais tous les sous-suffixes. Le résultat est la liste de tous les suffixes français où il y a un mot de chaque genre (ou un mot épicène) qui se finit par ce suffixe, et c'est tous les suffixes qu'on peut potentiellement vouloir poser comme une énigme.
J'évalue ensuite, pour chaque tel suffixe, si c'est une énigme intéressante ou non. Pour ce faire, il y a plusieurs critères à prendre en compte :
- Le genre rare (l'objet de l'énigme) doit être beaucoup plus rare que le genre fréquent.
- Le genre rare doit quand même être courant en soi : les exceptions dont le score est vraiment très faible sont au mieux des mots que personne ne connaît, au pire des cas limites ou des erreurs de Lexique.
- Le genre rare doit être concentré en un ou plusieurs mots : une partie de l'intérêt (et de la difficulté !) de l'énigme ci-dessus vient du fait que, même si plusieurs réponses sont possibles, un seul mot concentre la majeure partie des usages.
- Les mots du genre rare doivent être longs, en tout cas plus longs que le suffixe. Si on demande, par exemple, un mot féminin se terminant par "ot", une énumération exhaustive suggérera rapidement "dot", et des essais sur des utilisateurs m'ont confirmé que ce genre d'énigmes était trop facile.
Les énigmes générées, en revanche, ne respectent pas un critère que l'énigme "ette" respecte : que la prononciation des mots rares soient conformes à ce qu'on attendrait à partir du suffixe. Par exemple, les réponses à l'énigme "ette" sont des mots où "ette" se prononce, comme on s'y attend, /ɛt/, alors que "dot" ne se prononce pas comme on l'attendrait (le 't' final n'est pas muet). De la même façon, pour le suffixe "ir", des réponses pourraient se finir en "air", "oir"... Ce critère semble plus complexe à imposer de façon automatique. Ceci dit, j'impose tout de même que le suffixe contienne au moins une voyelle, pour être vaguement prononçable (même si les 'e' muets peuvent poser problème).
Je me limite aux suffixes qui couvrent une fréquence et un nombre de mots supérieurs à un certain seuil, et je donne un score aux suffixes calculé (de façon assez arbitraire) comme le produit des choses suivantes :
- la proportion de la fréquence du genre rare couvert par les trois mots les plus fréquents du genre rare
- le rapport entre la fréquence du genre fréquent et la fréquence totale du suffixe
- le nombre de caractères à ajouter au suffixe pour atteindre le plus court mot du genre rare
Je limite aux 42 énigmes jugées meilleures suivant ce critère.
Pour améliorer la qualité des énigmes, une possibilité serait de chercher des solutions dont la prononciation corresponde également à celle du suffixe (la plus commune parmi les mots de ce suffixe), mais ceci est laissé en exercice au lecteur. :)