Les limites techniques des correcteurs automatiques
Il est tentant d’imaginer qu’un outil de réécriture, ayant ingéré des milliers de données, soit devenu un orfèvre de la langue. La réalité demeure toutefois plus nuancée. Bien que ces logiciels aient fait des progrès considérables, leur architecture algorithmique se heurte à plusieurs problématiques complexes liées à la diversité et à la richesse de la langue française. Dans certaines situations, les suggestions faites par la machine peuvent rater le contexte délicat ou rester trop littérales, au point de générer des contresens. Imaginez une phrase dotée d’une nuance ironique : l’algorithme pourrait proposer une correction plus “logique”, mais totalement contraire à l’intention initiale.
En outre, certains mots et expressions peuvent avoir plusieurs sens en fonction du contexte. Les dictionnaires internes de ces programmes sont souvent complets, mais un calcul statistique ne suffit pas toujours à saisir la subtilité d’un emploi rare ou spécialisé. Pour ne rien arranger, la langue évolue en permanence : des néologismes apparaissent, des formules tombent en désuétude. Les logiciels doivent donc être mis à jour régulièrement, sous peine de commettre des erreurs de jugement. De plus, dans le cadre d’un texte professionnel ou juridique, l’outil sera-t-il capable de repérer des termes inappropriés ou de vérifier si un acronyme est bien employé ? La réponse n’est pas toujours positive.
Problèmes de contexte sémantique
Lorsque nous écrivons, nous tenons compte de l’ensemble des phrases qui entourent celle que nous sommes en train de formuler. Nous savons qu’un certain mot a déjà été utilisé deux lignes plus haut, et que, pour des raisons d’élégance, nous souhaitons en employer un synonyme. Ou, au contraire, nous désirons insister sur un même mot pour souligner un concept clé. L’algorithme, lui, aura tendance à fonctionner au cas par cas, analysant chaque proposition sur un plan statistique. Il peut inciter à varier le vocabulaire, alors que nous voulions justement conserver la répétition pour marquer une progression logique ou un effet de style. L’outil se trompe rarement en orthographe de base, mais son sens du contexte sémantique demeure limité.
En effet, pour qu’un logiciel saisisse la cohérence globale d’un texte, il lui faudrait un modèle linguistique très élaboré, capable de traiter les intentions de l’auteur, la chronologie des événements, le domaine d’activité traité et même la tonalité. Bien que les modèles basés sur l’apprentissage profond — autrement dit, le deep learning — améliorent sensiblement cette compréhension, ils restent tributaires de vastes bases de données et d’analyses probabilistes. Le résultat donne souvent l’impression qu’ils “comptent” plus qu’ils ne “comprennent”. Par exemple, si vous rédigez “J’ai mangé ces deux parts de gâteau hier, ces desserts étaient délicieux”, l’outil pourra être tenté de vous suggérer d’utiliser “ses desserts” à la place de “ces desserts”. Or, si vous parlez des gâteaux qu’une autre personne a préparés pour vous, “ses desserts” serait logique. Mais si vous insistez sur le fait qu’il s’agit de desserts déjà nommés dans la phrase précédente, “ces desserts” peut parfaitement convenir. Sans contexte clair, le logiciel peut donc se tromper ou vous proposer une correction discutable.
La difficulté des homophones
Les homophones constituent un véritable piège pour le français, et les correcteurs automatiques s’en tirent parfois avec brio, parfois avec maladresse. Comparez les paires “son/sont” ou “ces/ses”, déjà évoquées en exemple. Il existe aussi “ou/où”, “a/à”, “et/est”, et bien d’autres. L’outil peut repérer une probabilité d’usage, mais il reste délicat de décider avec certitude, dans tous les contextes, quelle forme est la bonne. De même, certains verbes pronominaux peuvent poser des difficultés. Par exemple : “Ils se sont permis de corriger le texte” ou “Ils se sont permises de corriger le texte”. Ici, la règle d’accord dépend du sens du verbe “se permettre” et de son complément direct. Difficile pour un programme de bien juger si l’action s’accorde avec le sujet, sans connaître le contexte précis. Ainsi, si vous décrivez un groupe uniquement féminin, la proposition “Elles se sont permises de le faire” peut être pertinente. Mais pour un groupe mixte, “Ils se sont permis de le faire” prévaut en règle générale. Une machine mal entraînée risque de signaler un accord erroné, alors qu’il est correct.