|
Évaluation de systèmes d'assignation de catégories
grammaticales
|
L'action GRACE est une composante du programme thématique "Cognition,
Communication intelligente et Ingénierie des langues" du
CNRS,
dont les responsables sont J. Mariani (Limsi) et R. Martin (INaLF). Elle vise
à la mise en place du paradigme d'évaluation pour les analyseurs
morpho-syntaxiques et syntaxiques du langage naturel et la constitution d'un
premier noyau de données réutilisables pour l'évaluation
de systèmes linguistiques d'analyse du français.
La documentation technique du projet est accessible sur le
site
temporaire ftp GRACE
<URL:ftp//ftp.linguist.jussieu.fr/Linguist/GRACE>
(Attention ! Cette adresse changera dans un avenir proche).
La session d'évaluation GRACE I a pour objectif d'évaluer
comparativement les performances des systèmes d'assignation de
catégories grammaticales pour le français. L'évaluation
sera une évaluation multi-critères (tous systèmes
confondus et par classes de systèmes) permettant ainsi de tenir compte
des spécificités des systèmes liées aux conditions
qui ont suscite leur création.
Toute équipe disposant d'un assignateur de catégories
grammaticales opérationnel pour le français. Que ce soit
un système générique développe dans le but
d'émuler un opérateur humain dans la tache d'assignation de
catégories grammaticales sur du texte libre, ou bien un système
spécifique à un traitement linguistique particulier, destine
à être intégré dans une chaîne de processus
plus complexe et dont l'objectif se situe au-delà de l'assignation de
catégories grammaticales (e.g. correcteur orthographique).
L'activité sectorielle de l'équipe (institution publique,
entreprise industrielle) ainsi que sa nationalité (les équipes
étrangères travaillant sur le français sont les
bienvenues) ne sont pas discriminantes. Rappelons que toutes les équipes
qui disposent d'un système operationnel ont intérêt
à participer à la session d'évaluation GRACE I, car cela
fournira, pour la première fois, des points de comparaison objectifs sur
des données communes dans un environnement neutre, donnant ainsi aux
développeurs de tels systèmes, chercheurs et ingénieurs,
une meilleure vision des avantages et défauts liés aux
différentes méthodes et différentes approches.
La session d'évaluation se déroulera en 3 phases :
- phase 1: Apprentissage. Distribution des données d'apprentissage aux
participants. Ces données comprennent :
- un corpus brut d'apprentissage, de 10 millions environ d'occurrences
(provenant à parts égales du journal "Le Monde" et de la base
FRANTEXT de l'INaLF).
- la version du lexique
MULTEXT
qui a été mise à disposition du projet GRACE
- un logiciel de segmentation développe pour GRACE à partir du
lexique
MULTEXT
dans un environnement UNIX
- phase 2: Essais. Fourniture aux participants d'un texte d'environ 200.000
occurrences extraites du corpus d'entraînement et mesure des performances
des systèmes participants sur 20.000 de ces occurrences.
Ceci afin de tester la procédure d'évaluation. Le marquage devra
être effectue dans un délai fixe. Les résultats seront
communiques individuellement à chaque participant mais ne seront pas
publiés.
- phase 3: Évaluation. Répétition de la phase 2, avec
publication des résultats, et conférence réservée
aux ``seuls'' participants pour comparer les méthodes et discuter des
résultats de l'évaluation. Cette conférence
sera suivie d'une conférence ouverte à tous sur
l'évaluation des analyseurs morpho-syntaxiques.
Voici
l'ébauche d'un calendrier prévisionnel qui pourra être revu
en fonction de l'avancement du projet et des disponibilités des
participants:
- phase 1: des que possible,
- phase 2: autour de la fin de cette année (Décembre
95/Janvier 96),
- phase 3: au début de l'année prochaine (Février
96).
En ce qui concerne les mesures de performance, il y aura une mesure
globale pour tous les systèmes confondus et une mesure par classe de
systèmes, les participants choisissant la ou les classes dans lesquelles
ils désirent participer parmi une liste préétablie.
L'évaluation se fera essentiellement sur les capacités de
désambiguisation. Nous avons décidé d'imposer aux
participants les informations lexicales d'où tous les jeux
d'étiquettes seront dérivés, ainsi ils devront fournir les
fonctions de correspondance entre les jeux d'étiquettes qu'ils utilisent
et ceux des lexiques de GRACE. L'évaluation se fait alors en comparant
l'entrée du catégoriseur et sa sortie. Cette évaluation
ne prend pas en compte les capacités de segmentation des
catégoriseurs.
Outre les engagements concernant les données reçues, les participants qui
auront commence la session d'évaluation GRACE I, s'engageront à
prendre part a l'intégralité de la session d'évaluation.
Pour l'évaluation, chaque participant devra fournir une table de
correspondance entre son jeu d'étiquettes et les étiquettes
MULTEXT
(des exemples de tables de correspondance seront fournis).
Pour en savoir plus: Patrick Paroubek <pap@ciril.fr>