ROMANSEVAL    
Overview
 

Introduction

Word sense disambiguation (WSD) has been recognised as a central (and difficult) problem in the very first paper on computer treatment of language, Weaver's memorandum (Weaver, 1949). Since then, there has been continuous research on WSD, in the context of various sub-fields (machine translation, information retrieval, content analysis, natural language understanding, etc. -- for a recent survey, see Ide and Véronis, 1998). An impressive array of methods has been proposed, and occasionally rediscovered over the years, and various claims of efficiency have been made. However, it is extremely difficult to compare the results, and therefore the methods: the texts, words and sense lists used are widely different across studies, as well as the evaluation protocols and metrics. Under the auspices of ACL-SIGLEX and EURALEX, the SENSEVAL evaluation exercise is attempting for the first time to run an ARPA-like competition between WSD systems.    

Discussions among the SENSEVAL program committee members pointed out the differences in existing linguistic resources (corpora, dictionaries, etc.) between English and other languages and decided to organise within SENSEVAL a specific competition for Romance languages, called ROMANSEVAL. A six-month test campaign is planned in coordination with the ARCADE project on multilingual text alignment, whose word track will use the same corpus and test words. Results will be presented at the SENSEVAL workshop in September 1998.  
 

Goals

Given the short time span, and lack of prior experience in WSD evaluation, the goals must necessarily be modest. The program committee agreed on a very simple task, in which 60 words (20 nouns, 20 adjectives, 20 verbs) will be submitted to the various systems. The systems will return the words tagged according to simple widely-available commercial dictionary (such as the Petit Larousse for French). The systems will therefore have to map their own sense system/ontology to the senses provided by that dictionary.  
  

Example  

Word terre in Petit Larousse:  
  
  
Sense Definition (abrégée)
I1 Planète du système solaire...
I2 Surface de cette planète...
I3 Séjour des vivants...
I4 Surface solide où l'homme marche...
I5 Partie solide et émergée du globe...
I6 Etendue de pays considérée d'un point de vue géographique...
I7 Etendue de terrain appartenant à quelqu'un, à une commune...
II1 Matière constituant la couche supérieure du globe...
II2 Sol considéré comme l'élément de base de la vie et des activités rurales...
II3 Matière pulvérente que l'on trouve dans le sol...
II4 CHIM: Terres rares: oxydes métalliques...
  

Tagging (zero, one or several senses can be provided):  
  
  
Parallèlement, la Commission examine les différentes possibilités de réduire le danger que représentent les déchets cosmiques pour les missions habitées et les missions d'observation de la terre effectuées dans le but d'étudier les problèmes liés à l'environnement. II1/II2
La plus grande des deux exploitations devrait retirer 7 de ses 47 ha de terre arable. En supposant qu'elle opte également pour le retrait de terres d'orge, la réforme devrait faire croître ses revenus du blé et de l'orge, les réductions de prix étant plus que compensées par les primes à l'hectare. Le revenu du lait augmenterait légèrement par suite de la réduction des dépenses d'alimentation, qui l'emporterait sur la diminution des prix et des quotas. I7/II2
La découverte de l'origine anthropique des changements intervenant à l'échelle de la planète, ainsi que du lien entre ces changements et les interactions entre l'atmosphère, la surface de la terre et les océans, a ouvert une nouvelle dimension dans le domaine de l'observation globale de la terre par les satellites. II1
Suite à la décision du Royaume-Uni de porter la taille minimale de mise à terre pour le merlan à 27 cm, la Commission envisage-t-elle de réintroduire une taille minimale de 27 cm, voire de 30 cm, de mise à terre pour le merlan dans la Communauté? I5
Ce groupe effectue des mesures de radioactivité sur des échantillons d'eau, de terre, d'air et de biotes prélevés dans le golfe de Finlande et dans ses alentours. Aucun résultat n'est encore disponible. II3
3) Le fait que le Verbond van verzekeraars (Pays-Bas) ait fait savoir au nom de tous les assureurs néerlandais que les dégâts provoqués par le tremblement de terre du 13 avril 1992 ne seraient pas indemnisés confirme-t-il une fois de plus que les assureurs "se rendent coupables" d'accords collectifs? I2
L'Olympe, monument mondial, est, en tant que demeure des anciens dieux selon la mythologie grecque, la montagne la plus connue au monde. Ses mythes, son histoire et sa majesté attisent, à juste titre, l'imagination et l'intérêt des Européens et de tous les habitants de la terre, et un certain nombre d'entre eux souhaitent visiter la Grèce, gravir l'Olympe, y rechercher les palais des douze dieux de l'antiquité et s'asseoir sur le trône de Zeus. I4
Dans sa résolution A 420 (XI) du 15 novembre 1979, l'Assemblée de l'Organisation internationale maritime (OMI) a adopté un programme d'action visant à préparer et à prendre toutes les mesures nécessaires pour organiser le passage du système morse de communication maritime par radiotélégraphie au système de communication radiotéléphonique par satellite, et ce, pour assurer une meilleure sécurité en mer et faciliter la transmission des messages de détresse entre les navires et la terre ferme. I5
La Commission est-elle informée de telles pratiques? Est-elle prête à cautionner le fait que des citoyens de la Communauté soient expulsés d'une salle d'attente d'aéroport pour se retrouver dans un endroit tellement bondé qu'il n'y avait même pas de place pour s'asseoir par terre? I4
La situation sur le marché de la pomme de terre en Espagne est très néfaste pour les agriculteurs, dans la mesure où le prix peu élevé de ce produit ne compense même pas le coût de la récolte. ?
  

 

Procedure

The exercise will take place in several steps, according to a schedule that will be updated as we go along:   
  • Step 1: the raw corpus will be distributed to participants well in advance, in order for them to understand the formats, interface their systems, tune and train them.
  • Step 2: a dry run will take place in order to check the procedures and evaluation programs.
  • Step 3: the test words will be distributed to the participants
  • Step 4: the participants will return the words tagged to the coordinators in the agreed format.
  • Step 5: the tagged words will be evaluated and the results returned on the discussion list.
  • Step 6: the results will be discussed on the list and at the SENSEVAL workshop (2-4 september)
  • Step 7: a longer discussion and analysis of results will take place in the fall, with the goal of publishing the results and planning the second round.
 

Evaluation method

Evaluation must be approached cautiously, with all the possible disclaimers. Feasibility constraints (time and human ressources) partially drive what can be practically done -- as opposed to what would be theoretically perfect. However, as in any competition, we must make every effort to ensure fairness and openness of the evaluation process.  

The first point that must be stressed is that the idea of "competition" is only a pretext to do collectively an interesting piece of scientific work, and improving our systems. The final ranking of systems (if any such ranking is possible) is not very important. It it is extremely difficult to compare systems with different goals and different resources. This entire six-month period can be seen as no more than a rehearsal intended to discuss and elaborate methodologies, evaluation metrics and protocols, refine the manual annotation process, etc.   

The discussion seemed to move toward agreement on several ideas.  

  • Various metrics can be used, and compared. There is no need to rank the systems according to one single final score. Instead, it seems that an array of measures will more accurately reflect the behavior of the various systems. Of course, every system can become a "winner" according to some metric, or in other terms, that everybody can propose an esoteric measure that will make their system the best according to that measure. This is true, but we can probably trust peer evaluation and scientific discussion to lead to a consensual array of "reasonable" measures. And why not have several "winners"?
  • A blind quantitative evaluation is not enough, whatever the metrics or combination of metrics we can use. The quantitative evaluation must be completed by a precise description of the systems in terms of resources used, applicative context, internal principles and overall capabilities (beyond the narrow one being tested). We could ask systems to fill a specification sheet that could result in a comparison chart which could enable us to understand at a glance what we compare with what. Such a specification sheet could be built collectively through discussion on the list (obvious items are: type and size of ressources used, application, etc.).
  • There should be an adjudication phase during which the participants can discuss the results, raise objections, point our errors, question the metrics, and so on. We will not have much time before the SENSEVAL workshop for such a discussion, but the workshop itself will hopefully be an occasion for discussion, and we will have all fall to analyse the results before we make them more broadly public.
  • In any case, it seems clear that results in isolation do not make sense, and are of interest only if they are accompanied by a detailed discussion explaning the observed efficiency and context, resources, algorithms and so on.