ROMANSEVAL    
Test words
   

List

The list is given by the table below (the selection process is explained here). The first column gives the grammatical category, the second the lemma (base form) of the word, and the third the inflected forms actually selected for testing in the corpus. 
 
Cat Lemma Forms
A biologique biologique, biologiques
A clair clair, claire, clairs, claires
A correct correct, correcte, correctes
A courant courante, courantes
A exceptionnel exceptionnel, exceptionnelle, exceptionnels, exceptionnelles
A frais fraîche, fraîches
A haut haute, hautes
A historique historique, historiques
A plein plein, pleine
A populaire populaire, populaires
A régulier régulier, régulière, réguliers, régulières
A sain sain, saine, sains, saines
A secondaire secondaire, secondaires
A sensible sensible, sensibles
A simple simple, simples
A strict strict, stricte, stricts, strictes
A sûr sûr, sûre, sûrs, sûres
A traditionnel traditionnel, traditionnelle, traditionnelles, traditionnels
A utile utile, utiles
A vaste vaste, vastes
N barrage barrage
N chef chefs
N communication communications
N compagnie compagnie
N concentration concentration
N constitution constitution
N degré degré
N détention détention
N économie économies
N formation formations
N lancement lancement
N observation observations
N organe organes
N passage passage
N pied pied
N restauration restauration
N solution solutions
N station station
N suspension suspension
N vol vols
V arrêter arrêter
V comprendre comprend, comprendre
V conclure conclure
V conduire conduire
V connaître connaît
V couvrir couvre, couvrir
V entrer entrer
V exercer exercer
V importer importe
V mettre met, mettent
V ouvrir ouvrir
V parvenir parvenir
V passer passer
V porter portent
V poursuivre poursuit, poursuivre
V présenter présentent, présentera
V rendre rendre
V répondre répond, répondent
V tirer tirer
V venir venir, viennent
 
 

 

 

Format

 The word list will be distributed in the form of a plain text file consisting of seven columns: 

 
Cat grammatical category of word
NoOccur occurrence number
Lemma lemma of occurrence
ParSce number of paragraph containing occurrence
Char character offset of the occurrence within paragraph
Len character length of occurrence
Occur exact form of occurrence
 
 
The combination of the two fist columns uniquely identifies each occurrence. 
 

Example: 
 
Cat NoOccur Lemma ParSce Char Len Occur
A 1 biologique 1608 264 11 biologiques
A 2 biologique 1645 682 10 biologique
A 3 biologique 2188 124 10 biologique
A 4 biologique 2553 52 10 biologique
A 5 biologique 2554 256 10 biologique
A 6 biologique 2742 453 10 biologique
A 7 biologique 4387 215 11 biologiques
A 8 biologique 5262 40 10 biologique
A 9 biologique 6574 121 10 biologique
A 10 biologique 8072 35 11 biologiques
A 11 biologique 8139 394 11 biologiques
A 12 biologique 10018 312 11 biologiques
A 13 biologique 10150 633 11 biologiques
 

Note that occurrence A 349 is missing. It turns out that the corresponding form ("Historique") is a noun in this context, and it was excluded. 
 
 

Download full file (plain text).