Re: [Corpora-List] RE: Corpora of Written French

From: Jean Veronis (Jean.Veronis@mailup.univ-mrs.fr)
Date: Thu Nov 07 2002 - 10:02:25 MET

  • Next message: Raffaella Bernardi: "[Corpora-List] Workshop announcement: November 27 and 28, Utrecht (NL)."

    The random sets of French sentences requested by Zoe Handley for testing
    speech synthesis are available for download from my web page:

    http://www.up.univ-mrs.fr/veronis/

    (follow "Ressources utiles" -> "Jeux de phases aléatoires")

    They may be useful to others.

    --jv

    ----------------------------------------------------------------------------

    Jeux de phrases aléatoires
    ==========================

    Cette archive contient deux jeux de test comporant chacun 125 phrases tirées
    aléatoirement dans un corpus de 5 millions de mots. Chaque jeu est constitué
    de 5 ensembles de 25 phrases choisies dans des genres textuels différents. Il
    a été créé en vue de servir de banc de test pour des systèmes de synthèse de
    la parole.

    1. Corpus
    ---------
    Le corpus Syntsem comporte 5 millions de mots, divisés en 5 tranches de
    1 million de mots chacune :
    * ABU : littérature fin XIXè-début XXè (provenant du site de l'Association
    des Bibliophiles Universels : http://cedric.abu.cnam.fr/).
    * JOC : Journal Officiel de la Commission Européenne (1993, Serie C, Questions
    et reponses des parlementaires européens à la Commission).
    * MON : extraits du journal "Le Monde" (articles tirés au hasard dans le
    années 1987, 1989, 1991, 1993 et 1995).
    * OUV : 10 ouvrages en sciences humaines, provenant des éditions du CNRS.
    * PER : Périodiques : des articles longs (10 000 à 20 000 mots) en
    communication
    politique (revue Hermès), des communiqués courts (1 000 à 2 000 mots) de
    vulgarisation des résultats de la recherche (revue CNRS Info).

    Le corpus a été réalisé en 1999-2000 sous par Benoît Habert et Jean Véronis,
    dans le cadre d'un contrat avec ELRA/ELDA, à partir de sources provenant
    notamment des projets Parole et Multext.

    2. Sélection
    -------------
    Les phrases aléatoires ont été extraites par Jean Véronis en novembre 2002.
    Deux
    sous-ensembles ont été produits (Phrases1 et Phrases2), chacun composés de 5
    séries de 25 phrases extraites de chacun des sous-corpus ABU, JOC, MON, OUV,
    PER, soit au total 250 phrases. Seules les phrases comportant au moins 40
    caractères et au plus 255 ont été retenues.

    3. Distribution
    ---------------
    Ces données peuvent être utilisées librement, ainsi que redistribuées.
    Dans ce dernier cas, la présente notice doit impérativement être jointe
    à la redistribution.

    Merci de citer l'utilisation de ces données dans vos publications!

    4. Contact
    ----------
    Jean Véronis, Professeur de Linguistique et Informatique
    Université de Provence
    29 av. Robert Schuman
    13621 Aix-en-Provence Cedex 1, France

    Jean.Veronis@up.univ-mrs.fr
    http://www.up.univ-mrs.fr/veronis



    This archive was generated by hypermail 2b29 : Thu Nov 07 2002 - 11:59:30 MET