Corpora: Workshop on French spoken corpora

From: Jean Veronis (Jean.Veronis@newsup.univ-mrs.fr)
Date: Tue Apr 23 2002 - 11:38:26 MET DST

  • Next message: Eric Atwell: "Corpora: Lecturer/SL/Reader Computing & Informatics, LEEDS Univ, England"

                                           ATALA
                                   http://www.atala.org/

                                      Journée d'Etude
                   Constitution et exploitation de corpus du français parlé
                                       organisée par
                          Claire Blanche-Benveniste & Jean Véronis

                                       25 mai 2002

                                CHU Pitié-Salpétrière
                                  91 bd de l'Hôpital
                                  75013 Paris, France

                                     Amphis B et C
                    (RdC du bâtiment principal, à gauche des ascenseurs)

    Thème
    =====

    Alors qu'on dispose de plusieurs centaines de millions de mots de textes écrits
    (et que le gigantesque réservoir qu'est le World Wide Web repousse chaque jour
    cette limite), on dispose de très peu de données sur l'oral. Les corpus de
    langue orale transcrite sont pourtant d'une importance fondamentale pour
    l'étude linguistique, comme pour la mise au point de nouvelles technologies
    vocales.

    Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont
    disponibles (British National Corpus, Santa Barbara Corpus of American English,
    Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux viennent de
    voir le jour pour d'autres langues (Corpus Gesproken Nederlands, Corpus of
    Spoken Israeli Hebrew, Corpus du Portugais Parlé, etc.), qui visent une taille
    de l'ordre de la dizaine de millions de mots. Il n'existe pas pour l'instant de
    grand projet national pour le français, mais uniquement des entreprises
    isolées, et il est difficile d'évaluer la quantité totale des données
    informatisées, mais elle ne dépasse certainement que de peu le million de mots.

    Le développement de corpus oraux transcrits est extrêmement coûteux, et demande
    une méthodologie stricte, appuyée sur des outils informatiques adéquats. Le but
    de cette journée est de réunir linguistes et informaticiens pour faire le point
    sur la situation concernant le français, et de tracer quelques pistes pour des
    recherches et collaborations futures.

    Inscription
    ===========
    Il n'y a pas d'inscription et l'entrée est gratuite, mais l'adhésion à l'ATALA
    est un geste qui permet à l'association de continuer ses activités. L'adhésion
    inclut la réception gratuite de la revue "Traitement Automatique des langues".
    [Cf. http://www.atala.org/adhesion.html]

    Programme
    =========

    Les modifications de dernière minute, ainsi que les résumés des
    communications se trouvent à l'adresse:

    http://www.up.univ-mrs.fr/veronis/Atala/jecorpus/

    9h15 Accueil

    9h30 Conférence invitée

          Michael McCarthy (Université de Nottingham), Spoken corpus design :
          speakers, contexts and language use

          Michael McCarthy est professeur de linguistique appliquée à
          l'Université de Nottingham et spécialiste des corpus d'anglais parlé.
          Il est l'un des créateurs du corpus CANCODE (Cambridge and Nottingham
          Corpus of Discourse in English), produit d'une collaboration entre
          l'Université de Notthingham et Cambridge University Press et
          comportant plusieurs millions de mots d'anglais parlé. Michael
          McCarthy a publié de nombreux ouvrages tels que "Discourse Analysis
          for Language Teachers" (Cambridge University Press, 1991), "Language
          as Discourse" (avec R. A Carter, Longman, 1994), "Exploring Spoken
          English" (avec R. A Carter, Cambridge University Press, 1997),
          "Spoken Language and Applied Linguistics" (Cambridge University
          Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A
          Carter, Cambridge University Press, Cambridge, 2000) and "Issues in
          Applied Linguistics" (Cambridge University Press, Cambridge, 2000).

    10:15-11:15 Session plénière (Amphi C)

          10:15 Michel Francard, Geneviève Geron, Vincent Giroul Philippe
          Hambye, Anne Catherine Simon, Régine Wilmet (Université Catholique de
          Louvain-la-Neuve, Belgique), Le centre de recherche VALIBEL : des
          corpus oraux au service d'un observatoire du français en Belgique

          10:45 Shana Poplack, Anne St-Amand (Université d'Ottawa, Canada), Un
          corpus oral du français du XIXe siècle : Les Récits du français
          québécois d'autrefois

    11:15-11:45 Pause et rencontre autour des posters

    11:45-12:45 Sessions parallèles

    Amphi B

          11:45 Raphaël Maître, Véronique Wild (Université de Neuchâtel), Un
          corpus bilingue français - dialecte francoprovençal en situation de
          contact à Evolene en Valais (Suisse)

          12:15 Christina Linqvist (Uppsala, Suède), Corpus transcrit de
          quelques journaux télévisés français : expériences de constitution

    Amphi C

          11:45 Barbara Pirlot, Gilles Sadowski, Sylvie Delvenne (Université
          Libre de Bruxelles, Belgique), Analyse des témoignages audiovisuels
          de rescapés des camps nazis : représentation écrite et exploitation
          linguistique des données

          12:15 Kate Beeching (University of the West of England, Royaume-Uni),
          Collecte, transcription et analyse d'un corpus sociolinguistique

    12:45-14:15 Déjeuner

    14:15-15:45 Sessions parallèles

    Amphi B

          14:15 Ligia-Stela Florea (Université Babes-Bolyai, Roumanie),
          Exploitation de corpus oraux : une expérience pédagogique au niveau
          Licence FLE

          14:45 Florence Myles, Emma Marsden, Sarah Rule, Rosamond Mitchell
          (Université de Southampton, Royaume-Uni), Corpus d'interlangue
          française orale: outils de gestion et d'analyse

          15:15 Anne Violin-Wigent (Michigan State University, Etats-Unis), On
          ne peut pas tout avoir: difficultés inhérentes à l'utilisation d'un
          corpus parlé

    Amphi C

          14:15 Mireille Bilger (Université de Perpignan, France), Présentation
          du Corpus de référence de français parlé

          14:45 Jacques Durand (ERSS, Université de Toulouse-Le Mirail,
          France), Bernard Laks (Université de Paris-X, France), Chantal Lyche
          (Université d'Oslo, Norvège), La Phonologie du Français Contemporain
          (PFC): présentation et premiers résultats

          15:15 Estelle Campione (Université de Provence, France), La prosodie
          dans les corpus oraux : problèmes d'annotation

    15:45-16:15 Pause et rencontre autour des posters

    16:15-17:45 Session plénière (Amphi C)

          16:15 Piet Mertens (K.U.Leuven, Belgique), L'étiquetage grammatical
          dans le corpus ELICOP

          16:45 Hanne Leth Andersen (Aarhus Universitet, Danemark), Le français
          parlé dans l'enseignement du français langue étrangère au Danemark

          15:15 Pascal Cordereix (Bibliothèque nationale de France), Des
          Archives de la parole au Département de l'Audiovisuel de la
          Bibliothèque nationale de France ; 1911 - 2002 : un siècle de
          français parlé enregistré

    17:45-18:00 Conclusion

    Communications affichées (posters)

          1. Jean-Yves Antoine, Jérôme Goulian, Sabine Letellier (VALORIA,
          Université de Bretagne Sud, France), Corpus de dialogue oral pour la
          Communication Homme-Machine : quelques enseignements en linguistique
          et en Traitement Automatique des Langues Naturelles

          2. Vincent Arnaud (Université de Franche-Comté, France & Université
          Laval, Québec), Gabrielle Konopczynski (Université de Franche-Comté,
          France), Saint-Claude : une ville, un corpus...

          3. Christophe Benzitoun (Université de Provence, France), Interaction
          des composantes syntaxiques et prosodique dans le fonctionnement de
          deux 'items conjonctifs' à partir d'un corpus oral aligné

          4. Katia Ploog (ERSS à Bordeaux, France), Les outils de description
          mis à l'épreuve du non-standard : que nous disent Singe et Caméléon
          sur le changement syntaxique du français à Abidjan ?

          5. Marie-Noëlle Roubaud, Chantal Le Thomas (Université de Provence,
          France), Compte-rendu d'une expérience de correcteurs de corpus oraux
          informatisés

          6. Luiggi Sansonetti (ILPGA, Université de Paris III, France), Le
          Projet ANACAL : ANalyse Automatique de Corpus d'Acquisition du Langage

          7. Thomas Schmidt (Université de Hamburg, Allemagne), EXMARaLDA - un
          système de transcription computationelle comme base d'un corpus de la
          langue parlée multilingue

          8. Pascale Vergely (Centre d'Etudes de la Navigation Aérienne et
          ERSS, Université de Toulouse Le Mirail, France), Laurent Prevot
          (Institut de Recherche en Informatique de Toulouse, France),
          Problèmes de constitution d'un corpus de dialogues oraux finalisés,
          les cas de la résolution d'un dysfonctionnement technique et de
          l'explication d'un itinéraire



    This archive was generated by hypermail 2b29 : Tue Apr 23 2002 - 11:40:30 MET DST