Corpora: Workshop: French spoken corpora

From: Jean Veronis (Jean.Veronis@newsup.univ-mrs.fr)
Date: Fri Mar 08 2002 - 10:24:08 MET

  • Next message: Marisol López Martínez: "Corpora: GALICIAN CORPORA"

    Dear all,

    This comes a bit late, but at first, I didn not plan to send it to CORPORA
    because it is in French, and about French. However, somebody pointed out
    that it could be of interest to members of the list anyway, so here it
    is... Apologies if you don't read that language at all.

    By the way, abstracts can be sent in English.
    Best,

    Jean Véronis
    http://www.up.univ-mrs.fr/veronis/

    ------------------------------------------------------------------
    Appel à communications
    Journée d'étude de l'ATALA

    "Constitution et exploitation de corpus du français parlé"

    Claire Blanche-Benveniste & Jean Véronis

    25 mai 2002, Paris

    Thème
    -----

    Alors qu'on dispose de plusieurs centaines de millions de mots de textes
    écrits (et que le gigantesque réservoir qu'est le World Wide Web repousse
    chaque jour cette limite), on dispose de très peu de données sur l'oral.
    Les corpus de langue orale transcrite sont pourtant d'une importance
    fondamentale pour l'étude linguistique, comme pour la mise au point de
    nouvelles technologies vocales.

    Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont
    disponibles (British National Corpus, Santa Barbara Corpus of American
    English, Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux
    viennent de voir le jour pour d'autres langues (Corpus Gesproken
    Nederlands, Corpus of Spoken Israeli Hebrew, Corpus du Portugais Parlé,
    etc.), qui visent une taille de l'ordre de la dizaine de millions de mots.
    Il n'existe pas pour l'instant de grand projet national pour le français,
    mais uniquement des entreprises isolées, et il est difficile d'évaluer la
    quantité totale des données informatisées, mais elle ne dépasse
    certainement que de peu le million de mots.

    Le développement de corpus oraux transcrits est extrêmement coûteux, et
    demande une méthodologie stricte, appuyée sur des outils informatiques
    adéquats. Le but de cette journée est de réunir linguistes et
    informaticiens pour faire le point sur la situation concernant le français,
    et peut-être de tracer quelques pistes pour des recherches et
    collaborations futures. Le but de la journée est à la fois de dresser un
    état de l'art et de présenter des recherches en cours ; les thèmes abordés
    seront (liste non exhaustive) :

    - problèmes de constitution des corpus oraux : choix des locuteurs et des
    situations, échantillonnage éventuel, conventions de transcription,
    problèmes juridiques et éthiques, etc. ;

    - techniques et outils informatiques : étiquetage grammatical, marquage
    prosodique, alignement avec le son, outils de concordance et de recherche,
    etc. ;

    - analyse linguistique : quels types d'analyse sont possibles sur les
    corpus oraux transcrits ? quelles sont les difficultés et les limites ?
    quelles sont les conséquences pour l'étude grammaticale de la prise en
    considération des corpus oraux ? etc.

    - domaines d'application : quelle est la demande sociale pour les corpus
    oraux (étude de différentes "variations", comme les enfants, les
    "pathologiques" et non pathologiques, les régions, le français de France et
    de l'extérieur) ? quelle est la demande technologique (reconnaissance
    vocale) ? quelle est la demande pour l'enseignement du français (langue
    première et seconde) ?

    Les communications pourront également relater des expériences particulières
    de constitution et d'exploitation de corpus oraux.

    Conférencier invité
    -------------------

    Michael McCarthy, Université de Nottingham

    "Spoken corpus design : speakers, contexts and language use"

    Michael McCarthy est professeur de linguistique appliquée à l'Université de
    Nottingham et spécialiste des corpus d'anglais parlé. Il est l'un des
    créateurs du corpus CANCODE (Cambridge and Nottingham Corpus of Discourse
    in English), produit d'une collaboration entre l'Université de Notthingham
    et Cambridge University Press et comportant plusieurs millions de mots
    d'anglais parlé. Michael McCarthy a publié de nombreux ouvrages tels que
    "Discourse Analysis for Language Teachers" (Cambridge University Press,
    1991), "Language as Discourse" (avec R. A Carter, Longman, 1994),
    "Exploring Spoken English" (avec R. A Carter, Cambridge University Press,
    1997), "Spoken Language and Applied Linguistics" (Cambridge University
    Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A
    Carter, Cambridge University Press, Cambridge, 2000) and "Issues in Applied
    Linguistics" (Cambridge University Press, Cambridge, 2000).

    Soumission (modalités)
    ---------------------

    Un résumé de deux à quatre pages doit être envoyé avant le 31 mars 2002 par
    courrier électronique, en format RTF ou TXT uniquement à

            Jean Véronis <Jean.Veronis@up.univ-mrs.fr>

    Les notifications d'acceptation seront envoyées le 30 avril 2002.

    Pour plus d'informations sur l'ATALA et sur l'organisation des journées
    d'études, consultez le site de l'ATALA à l'adresse http://www.atala.org



    This archive was generated by hypermail 2b29 : Fri Mar 08 2002 - 11:14:37 MET