[Corpora-List] CETENFolha corpus

From: Santos Diana (Diana.Santos@sintef.no)
Date: Wed Sep 25 2002 - 14:53:25 MET DST

  • Next message: Rafa³ Górsk: "[Corpora-List] Legal aspects of corpora compiling"

    [English below]
    Caros colegas,

    Temos o prazer de anunciar que o CETENFolha se encontra finalmente
    disponível.

    O CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de São
    Paulo) é um corpus de cerca de 24 milhões de palavras em português
    brasileiro, criado pelo projecto Processamento computacional do português
    com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus
    NILC/São Carlos, compilado pelo Núcleo Interinstitucional de Lingüística
    Computacional (NILC).

    http://acdc.linguateca.pt/cetenfolha

    Aproveitamos para agradecer publicamente ao NILC e à Folha de São Paulo as
    generosas autorizações.

    Também aproveitamos para anunciar que o centro de recursos que o projecto
    Processamento Computacional do Português tem vindo a tentar lançar recebeu,
    recentemente, o nome de Linguateca, e tentaremos migrar para esse nome (e
    respectivos endereços URL) de forma a trazer o mínimo de inconvenientes aos
    nossos utilizadores.

    Saudações,
    Diana Santos & Paulo Rocha
    www.linguateca.pt
    projecto@informatics.sintef.no

    --------
    Dear colleagues,
    We are happy to inform that the CETENFolha corpus is finally available:

    CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de São
    Paulo) is a corpus containing some 24 million words in Brazilian Portuguese,
    built by the project Computational Processing of Portuguese from the texts
    of Folha de S. Paulo belonging to the corpus NILC/São Carlos, compiled by
    Núcleo Interinstitucional de Lingüística computacional (NILC).

    http://acdc.linguateca.pt/cetenfolha

    (To get it it is enough to register in the form at the botom of the above
    Webpage.)

    We are grateful to NILC and the newspaper for giving us permission.

    We also use this opportunity to inform that the resource centre that the
    Computational Processing of Portuguese project has been slowly building has
    now the name Linguateca, with corresponding URLs. We will try to migrate to
    this new namespace with minimal inconvenience to users.

    Saudações,
    Diana Santos & Paulo Rocha
    www.linguateca.pt
    projecto@informatics.sintef.no



    This archive was generated by hypermail 2b29 : Wed Sep 25 2002 - 15:04:21 MET DST