Corpora: Tesis doctoral

From: Leonel Ruiz Miyares (leonel@lingapli.ciges.inf.cu)
Date: Thu Mar 29 2001 - 00:46:05 MET DST

  • Next message: Leonel Ruiz Miyares: "Corpora: PhD Thesis"

    Estimados colegas:

    Recientemente se realizó la defensa del doctorado
    titulado: DESARROLLO DE UN MODELO COMPUTACIONAL PARA
    EL PROCESAMIENTO DE CORPUS TEXTUALES BASADO
    EN LA ETIQUETACIÓN AUTOMÁTICA del autor
    Leonel Ruiz Miyares del Centro de Lingüística Aplicada
    del Ministerio de Ciencia, Tecnología y Medio Ambiente
    de la Delegación Territorial de Santiago de Cuba,
    Cuba.

    El tutor fue el Dr. Jorge Díaz Silvera, del
    Departamento de Computación de la Facultad de
    Ciencias Naturales y Matemáticas de la Universidad
    de Oriente de Santiago de Cuba.

    En la tesis se realiza un análisis detallado
    de la etiquetación automática de corpus textuales,
    las diferentes vías de desambiguar las palabras con
    posibilidad de tener más de una categoría gramatical,
    según el contexto donde se encuentre, principalmente
    sobre la base de la teoría probabilística de los
    modelos ocultos de Markov.

    La tesis describe la estructura, funcionamiento
    y descripción del modelo computacional que propone
    esta investigación, el cual se denomina ETIPROCT
    (Etiquetador y Procesador de Corpus Textuales) y
    describe sus dos secciones: la de la etiquetación
    automática de los textos y la del procesamiento de
    la información lingüística.

    La aplicación del ETIPROCT a dos corpus textuales
    completamente diferentes desde el punto de vista
    lexical refleja la alta efectividad del sistema.

    Se procesaron 358 textos escritos por alumnos
    de secundaria básica de ocho provincias cubanas,
    donde se obtuvo una efectividad de 98.15%.

    Por su parte, se analizaron 131 textos de
    la prensa escrita cubana y la efectividad
    fue de un 97.16%.

    Otra de las novedades del sistema que describe
    esta tesis es la codificación automática de los
    lapsogramas cometidos por los estudiantes en las
    composiciones escritas.

    El reconocimiento de palabras compuestas,
    el enriquecimiento constante del lexicón,
    la creación del aspecto semántico dentro
    del mismo y la larga relación de resultados
    linguoestadísticos, entre otros, son los aportes
    más significativos del primer etiquetador gramatical
    automático de corpus textuales creado en Cuba, objetivo
    principal de esta tesis.

    Centro de Lingüística Aplicada
    Ministerio de Ciencia, Tecnología y Medio Ambiente
    Santiago de Cuba
    Cuba



    This archive was generated by hypermail 2b29 : Thu Mar 29 2001 - 05:36:11 MET DST