ETSI Ingeniería Informática » Posgrados oficiales » Masters en Inteligencia Artificial y Sist. Informáticos

Posgrados Oficiales

.........................................
Presentación
Oferta
Preinscripción
Matrícula
Admisión
Plazos
Precios
Legalización
Traducción
Convalidaciones
Documentación
Preguntas Frecuentes
Enlaces
Contactar
.........................................
Ir a Espacio Europeo ...


DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS



Profesorado

Coordinador:R. Martínez Unanue
(Dpto. Lenguajes y Sistemas Informáticos, UNED)
Dra. Lourdes Araujo Serna
(Dpto. Lenguajes y Sistemas Informáticos, UNED)
Dr. Víctor Fresno Fernández
(Dpto. Lenguajes y Sistemas Informáticos, UNED)


Ficha técnica:

TipoOptativa
CuatrimestrePrimero
Créditos/horas totales6/150
Horas de estudio teórico70
Horas de prácticas70
Horas complementarias10

DESCRIPCIÓN DE LA ASIGNATURA

Prerrequisitos recomendables

Ninguno diferente de los generales de acceso a este programa de posgrado orientado a la investigación.

Objetivos generales de la materia

El objetivo del curso es proporcionar al alumno una visión global de las técnicas y tecnologías involucradas en el descubrimiento de información en textos.

Destrezas y competencias

-Saber lo que es un corpus y conocer los criterios por los que se clasifican, los tipos de anotaciones más comunes y los estándares utilizados.

- Conocer los modelos de representación comúnmente utilizados, así como los métodos de selección y reducción del número de rasgos.

-Saber distinguir los diversos niveles de información lingüística que se pueden utilizar en la representación de textos.

-Saber qué se entiende por minería de textos y conocer las principales técnicas y tecnologías implicadas.

-Saber qué es la clasificación automática de textos y sus características y tipos.

-Conocer diversos tipos de técnicas de aprendizaje automático que se pueden utilizar en la clasificación automática de textos.

-Conocer los modelos estadísticos más utilizados en el procesamiento del lenguaje.

- Saber utilizar las herramientas disponibles de clasificación automática de textos y tener criterios para seleccionar las más adecuadas.

-Saber qué es el clustering de textos y sus características y tipos.

-Conocer diversos tipos de algoritmos de clustering.

- Saber utilizar las herramientas disponibles de clustering de textos y tener criterios para seleccionar las más adecuadas.

- Conocer algoritmos de etiquetado léxico y análisis sintáctico.

Contextualización de la materia en el conjunto del Master

Esta asignatura se encuadra en el módulo "Tecnologías del lenguaje en la web" dentro de la especialidad "LSI-1 Tecnologías del lenguaje en la red" de la titulación de posgrado "Master en lenguajes y Sistemas Informáticos"

1  Medios de estudio

1.1  Metodología docente

La general del programa de postgrado. Junto a las actividades y enlaces con fuentes de información externas, existe material didáctico propio preparado por el equipo docente.
Adaptada a las directrices del EEES, de acuerdo con el documento del IUED.
La asignatura no tiene clases presenciales. Los contenidos teóricos se impartirán a distancia, de acuerdo con las normas y estructuras de soporte telemático de la enseñanza en la UNED.
El material docente incluye un resumen de los contenidos de cada tema y distintos tipos de actividades relacionadas con la consulta bibliográfica y la utilización de herramientas asociadas a las tecnologías y técnicas presentadas en el curso.
Tratándose de un master orientado a la investigación, las actividades de aprendizaje se estructuran en torno al estado del arte en cada una de las materias del curso y a los problemas en los que se va a focalizar la práctica que el alumno deberá realizar.

1.2  Material de estudio

Bibliografía Básica
- Gordon, A.D. Classification. 2nd Edition. Chapman & Hall/CRC, 1999.
- McEnery, T., Wilson, A. Corpus Linguistics. Edinburgh University Press, 1996.
- Manning, C.D., and Schütze, H. Foundations of Statistical Natural Language Processing. The MIT Press (2000).
- Mitchell, T. Machine Learning. McGraw Hill, 1997. (Nuevos capítulos creados en 2006 y disponibles en http://www.cs.cmu.edu/%7Etom/mlbook.html )
-S. Weiss; N. Indurkhya; T. Zhang; F. Damerau. Text Mining: Predictive Methods for Analyzing Unstructured Information, 2004.

1.3  Materiales y recursos de apoyo

La plataforma de e-Learning Alf, proporcionará el adecuado interfaz de interacción entre el alumno y sus profesores. aLF es una plataforma de e-Learning y colaboración que permite impartir y recibir formación, gestionar y compartir documentos, crear y participar en comunidades temáticas, así como realizar proyectos online.
Se ofrecerán las herramientas necesarias para que, tanto el equipo docente como el alumnado, encuentren la manera de compaginar tanto el trabajo individual como el aprendizaje cooperativo.

1.4  Bibliografia general de consulta

- Foltz, P. Latent Semantic Analysis for Text-Based Research, 1996.
- Ide, N.: 1998b: "Encoding Linguistic Corpora". Proceedings of the Sixth Workshop on Very Large Corpora, 9-17.
- Goldberg, D.E. Genetic Algorithms in Search, Optimization and Machine Learning. Addison Wesley Publishing Company, 1988.
- Jurafsky & Martin. Speech and Language Processing. Prentice Hall, (2000).
- Sebastiani, F. Machine learning in automated text categorization. ACM Computing Surveys. Volume 34 ,  Issue 1 (2002).
- Chakrabarti, S. Mining the web. Discovering knowledge from hypertext data. Morgan Kaufmann Publishers, 2003.

1.5  Tutorización

La tutorización de los alumnos se llevará a cabo a través de la plataforma de e-Learning Alf, por teléfono (913988725) y por correo electrónico:
(raquel@lsi.uned.es) (91 398 87 25) (lurdes@lsi.uned.es) (91 398 73 18) (vfresno@lsi.uned.es) (91 398 82 17)

2  Estructura del curso

2.1  Estructura y contenido teórico

Tema 1.- Introducción: interés y definiciones preliminares
Tema 2.- Corpus: definiciones y tipología.
Tema 3.- Estándares de anotaciones.
Tema 4.- Modelos estadísticos para la caracterización de textos: Etiquetado léxico y sintáctico.
Tema 5.- Representación de textos: Modelos y funciones de pesado y reducción de rasgos.
Tema 6.- Técnicas de minería de textos. Clasificación automática
Tema 7.- Técnicas de minería de textos. Clustering

2.2  Objetivos por tema y orientaciones breves

Tema 1: Introducción.
Objetivos:
El objetivo global del tema es presentar al alumno aquellos conceptos y conocimientos preliminares sin los que no podría ubicar los contenidos de la asignatura. Se pretende, además, justificar el interés de la asignatura, motivar al alumno en su estudio y presentar las posibles aplicaciones de los contenidos.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema.

Tema 2: Corpus: definiciones y tipología.
Objetivos:
Se pretende presentar las diversas definiciones de corpus existentes desde diversos puntos de vista, además de clasificarlos de acuerdo a diversos criterios comúnmente utilizados en la bibliografía.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a numerosos ejemplos de tipos de corpus.

Tema 3: Estándares de anotaciones.
Objetivos:
Se pretende presentar el concepto de anotación, los tipos de anotaciones y los estándares de anotaciones en XML.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a numerosos ejemplos de tipos de corpus con anotaciones, en particular XML.

Tema 4: Modelos estadísticos para la caracterización de textos: Etiquetado léxico y sintáctico
Objetivos:
Dar a conocer al alumno los modelos estadísticos más utilizados en el procesamiento del lenguaje natural, tales como los Modelos de Markov Ocultos y las Gramáticas probabilísticas. También se darán a conocer algoritmos basados en estos modelos para abordar problemas específicos de PLN.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para el etiquetado léxico y el análisis sintáctico.

Tema 5: Representación de textos: Modelos y funciones de pesado y reducción de rasgos.
Objetivos:
Se presentarán los modelos de representación más utilizados. Además se estudiarán los métodos de selección y reducción de rasgos más comunes en textos.
Orientaciones:
Dentro de las actividades de representación y aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para la selección de rasgos.

Tema 6: Técnicas de minería de textos. Clasificación automática.
Objetivos:
Se presentará el campo de la minería de textos ubicando el clustering o agrupamiento automático en él. Se presentarán las principales técnicas y algoritmos de clustering, así como las técnicas que se suelen utilizar en la evaluación.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para la clasificación automática.

Tema 7: Técnicas de minería de datos. Clustering.
Objetivos:
Se presentará el campo de la minería de textos ubicando el clustering o agrupamiento automático en él. Se presentarán las principales técnicas y algoritmos de clustering, así como las técnicas que se suelen utilizar en su evaluación.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para clustering.

3  Actividades y plan de trabajo

3.1  Actividades prácticas programadas

Corpus. Tipologías.
Extracción de información lingüística a partir de anotaciones. Estándares de anotaciones. Salidas de herramientas de uso frecuente.
Representaciones de diversos tipos de documentos. Uso de metainformación.
Clasificación automática: aprendizaje supervisado y semisupervisado.
Clustering: algoritmos partitivos y jerárquicos.

3.2  Otras actividades prácticas programadas

Se irán generando de forma dinámica en el curso virtual.

4  Evaluación

La evaluación se realizará a partir de los trabajos propuestos a lo largo del curso.

Reseña del profesorado

MARTÍNEZ UNANUE, RAQUEL:
Ha realizado la mayor parte de su actividad docente en el campo de la programación, la algoritmia y la documentación electrónica. Su actividad investigadora se ha desarrollado principalmente en dos campos: la alineación de corpus paralelos para generación de memorias de traducción y en clustering de documentos tanto monolingües como bilingües. Desde el año 2000 hasta la actualidad ha colaborado en programas de doctorado de tres universidades: la Universidad Complutense de Madrid, la Universidad Rey Juan Carlos y la UNED.
raquel@lsi.uned.es

ARAUJO SERNA, LOURDES:
Desde 1990 ha desarrollado en universidades públicas diversa actividad docente relacionada con los lenguajes de programación y la algoritmia. Desde 1994 hasta la actualidad ha colaborado de forma continua en programa de doctorado de la Unvirsidad Complutense de Madrid y de la UNED. Su tema de tesis fue el estudio del paralelismo de Prolog y posteriormente ha trabajado en programación con restricciones sobre arquitecturas paralelas, ámbito en el que comenzó a aplicar técnicas de programación evolutiva. En la actualidad investiga en procesamiento del lenguaje natural, recuperación de información y en la aplicación de programación evolutiva a dichas áreas.
lurdes@lsi.uned.es

FRESNO FERNÁNDEZ, VÍCTOR
Su actividad docente se ha centrado principalmente en el campo de la documentación electrónica y su investigación en el campo de la representación automática de textos, en especial de páginas web, así como en la clasificación y clustering de documentos HTML. Desde el año 2000 hasta la actualidad ha trabajado en el Instituto de Automática industrial (CSIC), la Universidad Rey Juan Carlos (URJC) y la Universidad Nacional de Educación a Distancia (UNED), colaborando en los programas de doctorado de dichas universidades.
vfresno@lsi.uned.es

Vista para imprimir