|
|
 |
 |
DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
Profesorado
| Coordinador:R. Martínez Unanue |
| (Dpto. Lenguajes y Sistemas Informáticos, UNED) |
| Dra. Lourdes Araujo Serna |
| (Dpto. Lenguajes y Sistemas Informáticos, UNED) |
| Dr. Víctor Fresno Fernández |
| (Dpto. Lenguajes y Sistemas Informáticos, UNED) |
|
Ficha técnica:
| Tipo | Optativa |
|
| Cuatrimestre | Primero |
| Créditos/horas totales | 6/150 |
| Horas de estudio teórico | 70 |
| Horas de prácticas | 70 |
| Horas complementarias | 10 |
DESCRIPCIÓN DE LA ASIGNATURA
Prerrequisitos recomendables
Ninguno diferente de los generales de acceso a este programa de posgrado
orientado a la investigación.
Objetivos generales de la materia
El objetivo del curso es proporcionar al alumno una visión global
de las técnicas y tecnologías involucradas en el descubrimiento de
información en textos.
Destrezas y competencias
-Saber lo que es un corpus y conocer los criterios por los que se
clasifican, los tipos de anotaciones más comunes y los estándares
utilizados.
- Conocer los modelos de representación comúnmente utilizados, así
como los métodos de selección y reducción del número de rasgos.
-Saber distinguir los diversos niveles de información lingüística
que se pueden utilizar en la representación de textos.
-Saber qué se entiende por minería de textos y conocer las principales
técnicas y tecnologías implicadas.
-Saber qué es la clasificación automática de textos y sus características
y tipos.
-Conocer diversos tipos de técnicas de aprendizaje automático que
se pueden utilizar en la clasificación automática de textos.
-Conocer los modelos estadísticos más utilizados en el procesamiento del lenguaje.
- Saber utilizar las herramientas disponibles de clasificación automática
de textos y tener criterios para seleccionar las más adecuadas.
-Saber qué es el clustering de textos y sus características y tipos.
-Conocer diversos tipos de algoritmos de clustering.
- Saber utilizar las herramientas disponibles de clustering de textos
y tener criterios para seleccionar las más adecuadas.
- Conocer algoritmos de etiquetado léxico y análisis sintáctico.
Contextualización de la materia en el conjunto del Master
Esta asignatura se encuadra en el módulo "Tecnologías del
lenguaje en la web" dentro de la especialidad "LSI-1
Tecnologías del lenguaje en la red" de la titulación de posgrado
"Master en lenguajes y Sistemas Informáticos"
1 Medios de estudio
1.1 Metodología docente
La general del programa de postgrado. Junto a las actividades y enlaces
con fuentes de información externas, existe material didáctico propio
preparado por el equipo docente.
Adaptada a las directrices del EEES, de acuerdo con el documento del
IUED.
La asignatura no tiene clases presenciales. Los contenidos teóricos
se impartirán a distancia, de acuerdo con las normas y estructuras de
soporte telemático de la enseñanza en la UNED.
El material docente incluye un resumen de los contenidos de cada tema
y distintos tipos de actividades relacionadas con la consulta bibliográfica
y la utilización de herramientas asociadas a las tecnologías y técnicas
presentadas en el curso.
Tratándose de un master orientado a la investigación, las actividades
de aprendizaje se estructuran en torno al estado del arte en cada
una de las materias del curso y a los problemas en los que se va a
focalizar la práctica que el alumno deberá realizar.
1.2 Material de estudio
Bibliografía Básica
- Gordon, A.D. Classification. 2nd Edition. Chapman & Hall/CRC, 1999.
- McEnery, T., Wilson, A. Corpus Linguistics. Edinburgh University Press, 1996.
- Manning, C.D., and Schütze, H. Foundations of Statistical Natural Language Processing. The MIT Press (2000).
- Mitchell, T. Machine Learning. McGraw Hill, 1997. (Nuevos capítulos creados en 2006 y disponibles en http://www.cs.cmu.edu/%7Etom/mlbook.html )
-S. Weiss; N. Indurkhya; T. Zhang; F. Damerau. Text Mining: Predictive
Methods for Analyzing Unstructured Information, 2004.
1.3 Materiales y recursos de apoyo
La plataforma de e-Learning Alf, proporcionará el adecuado interfaz
de interacción entre el alumno y sus profesores. aLF es una plataforma
de e-Learning y colaboración que permite impartir y recibir formación,
gestionar y compartir documentos, crear y participar en comunidades
temáticas, así como realizar proyectos online.
Se ofrecerán las herramientas necesarias para que, tanto el equipo
docente como el alumnado, encuentren la manera de compaginar tanto
el trabajo individual como el aprendizaje cooperativo.
1.4 Bibliografia general de consulta
- Foltz, P. Latent Semantic Analysis for Text-Based Research, 1996.
- Ide, N.: 1998b: "Encoding Linguistic Corpora". Proceedings of the Sixth Workshop on Very Large Corpora, 9-17.
- Goldberg, D.E. Genetic Algorithms in Search, Optimization and Machine Learning. Addison Wesley Publishing Company, 1988.
- Jurafsky & Martin. Speech and Language Processing. Prentice Hall, (2000).
- Sebastiani, F. Machine learning in automated text categorization. ACM Computing Surveys. Volume 34 , Issue 1 (2002).
- Chakrabarti, S. Mining the web. Discovering knowledge from hypertext data. Morgan Kaufmann Publishers, 2003.
1.5 Tutorización
La tutorización de los alumnos se llevará a cabo a través de la plataforma
de e-Learning Alf, por teléfono (913988725) y por correo electrónico:
(raquel@lsi.uned.es) (91 398 87 25)
(lurdes@lsi.uned.es) (91 398 73 18)
(vfresno@lsi.uned.es) (91 398 82 17)
2 Estructura del curso
2.1 Estructura y contenido teórico
Tema 1.- Introducción: interés y definiciones preliminares
Tema 2.- Corpus: definiciones y tipología.
Tema 3.- Estándares de anotaciones.
Tema 4.- Modelos estadísticos para la caracterización de textos: Etiquetado léxico y sintáctico.
Tema 5.- Representación de textos: Modelos y funciones de pesado y reducción de rasgos.
Tema 6.- Técnicas de minería de textos. Clasificación automática
Tema 7.- Técnicas de minería de textos. Clustering
2.2 Objetivos por tema y orientaciones breves
Tema 1: Introducción.
Objetivos:
El objetivo global del tema es presentar al alumno aquellos conceptos
y conocimientos preliminares sin los que no podría ubicar los contenidos
de la asignatura. Se pretende, además, justificar el interés de la
asignatura, motivar al alumno en su estudio y presentar las posibles
aplicaciones de los contenidos.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas
más adecuadas para cada uno de los objetivos del tema.
Tema 2: Corpus: definiciones y tipología.
Objetivos:
Se pretende presentar las diversas definiciones de corpus existentes
desde diversos puntos de vista, además de clasificarlos de acuerdo
a diversos criterios comúnmente utilizados en la bibliografía.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas
más adecuadas para cada uno de los objetivos del tema. Se presentarán
y facilitará el acceso a numerosos ejemplos de tipos de corpus.
Tema 3: Estándares de anotaciones.
Objetivos:
Se pretende presentar el concepto de anotación, los tipos de anotaciones
y los estándares de anotaciones en XML.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas
más adecuadas para cada uno de los objetivos del tema. Se presentarán
y facilitará el acceso a numerosos ejemplos de tipos de corpus con
anotaciones, en particular XML.
Tema 4: Modelos estadísticos para la caracterización de textos: Etiquetado léxico y sintáctico
Objetivos:
Dar a conocer al alumno los modelos estadísticos más utilizados en el procesamiento del lenguaje natural, tales como los Modelos de Markov Ocultos y las Gramáticas probabilísticas. También se darán a conocer algoritmos basados en estos modelos para abordar problemas específicos de PLN.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas
más adecuadas para cada uno de los objetivos del tema. Se presentarán
y facilitará el acceso a ejemplos y herramientas para el etiquetado léxico y el análisis sintáctico.
Tema 5: Representación de textos: Modelos y funciones de pesado y reducción de rasgos.
Objetivos:
Se presentarán los modelos de representación más utilizados. Además se estudiarán los métodos de selección y reducción de rasgos más comunes en textos.
Orientaciones:
Dentro de las actividades de representación y aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para la selección de rasgos.
Tema 6: Técnicas de minería de textos. Clasificación automática.
Objetivos:
Se presentará el campo de la minería de textos ubicando el clustering
o agrupamiento automático en él. Se presentarán las principales técnicas
y algoritmos de clustering, así como las técnicas que se suelen utilizar
en la evaluación.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas
más adecuadas para cada uno de los objetivos del tema. Se presentarán
y facilitará el acceso a ejemplos y herramientas para la clasificación automática.
Tema 7: Técnicas de minería de datos. Clustering.
Objetivos:
Se presentará el campo de la minería de textos ubicando el clustering o agrupamiento automático en él. Se presentarán las principales técnicas y algoritmos de clustering, así como las técnicas que se suelen utilizar en su evaluación.
Orientaciones:
Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para clustering.
3 Actividades y plan de trabajo
3.1 Actividades prácticas programadas
Corpus. Tipologías.
Extracción de información lingüística a partir de anotaciones. Estándares de anotaciones. Salidas de herramientas de uso frecuente.
Representaciones de diversos tipos de documentos. Uso de metainformación.
Clasificación automática: aprendizaje supervisado y semisupervisado.
Clustering: algoritmos partitivos y jerárquicos.
3.2 Otras actividades prácticas programadas
Se irán generando de forma dinámica en el curso virtual.
4 Evaluación
La evaluación se realizará a partir de los trabajos propuestos a lo largo del curso.
Reseña del profesorado
MARTÍNEZ UNANUE, RAQUEL:
Ha realizado la mayor parte de su actividad docente en el campo de
la programación, la algoritmia y la documentación electrónica. Su
actividad investigadora se ha desarrollado principalmente en dos campos:
la alineación de corpus paralelos para generación de memorias de traducción
y en clustering de documentos tanto monolingües como bilingües. Desde
el año 2000 hasta la actualidad ha colaborado en programas de doctorado
de tres universidades: la Universidad Complutense de Madrid, la Universidad
Rey Juan Carlos y la UNED.
raquel@lsi.uned.es
ARAUJO SERNA, LOURDES:
Desde 1990 ha desarrollado en universidades públicas diversa actividad docente relacionada con los lenguajes de programación y la algoritmia. Desde 1994 hasta la actualidad ha colaborado de forma continua en programa de doctorado de la Unvirsidad Complutense de Madrid y de la UNED. Su tema de tesis fue el estudio del paralelismo de Prolog y posteriormente ha trabajado en programación con restricciones sobre arquitecturas paralelas,
ámbito en el que comenzó a aplicar técnicas de programación evolutiva. En la actualidad investiga en procesamiento del lenguaje natural, recuperación de información y en la aplicación de programación evolutiva a dichas áreas.
lurdes@lsi.uned.es
FRESNO FERNÁNDEZ, VÍCTOR
Su actividad docente se ha centrado principalmente en el campo de la documentación electrónica y su investigación en el campo de la representación automática de textos, en especial de páginas web, así como en la clasificación y clustering de documentos HTML. Desde el año 2000 hasta la actualidad ha trabajado en el Instituto de Automática industrial (CSIC), la Universidad Rey Juan Carlos (URJC) y la Universidad Nacional de Educación a Distancia (UNED), colaborando en los programas de doctorado de dichas universidades.
vfresno@lsi.uned.es
|  |
 |
|