ETSI Ingeniería Informática » Posgrados oficiales » IA LSI » Minería de datos

Posgrados Oficiales

.........................................
Presentación
Oferta
Preinscripción
Matrícula
Admisión
Plazos
Precios
Legalización
Traducción
Convalidaciones
Documentación
Preguntas Frecuentes
Enlaces
Contactar
.........................................
Ir a Espacio Europeo ...


MINERIA DE DATOS



Profesorado

Coordinador: Enrique J. Carmona(Dpto. Inteligencia Artificial, UNED)
Profesores:
Luis Sarro Baro. (Dpto. inteligencia Artificial, UNED)


Ficha técnica:

TipoOptativa
CuatrimestrePrimero
Créditos/horas totales6/150
Horas de estudio teórico55
Horas de prácticas50
Horas complementarias45

DESCRIPCIÓN DE LA ASIGNATURA

Prerrequisitos recomendables

El alumno debe haber cursado las asignaturas de Álgebra, Análisis Matemático y Estadística impartidas en el primer ciclo de la titulación de Informática de la UNED o asignaturas equivalentes en otras universidades.

Objetivos generales de la materia

El presente curso pretende dar una visión panorámica de la teoría y conceptos fundamentales utilizados en Minería de Datos (MD), del conjunto de tareas abordadas por esta disciplina y del repertorio de técnicas y métodos existentes que permiten resolver cada una de estas tareas.

Destrezas y competencias

-Conocer las relaciones existentes de la MD con otras disciplinas.
-Conocer las distintas fases implicadas en un proyecto de minería de datos y las relaciones existentes entre ellas.
-Conocer y saber aplicar las distintas técnicas existentes en MD para realizar preparación de datos.
-Distinguir entre tarea, técnica y método en MD.
-Saber relacionar las distintas tareas propias de MD con las técnicas que permiten resolverlas.
-Conocer que tipo de tarea es capaz de abordar cada técnica de MD.
-Conocer varios tipos de algoritmos o métodos para cada técnica de MD.
-Dominar, tanto desde un punto de vista teórico como práctico, los distintas técnicas/algoritmos utilizados en MD.
-Aplicar técnicas de evaluación adecuadas en función del tipo de modelo a evaluar.
-Practicar con algunas de las herramientas software de minería de datos.
-Afrontar la solución de un proyecto de MD siempre desde un punto de vista metodológico o ingenieril, nunca como un arte.
-Conocer y aplicar las metodologías de MD dedicadas a la creación y seguimiento de un proyecto de minería de datos.
-Saber responder a la pregunta de: ¿Cuándo implantar un proyecto de minería de datos en una organización?
-Conocer las repercusiones de la MD en distintos campos: social, legal y ético.
-Conocer los retos que plantea la MD actualmente y las tendencias futuras.

Contextualización de la materia en el conjunto del Master

Esta asignatura es común a los dos programas de Master de este posgrado. Así, dentro de la titulación del Master "Lenguajes y Sistemas Informáticos" se encuadra dentro del módulo denominado ESP-LSI-1: Tecnologías del lenguaje en la web?. De otra lado, dentro del programa de Master "IA Avanzada. Fundamentos Métodos y Aplicaciones" pertenece al módulo denominado "ESP-IA.1: Sistemas Inteligentes de diagnóstico, planificación y control".
Existen distintas asignaturas en el resto del programa de ambos master relacionadas con esta asignatura. Así, "Métodos de Aprendizaje en IA" aborda, además de otras técnicas de aprendizaje, la mayoría de las técnicas que se estudiarán en este tema y que básicamente se encuadran dentro del denominado paradigma de aprendizaje inductivo. El alumno que haya cursado dicha asignatura tendrá mucho camino adelantado al abordar esta asignatura. No obstante, hay que tener en cuenta que la visión que allí se da está orientada eminentemente a la parte algorítmica y de implementación (programación) de cada técnica. Aquí, el enfoque está más orientado a su uso, independientemente de la implementación particular. Es decir, consideraremos el conjunto de técnicas como una biblioteca de componentes reutilizables, cada uno de los cuales será seleccionado de acuerdo a las características de la tarea que se requiere resolver. En otros casos, esta asignatura puede servir de introducción a otras asignaturas de este programa de posgrado, tales como "Descubrimiento de información en textos" o "Minería en la Web", ambas pertenecientes al módulo "ESP-LSI-1".

1  Medios de estudio

1.1  Metodología docente

La general del programa de postgrado adaptada a las directrices del EEES, de acuerdo con el documento del IUED. Junto a las actividades y enlaces con fuentes de información externas, existe material didáctico propio preparado por el equipo docente. La asignatura no tiene clases presenciales. Los contenidos teóricos se impartirán a distancia, de acuerdo con las normas y estructuras de soporte telemático de la enseñanza en la UNED.

1.2  Material de estudio

El material docente del presente curso está compuesto por el texto base indicado en la bibliografía básica, por textos alternativos indicados en la bibliografía general de consulta (ver epígrafe 1.15), por los artículos referenciados en las actividades y en los epígrafes "Orientaciones", pertenecientes al desglose que se hace más adelante de cada tema por separado y, finalmente, por aquellas herramientas software indicadas en algunas de las actividades a realizar.
El texto base será el hilo conductor para el estudio de los contenidos de este curso. No obstante, dado el carácter introductorio de dicho texto, existirán algunas cuestiones que será necesario ampliar mediante la lectura de bibliografía alternativa.
Tratándose de un master orientado a la investigación, las actividades de aprendizaje se pueden estructurar tanto desde un punto de vista teórico como práctico. En el primer caso, girarán en torno al estado del arte en cada una de las materias del curso y, en el segundo caso, lo harán en relación con la búsqueda de soluciones de distintos subproblemas propios del campo de la MD.
Bibliografía Básica:
-J. Hernández Orallo, M.J. Ramírez, C. Ferri, Introducción a la Minería de Datos, Pearson-Prentice Hall, Madrid, 2004.

1.3  Materiales y recursos de apoyo

Además de la bibliografía indicada anteriormente, los materiales de apoyo para la realización de las prácticas serán los siguientes:
De manera general, las prácticas se realizarán con el programa Weka, descargable de la dirección http://www.cs.waikato.ac.nz
Excepcionalmente, las prácticas sobre redes neuronales se realizarán con:
-SNNS (http://www-ra.informatik.uni-tuebingen.de/SNNS/) o
-JavaNNS (http://wwwra.informatik.uni-tuebingen.de/software/JavaNNS/) y
-SOMPAK (http://www.cis.hut.fi/research/som_lvq_pak.shtml).
Los ficheros con los datos de trabajo serán proporcionados por el equipo docente a través de la plataforma alF o formarán parte de la distribución del software empleado. Si no se indica que la actividad correspondiente haya de ser realizada con un conjunto de datos particular, el alumno podrá elegir un fichero de casos del repositorio de la Universidad de California Irvine http://kdd.ics.uci.edu/.
La plataforma de e-Learning aLF, proporcionará el adecuado interfaz de interacción entre el alumno y sus profesores. Esta plataforma colaborativa permite impartir y recibir formación, gestionar y compartir documentos, crear y participar en comunidades temáticas, así como realizar proyectos online.
Se ofrecerán las herramientas necesarias para que, tanto el equipo docente como el alumnado, encuentren la manera de compaginar tanto el trabajo individual como el aprendizaje cooperativo.

1.4  BIbliografia general de consulta

-J. Han, M.Kamber, Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001.
-H. Witten, E. Frank, Data mining: Practical Machine Learning Tools and Techniques (Second Edition). Morgan Kaufmann Publishers, 2005.
-B.Pyle, Data Preparation for Data Mining. Morgan Kaufmann Publishers, 1999
-C.M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006
Además, véase la incluida en la descripción de las actividades.

1.5  Tutorización

La tutorización de los alumnos se llevará a cabo exclusivamente a través de la plataforma de e-learning Alf.

2  Estructura del curso

2.1  Estructura y contenido teórico

1.INTRODUCCIÓN
1.1.El concepto de Minería de Datos
1.2.La minería de datos y el proceso de descubrimiento de conocimiento a partir de datos
1.3.Relación con otras disciplinas
1.4.Aplicaciones
1.5.Fases del proceso de extracción de conocimiento a partir de datos

2.PREPARACIÓN DE DATOS
2.1.Consideraciones previas generales. Los almacenes de datos.
2.2.Técnicas sencillas de preprocesado
2.2.1.Compleción (datos faltantes)
2.2.2.Limpieza de errores
2.2.3.Transformación de atributos
2.2.4.Escalado
2.2.5.Discretización
2.2.6.Numerización
2.3.Técnicas de reducción de la dimensionalidad I: Análisis de Componentes Principales.
2.4.Técnicas de reducción de la dimensionalidad II: Métodos de Filtrado y Envoltura

3.TAREAS Y TÉCNICAS DE MINERÍA DE DATOS
3.1.Tareas en minería de datos.
3.2.Correspondencia entre métodos y tareas.
3.3.Caracterización de las técnicas de minería de datos.
3.4.Técnicas de Minería de Datos
3.4.1.Métodos estadísticos.
3.4.2.Reglas de asociación y dependencia.
3.4.3.Métodos Bayesianos.
3.4.4.Árboles de Decisión y sistemas de reglas.
3.4.5.Redes Neuronales Artificiales.
3.4.6.Máquinas de vectores soporte.
3.4.7.Extracción de conocimiento con algoritmos evolutivos y reglas difusas.
3.4.8.Métodos basados en casos y vecindad.

4.EVALUACIÓN
4.1.Consideraciones generales.
4.2.Técnicas básicas de evaluación de clasificadores
4.2.1.Medidas de la calidad de un clasificador: la tasa de errores
4.2.2.La descomposición del error en sesgo y varianza: el concepto de generalización
4.2.3.El sobreentrenamiento
4.2.4.Repetibilidad estadística: la validación cruzada.
4.3.Aspectos específicos de la evaluación de los diferentes clasificadores estudiados
4.4.Técnicas estadísticas de comparación de clasificadores
4.5.Medidas de calidad de agrupamiento
4.6.Interpretación, difusión y uso de modelos

5.IMPLANTACIÓN E IMPACTO DE LA MINERÍA DE DATOS
5.1.Implantación de un Programa de Minería de Datos (PMD) en una organización
5.1.1.Cuándo implantar un PMD: Necesidades y objetivos
5.1.2.Fases de un PMD: Estándar CRISP-DM
5.1.3.Integración de un PMD dentro de una organización
5.1.4.Recursos necesarios
5.2.Repercusiones y retos de la minería de datos
5.2.1.Impacto social
5.2.2.Cuestiones éticas y legales
5.2.3.Problemas y soluciones: Tendencias futuras

2.2  Objetivos por tema y orientaciones breves

Tema 1: Introducción

Objetivo:
El carácter introductorio de este tema pretende como principal objetivo dar una panorámica general de los distintos aspectos relacionados con la minería de datos. Este objetivo global puede descomponerse en los siguientes objetivos más concretos:
O.1.1: Conocer los distintos tipos de datos que se manejan en MD.
O.1.2: Conocer los distintos tipos de modelos que se pueden aprender.
O.1.3: Conocer la relación de la MD con otras disciplinas.
O.1.4: Conocer los diferentes dominios de aplicación de la MD.
O.1.5: Relacionar el concepto de Descubrimiento de Conocimiento a partir de Datos con el de Minería de Datos.
O.1.5: Conocer las distintas fases implicadas en el proceso de descubrimiento de conocimiento a partir de datos.

Orientaciones:
Teniendo en cuenta que los capítulos 1 y 2 del texto base, abarcan todos los contenidos de este tema, su estudio se realizará atendiendo a las siguientes indicaciones.
En primer lugar, se empezará definiendo el concepto de minería de datos y el contexto que la rodea (sección 1.1). Así, se comentarán algunos aspectos relacionados con las necesidades que han dado lugar a su aparición y a su desarrollo, la materia prima que utiliza como entrada, es decir, los distintos tipos de datos, y el tipo de soluciones que ofrece como salidas (patrones y modelos). Para ello, es conveniente una lectura atenta de los epígrafes 1.1 a 1.4 del libro base. Además, en el epígrafe 1.2, se muestran también un conjunto de ejemplos prácticos que permiten una primera toma de contacto con distintas aplicaciones sencillas de la minería de datos. A continuación, en la sección 1.2 se analizará la minería de datos en un contexto más amplio como es el del proceso de descubrimiento de conocimiento a partir de datos (Knowledge Discovery in Databases, KDD), clarificando la relación entre ambos conceptos (epígrafe 1.5). Para acabar la descripción del contexto que rodea a la MD, se analizará, en la sección 1.3, su relación con otras disciplinas (epígrafe 1.6) y, en la sección 1.4, se enumerará una amplia lista de ejemplos pertenecientes a distintos dominios de aplicación de la misma (epígrafe 1.7).
Finalmente, si se considera a la minería de datos como una de las fases del proceso de descubrimiento de conocimiento a partir de datos, el estudio de la sección 1.5 pretende dar una serie de nociones básicas relacionadas con las distintas etapas que conforman la secuencia completa de dicho proceso: Preparación de Datos, Minería de Datos, Evaluación, Difusión y Uso de Modelos. Para ello, el alumno deberá leer detenidamente el capítulo 2 completo del libro base. No obstante, cada una de estas etapas se estudiarán por separado y con más detenimiento a lo largo del curso.
Para ampliar el estudio del presente tema, el alumno puede consultar el capítulo 1 y 2 de la referencia [Han&Kamber-01]. En el primero, se incluye también una introducción al mundo de la minería de datos. El segundo constituye una primera aproximación a distintos aspectos (tipos de arquitectura, implementación, etc.) relacionados con el uso por parte de la MD de los denominados Almacenes de Datos (Data Warehouse).

Tema 2: Preparación de datos

Objetivos:
Los conocimientos y destrezas que el alumno debe adquirir a lo largo del tema se detalla en la siguiente lista de objetivos:
O.2.1: El alumno debe comprender la importancia del preprocesado de datos en el desarrollo de aplicaciones en Minería de Datos y conocer el impacto potencial de las decisiones de dicho preprocesado en la eficacia y eficiencia de las fases posteriores del proceso. En particular, debe ser consciente de que no hacer preprocesado es también una decisión de preprocesado que habitualmente tiene como consecuencia resultados subóptimos.
O.2.2: Debe conocer las técnicas de corrección de errores (compleción de datos, eliminación de datos exóticos, discretización y reescalado) de los datos de partida y, de nuevo, el impacto que tendrán sobre las etapas posteriores. Sobre todo, debe ser capaz de sopesar en qué situaciones son necesarias estas técnicas.
O.2.3: Debe manejar con soltura conceptos como relevancia, correlación u optimalidad de un conjunto de atributos y su relación con el problema de la maldición de la dimensionalidad o el sobreajuste. Debe saber evaluar la conveniencia de realizar una reducción de dimensionalidad sobre el conjunto de datos inicial.
O.2.4: En relación con lo anterior, debe conocer la diferencia entre las técnicas de selección de atributos por filtrado y de envoltura. Debe saber combinar el potencial de ambas aproximaciones para obtener conjuntos de atributos óptimos y debe conocer las diferentes posibilidades que le ofrecen las técnicas de filtrado, incluyendo el análisis de componentes principales.
O.2.5: Debe ser capaz de llevar a la práctica las diferentes técnicas estudiadas en el tema con software convencional o (preferible, pero no obligatoriamente) codificarlas él mismo.
O.2.6: Debe ser capaz de evaluar artículos recientes del área y orientarse entre la bibliografía científica para fundamentar y contextualizar las aportaciones de dichas publicaciones.

Orientaciones:
Siguiendo con las directrices generales del curso, el equipo docente propone una aproximación gradual a este tema. En primer lugar, remitimos al estudiante al texto base de la asignatura donde podrá encontrar una introducción sencilla y clara a muchos de los aspectos tratados en el tema. En particular, la Parte II del texto (capítulos 3, 4 y 5) cubre, si bien de forma muchas veces cualitativa, las cuatro secciones en que hemos dividido el tema. Así, el capítulo 3 describe someramente lo que es necesario conocer sobre los almacenes de datos. No iremos más allá en este curso puesto que consideraciones de mayor detalle bien caen fuera del ámbito de la asignatura, bien han sido tratados durante los estudios de grado.
El capítulo 4 trata, de manera sencilla también, las secciones 2 y 3 de este tema. Comienza con unas consideraciones generales muy útiles (4.1 y 4.2.1), trata los datos incompletos y las técnicas más sencillas de compleción (4.2.3), y continúa con el filtrado de anomalías (4.2.4). Después, en el apartado 4.3 aborda tanto el aumento como la disminución de la dimensionalidad mediante transformaciones. La disminución de la dimensionalidad mediante transformaciones se puede hacer de varias maneras enumeradas en dicha sección 4.3, una de las cuales tiene una presencia preponderante en la bibliografía científica del área: el análisis de Componentes Principales, razón por la cual hemos decidido concederle un apartado especial (el tercer apartado del tema del que trataremos a continuación).
La sección 4.4 se ocupa de la discretización y numerización de atributos. Estas técnicas son imprescindibles para la aplicación de algunos algoritmos de aprendizaje. Por ejemplo, muchos de los aplicados a redes bayesianas (ver siguiente tema) son intratables cuando se trabaja con variables continuas. Finalmente, la sección 4.5 trata el escalado de los atributos.
Vemos entonces que el capítulo 4 del texto base cubre la sección 2 de este tema y presenta de manera somera la sección 3. La lectura de la sección 4.3 no sólo ha introducido el análisis de componentes principales sino que ha supuesto una toma de contacto con el problema de la reducción de dimensionalidad que abordaremos desde el punto de vista de dos aproximaciones diferentes (secciones 3 y 4 de este tema). La primera aproximación consiste en crear combinaciones lineales de los atributos originales de una forma que, salvo en circunstancias especiales, faciliten las tareas más habituales de la Minería de datos, especialmente de la clasificación. Puesto que, como hemos dicho, se trata de una técnica muy utilizada en una amplísima variedad de nuevos algoritmos cuyo fundamento, a pesar de ser sencillo, no es abordado en profundidad en el texto base, hemos decidido dedicarle una sección separada del tema y utilizar otro texto para su exposición. Este texto es el utilizado en la asignatura optativa del grado de Ingeniería Informática de la UNED "Sistemas Basados en el Conocimiento II" que se puede descargar de la página web de la asignatura, enlazada a su vez desde el servidor de la Escuela de Informática de la UNED. En dicho texto se puede encontrar, en la sección 2.2.1 un subapartado denominado "Selección de características. Análisis de Componentes Principales" que introduce los fundamentos del método y varios ejemplos de aplicación.
Finalmente, el capítulo 5 (retornando al texto base y, en concreto el epígrafe 5.4) proporciona una visión muy general de las técnicas de selección de datos cuyo núcleo principal es la selección de atributos (y se trata, de hecho, de un campo de investigación con una actividad reciente muy notable). En particular, cabe destacar la relevancia de esta última sección del tema para los alumnos matriculados en la asignatura de "Descubrimiento de Información en textos" de este Postgrado y, en general, en campos de investigación científica tan importantes como la Genética o la Proteómica. Por ello, más allá de los contenidos incluidos en el apartado 5.4 del texto base, incluimos como material del tema dos artículos en inglés: uno de ellos, la presentación de los métodos wrapper o de envoltura de Kohavi y John (Wrappers for Feature Subset Selection) y otro más reciente publicado como presentación de un número especial dedicado a la selección de atributos en el Journal of Machine Learning Research en 2003 por Isabelle Guyon y André Elisseeff. Evidentemente, este último se trata de un artículo cuya profundidad excede la esperable de este curso por lo que no se espera del alumno la comprensión total de todos los aspectos abordados en él. Sólo, que extraiga una visión general de las estrategias descritas y que sea capaz de hacer un estudio especializado de aquéllas que le interesen especialmente.

Tema 3: Tareas y técnicas de minería de datos

Objetivos:
Son varios los objetivos que se pretenden alcanzar con el estudio del presente tema:
O.3.1: Diferenciar entre el concepto de tarea (problema a resolver) y el de técnica o método que la implementa (que lo resuelve).
O.3.2: Conocer las tareas típicas asociadas a la minería de datos.
O.3.3: Definir un conjunto de parámetros que, en función de ellos, permita caracterizar las distintas técnicas de minería de datos y, además, facilite el proceso de comparación entre ellas.
O.3.4: Conocer y describir las distintas técnicas de minería de datos en función de los parámetros definidos anteriormente.
O.3.5: Conocer los distintos métodos y algoritmos asociados a cada una de las técnicas de minería de datos.
O.3.6: Experimentar con los distintos algoritmos aplicándolos a la resolución de tareas adecuadas y comprobar el efecto y/o dependencia de variar el valor de los distintos parámetros de los que dependen en la bondad del resultado esperado.
O.3.7: El alumno deberá ser capaz de verbalizar las respuestas a las siguientes preguntas:
-Qué tipo de técnicas permiten implementar cada tarea típica de MD y qué tienen todas estas técnicas en común.
-Qué tareas implementa cada técnica.
-De qué depende la dificultad de aplicación de cada método
-En qué formato de salida se expresa el resultado de estas técnicas.
O.3.8: Finalmente, el alumno deberá adquirir la suficiente destreza como para dado un problema de minería de datos, descomponerlo y reducirlo a un conjunto de tareas básicas. En un principio, a cada una de ellas, le hará corresponder un conjunto de técnicas válidas de entre las que, finalmente, seleccionará el algoritmo más adecuado a aplicar de acuerdo a las condiciones de contorno, a las particularidades de la tarea a resolver y, en muchas ocasiones, a la comparación de resultados obtenidos al aplicar varios algoritmos diferentes.

Orientaciones:
Utilizando como libro de referencia el indicado en la bibliografía básica, el estudio de la asignatura se realizará atendiendo a las siguientes indicaciones. Las secciones 3.1, 3.2 y 3.3 del temario se estudiarán a partir del capítulo 6. Así, atendiendo a las correspondencias existentes entre métodos y tareas, y a modo de resumen, es altamente ilustrativa la figura de la página 148. Igualmente la figura 6.2 constituye una buena primera aproximación a la clasificación de las distintas técnicas de acuerdo al tipo de modelo de salida que generan y a su facilidad de interpretación.
Seguidamente, las distintas técnicas indicadas dentro de la sección 3.4 se estudiarán utilizando como referencia los capítulos 7-16 (ambos incluidos) del texto base. Dichos capítulos, además, conservan el mismo nombre que el utilizado en las secciones correspondientes del temario. No obstante, hay que indicar que algunos capítulos del libro no requerirán un estudio minucioso. Así, de los capítulos 7 y 8 que comprenden la sección 3.4.1 del temario y que hacen referencia a distintos métodos estadísticos, sólo se recomienda su lectura. Igualmente, la segunda parte del capítulo 10, correspondiente a redes bayesianas, queda fuera del alcance de este curso y sólo se recomienda su lectura. El alumno interesado en este tipo de técnicas puede cursar la asignatura "Métodos Probabilistas" perteneciente a la línea curricular del master en Inteligencia Artificial Avanzada. Finalmente, sólo se recomienda la lectura del capítulo 12.
La decisión de no estudiar las técnicas mencionadas anteriormente, no significa que no sean técnicas importantes. Este hecho sólo obedece a que los contenidos del temario deben adecuarse a la duración del cuatrimestre. Muy al contrario, es importante dejar meridianamente claro el hecho de que no existe ninguna técnica universal capaz de resolver cualquier tarea de minería de datos. Por ello, es muy conveniente conocer el máximo de técnicas junto con sus prestaciones porque, dependiendo de las características y condiciones de contorno del problema a resolver, en muchos casos, puede simplificarse enormemente la resolución del mismo aplicando la técnica más idónea. Por ejemplo, no sería muy adecuado resolver un problema de clasificación mediante redes neuronales si se está muy interesado en la interpretabilidad del modelo resultante.
Finalmente, para ampliar el tema, el alumno puede consultar las siguientes fuentes bibliográficas:
- Capítulo 3 y 4 de [Witten&Frank-05]: Hay muchas formas de representar los patrones que pueden ser descubiertos por las distintas técnicas existentes en minería de datos, y cada una dicta la clase de técnica que debe ser usada para inferir la estructura de salida más adecuada a las características del problema a resolver. En este sentido, el capítulo 3 de esta referencia recopila y resume desde un punto de vista práctico el formato de salida de la mayoría de las técnicas estudiadas en este tema. Por otro lado, el capítulo 4 describe las ideas básicas que están detrás de las distintas técnicas usadas en minería de datos, sin profundizar en características particulares de cada una de ellas. En muchas ocasiones es importante conocer estas ideas para saber lo que realmente está ocurriendo cuando se analiza un conjunto de datos particular.
- Capítulos 5-8 de [Han&Lamber-01]: muestran una visión muy parecida a la que aquí pretendemos dar. Cada uno de los capítulos mencionados sigue una estructura común: en primer lugar aborda una tarea típica de minería de datos y, en segundo lugar, describe las técnicas que permiten implementarlas.
- Capítulos 6, 8, 9 y 10 de [Borrajo et al-06]: Aunque se presenta una visión más cercana a la implementación y a la parte algorítmica de las distintas técnicas estudiadas aquí, es altamente interesante su consulta porque a partir de la visión de la tarea de aprendizaje como un problema de búsqueda, permite caracterizar las distintas técnicas mediante un marco común que facilita la estructuración y comparación de cada una de ellas.

Tema 4: Evaluación

Objetivos:
El alumno debería adquirir a lo largo del presente tema los siguientes conocimientos y destrezas:
O.4.1: Comprensión de la necesidad de evaluar los desarrollos en el área de la Minería de Datos.
O.4.2: Descripción matemática y cualitativa de las consecuencias de la nula o incorrecta evaluación de los modelos.
O.4.3: Comprensión de los diversos parámetros manejados en la evaluación de diferentes metodologías.
O.4.4: Conocimiento de las diferentes técnicas de evaluación, de las ventajas de cada una de ellas y su justificación estadística.
O.4.5: Capacidad de aplicar las diferentes técnicas explicadas empleando software convencional del área o (preferible, aunque no necesariamente) codificando él mismo los desarrollos.
O.4.6: Comprensión de las diferencias entre las técnicas de evaluación en clasificación, regresión y agrupamiento.
O.4.7: Capacidad de análisis crítico de artículos recientes en el área de la evaluación de modelos y de búsqueda bibliográfica de fuentes complementarias para contraste o fundamentación.

Orientaciones:
Nuestra recomendación es comenzar con la lectura del capítulo 17 del texto base. Éste cubre de forma parcial pero sencilla y clara los apartados del tema y da una visión global del problema abordado en este tema. Una vez que hayamos concluido la lectura de dicho capítulo, el estudiante debe proceder a la lectura del apartado 2.2.2 del libro "Sistemas Basados en el Conocimiento II: Introducción a la Neurocomputación". En él se da una visión algo más detallada de las componentes del error de clasificación/regresión denominadas sesgo y varianza. Si el estudiante lo considera oportuno, puede encontrar en el epígrafe 2.2.3 del mismo texto, una exposición del método de estimación del error denominado validación cruzada que ya habrá visto en el capítulo 17 del texto base, así como una exposición de una técnica denominada regularización que, como la validación cruzada, tiene como objetivo minimizar el impacto del sobreentrenamiento en el error final del modelo (disminuir la varianza).
A continuación, el equipo docente recomienda la lectura del artículo "Estimating replicability of classifier learning experiments" para abordar la sección 4 de este tema, que no está cubierta en el capítulo 17 del texto base. Como el estudiante podrá comprobar, se trata de un artículo reciente (2004) publicado en uno de los congresos más importantes del área. La lectura del artículo puede suponer alguna dificultad para aquellos estudiantes que no estén familiarizados con las técnicas estadísticas básicas de contraste de hipótesis. En particular, el artículo cita los tests t de Student y de Wilcoxon. Cualquier texto de iniciación a la estadística le proporcionará sencillas descripciones de estos tests. En caso de no disponer de ninguno, el estudiante puede consultar las entradas correspondientes en la enciclopedia matemática wolfram o en la wikipedia que, como el estudiante podrá comprobar, se ha mantenido estable en los últimos años. El artículo de Bouckaert se centra en su segunda mitad en el estudio de la replicabilidad de las diferentes formas de estimar el error de un modelo. Esta segunda mitad es menos relevante para el estudio de esta sección del tema en la medida en que el equipo docente lo considera una cuestión avanzada. En cualquier caso, recomendamos al alumno su lectura superficial.
Finalmente, el capítulo 19 del texto base cubre el último apartado del tema. Con su lectura el equipo docente da por concluido el estudio del tema. Por supuesto, todo lo anterior constituye sólo un itinerario recomendado de seguimiento de la bibliografía. El alumno puede, si lo considera oportuno, reordenar la secuencia de lecturas para adecuarla a sus hábitos de estudio o buscar fuentes alternativas/complementarias de información. La estrategia diseñada para el seguimiento de este tema consiste en dividir su estudio en dos fases alternas. En la primera fase, se tratan los fundamentos bien asentados de la disciplina según han sido expuestos en el texto base de la asignatura (temas 17 y 19 y apartado 2.2.2 del libro de SBC II). En la segunda fase se tratan temas avanzados y de actualidad en el área a través de la bibliografía científica propuesta.

Tema 5: Implantación e impacto de la minería de datos

Objetivos:
Son varios los objetivos que se pretenden alcanzar con el estudio del presente tema:
O.5.1: Concretar aquellos aspectos relevantes necesarios para decidir o no la implantación de un programa de minería de datos.
O.5.2: Introducir al alumno en la metodología empleada en la construcción de un programa de minería de datos.
O.5.3: Dar a conocer el impacto de la minería de datos en distintos ámbitos: social, ético y legal.
O.5.4: Plantear y conocer los nuevos retos a los que se enfrenta actualmente la minería de datos.

Orientaciones:
La idea es comenzar con una descripción de los aspectos más relevantes necesarios para poner en marcha un Programa de Minería de Datos (PMD) en una posible Organización o empresa. Para ello, será conveniente responder un protocolo de preguntas, cuyas respuestas irán guiando la construcción de dicho programa. La respuesta a una de estas preguntas será crucial: la de la necesidad o no de crear en la organización una sección o departamento dedicado a realizar MD. Por tanto, se empezará estudiando una serie de pautas que ayuden a responder, de la forma más eficaz posible, a las siguientes preguntas: cuándo es conveniente implantar un PMD, con qué grado de autosuficiencia, qué integración es necesaria con otros subsistemas de la organización y qué recursos humanos y materiales son necesarios. Hay que tener en cuenta que el concepto de Organización no queda restringido al de la gran multinacional. Se verá cómo la minería de datos puede tener también cabida, no sólo en la pequeña y mediana empresa, sino en el ámbito personal. Para finalizar, se abordarán algunas cuestiones finales relativas al impacto social de la minería de datos y los nuevos retos que se le plantea.
Teniendo en cuenta que los capítulos 22 y 23 del libro de referencia, indicado en la bibliografía básica [Hernández et al-04], abarcan todos los contenidos de este tema (secciones 5.1 y 5.2, respectivamente), su estudio se realizará atendiendo a las siguientes indicaciones.
La sección 5.1.1 (epígrafes 21.1 y 21.2 del libro de texto) tratará una serie de aspectos prácticos a tener en cuanta a la hora de decidir cuándo implantar un PMD en una organización. Desde este punto de vista, es importante resaltar que, en muchos casos, esta decisión no es una cuestión de tamaño de volumen de negocio de la organización, sino que más bien depende de si diariamente se toman decisiones importantes sobre un entorno cambiante y de que exista una cierta tradición de informatización y de gestión de los datos de la organización (los datos son la materia prima de la MD). Una vez se haya respondido afirmativamente a la pregunta de implantar un PMD, el paso siguiente, sección 5.1.2, es llevarlo a cabo. Afortunadamente, existen estándares metodológicos que nos pueden ayudar en este proceso. En concreto, uno de los más extendidos, el denominado CRISP-DM, establece una metodología que descompone el proceso en una serie de fases y subfases, descritas en términos de sus entradas y salidas, de sus objetivos y de la relación existente entre cada una de ellas. El estudio de esta sección se realizará a partir del epígrafe 22.3 pero, no obstante, el alumno también podrá acceder a la documentación oficial relacionada con el la metodología CRISP-DM para ampliar detalles. En las secciones 5.1.3 y 5.1.4, se considerarán distintos aspectos muy importantes relacionados con el éxito final de la implantación de un PMD. Concretamente, en la primera se tratará la integración de los modelos y patrones aprendidos en el proceso de minería de datos con las distintas herramientas ya existentes en el seno de la organización (epígrafe 22.4) y, en la segunda, cómo estimar adecuadamente los recursos materiales y humanos necesarios para ponerlo en práctica (epígrafe 22.5). El primer aspecto es relevante porque, de no aprovecharse la nueva información obtenida por el PMD y, además, de no hacerlo eficientemente, todo el esfuerzo habría sido inútil y costoso. Igualmente, el segundo aspecto mencionado también alcanza gran relevancia porque son los recursos materiales y humanos las dos partidas más importantes del coste de un PMD.
Analizados los distintos aspectos prácticos relacionados con la implantación de un PMD en una organización, la sección 5.2 pretende abandonar la idea de minería de datos como un proceso de ingeniería e invita al alumno a adentrarse en los retos que actualmente, en el terreno práctico, le está planteando esta disciplina a la comunidad científica y técnica. Incluso en el área del Derecho. Para ello, recurriremos por completo al capítulo 23 del libro de texto. Así, en la sección 5.2.1 (epígrafe 23.1) se analizará el impacto social de la minería de datos en distintos ámbitos: medicina, biología, banca, marketing, seguridad, fraude, etc. Las cuestiones éticas y legales surgidas como consecuencia de aplicar minería de datos, sección 5.2.2, utilizando información privada personal se estudiarán a partir del epígrafe 23.2. Finalmente, la sección 5.2.3 (epígrafes 23.4 y 23.5) introducirá al alumno a las distintas tendencias y soluciones aportadas por la comunidad científica a los retos actuales planteados en el mundo de la minería de datos.

3  Actividades y plan de trabajo

3.1  Actividades prácticas programadas


Tema 1
Sin actividades.

Tema 2:

Actividad 2.1: Ejercicios de simulación
El estudiante generará un conjunto de datos artificial compuesto por 100 instancias caracterizadas por una variable relevante en sentido fuerte, tres variables relevantes en sentido débil y una variable totalmente irrelevante. Esta última se puede generar mediante números aleatorios extraídos de una distribución de probabilidad uniforme o normal (gaussiana). Como indicación sugerimos extender el ejemplo XOR a tres dimensiones. A continuación, aplicará diferentes técnicas de selección de variables disponibles en weka (un mínimo de tres de filtrado, el análisis de componentes principales y la técnica de envoltura, WrapperSubsetEval, con BayesNet como clasificador y empleando todos los valores por defecto, salvo el número máximo de padres que se debe modificar a 3).

Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:
1.Descripción del experimento.
2.Tabla de resultados obtenidos para las 5 aproximaciones.
3.Discusión de los resultados.

Actividad 2.2: Estudio de bibliografía avanzada
En esta actividad el alumno deberá elegir uno de los artículos del especial del Journal of Machine Learning Research sobre "Variable and Feature Selection" (http://jmlr.csail.mit.edu/papers/special/feature03.html).
La lista de artículos del número especial es la siguiente:

1.Distributional Word Clusters vs. Words for Text Categorization (Kernel Machines Section). Ron Bekkerman, Ran El-Yaniv, Naftali Tishby, Yoad Winter.
2.Extensions to Metric Based Model Selection.Yoshua Bengio, Nicolas Chapados.
3.Dimensionality Reduction via Sparse Support Vector Machines. Jinbo Bi, Kristin Bennett, Mark Embrechts, Curt Breneman, Minghu Song.
4.Benefitting from the Variables that Variable Selection Discards. Rich Caruana, Virginia R. de Sa.
5.A Divisive Information Theoretic Feature Clustering Algorithm for Text Classification. Inderjit S. Dhillon, Subramanyam Mallela, Rahul Kumar.
6.An Extensive Empirical Study of Feature Selection Metrics for Text Classification. George Forman.
7.Sufficient Dimensionality Reduction. Amir Globerson, Naftali Tishby.ç
8.Grafting: Fast, Incremental Feature Selection by Gradient Descent in Function Space. Simon Perkins, Kevin Lacker, James Theiler.
9.Variable Selection Using SVM based Criteria. Alain Rakotomamonjy.
10.Overfitting in Making Comparisons Between Variable Selection Methods. Juha Reunanen.
11.MLPs (Mono Layer Polynomials and Multi Layer Perceptrons) for Nonlinear Modeling. Isabelle Rivals, Léon Personnaz.
12.Ranking a Random Feature for Variable and Feature Selection. Hervé Stoppiglia, Gérard Dreyfus, Rémi Dubois, Yacine Oussar.
13.Feature Extraction by Non Parametric Mutual Information Maximization.Kari Torkkola.
14.Use of the Zero Norm with Linear Models and Kernel Methods. Jason Weston, André Elisseef, Bernhard Schölkopf, Mike Tipping.

Algunos de los artículos de la lista anterior presuponen conocimientos sobre técnicas que se describirán en detalle en el tema 3. Los alumnos que opten por este tipo de artículos deberán hacer el esfuerzo adicional de adelantarse al temario y estudiar la técnica en cuestión antes de comentar el artículo. Por ello, recomendamos una lectura de todos los abstracts o resúmenes y una selección cuidadosa del artículo sobre el que tratará el entregable.

Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

1.Una justificación breve sobre los motivos para la elección del artículo.
2.Un resumen de la aportación novedosa frente a trabajos anteriores citados en el propio artículo. ¿Qué ventajas comparativas presenta la contribución?
3.Un estudio sobre el ámbito de aplicabilidad de las conclusiones obtenidas (para qué tipo de datos/algoritmos está especialmente indicado, limitaciones, en qué situaciones está contraindicado...).
4.Un estudio de la bibliografía reciente del autor y el área. El estudiante puede hacer el estudio comenzando con una búsqueda por autor en el servidor citeseer (http://citeseer.ist.psu.edu/). Con los resultados, deberá realizar una selección de publicaciones relacionadas con el tema de la selección de atributos y, en particular, con la aproximación elegida, y analizar su impacto medido por el número de citaciones. Finalmente, el informe deberá recoger publicaciones de otros autores relacionadas con el artículo original, de publicaciones de relevancia y los mayores índices de citación encontrados.

Bibliografía asociada:
-Sistemas Basados en el Conocimiento II. Introducción a la Neurocomputación. Disponible en: http://www.ia.uned.es/asignaturas/sbc2/sbc2/libro/book.pdf
-JMLR Special Issue on Variable and Feature Selection. Artículos disponibles en http://jmlr.csail.mit.edu/papers/special/feature03.html
-Kohavi, R. & John, G.H., Wrappers for Feature Subset Selection (1997). Disponible en: http://citeseer.ist.psu.edu/13663.html
-Para las definiciones estadísticas comunes o de teoría de la información (información mutua, ganacia de información o entropía cruzada) se pueden consultar las entradas correspondientes de la enciclopedia matemática on-line Mathworld http://mathworld.wolfram.com de la wikipedia, http://en.wikipedia.org/

Tema 3
Se propone realizar un conjunto de actividades prácticas relacionadas con la resolución de diferentes tipos de problemas de minería de datos. El alumno se familiarizará así con el uso de las distintas técnicas estudiadas en este tema. Para ello, se utilizará Weka, un entorno que proporciona una interfaz gráfica desde la cual se puede acceder a una colección de algoritmos estándares de aprendizaje automático para tareas de data mining. Además, soporta también herramientas para procesado y visualización de datos. Finalmente, una característica destacable de Weka es que es de uso libre y código abierto (open source) bajo licencia GNU y está desarrollada enteramente en Java (multiplataforma). El conjunto de prácticas a realizar están contenidas en un documento accesible y descargable desde el curso de la asignatura ubicado en la plataforma aLF y giran en torno a los siguientes contenidos:

Actividad 3.1: Reglas de asociación.
Actividad 3.2: Clasificadores Bayesianos.
Actividad 3.3: Árboles de Decisión.
Actividad 3.4: Arboles de Regresión y de modelos.
Actividad 3.5: Redes Neuronales I. Clasificación
Actividad 3.6: Redes Neuronales II. Mapas Autoorganizados.
Actividad 3.7: Máquinas de Vectores Soporte.
Actividad 3.8:Clustering: Algoritmo K-medias.

Tema 4

Actividad 4.1: Ejercicios de simulación
El estudiante utilizará weka para generar 10 particiones de 10 bloques del conjunto de datos "iris.arff" proporcionado junto con el software de la Universidad de Waikato. Para cada partición, deberá realizar un experimento de validación cruzada con un clasificador basado en redes bayesianas y otro en árboles de decisión, y deberá ordenar los resultados de mayor a menor en una lista. Deberá promediar los resultados de cada experimento y, con las dos listas ordenadas de los promedios (una para los clasificadores bayesianos y otra para los árboles de decisión), deberá realizar un test t de Student que determine si existen diferencias estadísticas entre los resultados obtenidos.

Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

1.Descripción del experimento.
2.Tablas ordenadas de cada uno de los 10 experimentos de validación cruzada para cada clasificador.
3.Valores promediados de la tabla anterior.
4.Cálculo de la tasa media de error y su varianza para cada clasificador y resultado del test de Student.
La distribución t de Student se puede obtener de muchas fuentes. En particular, el estudiante puede hallarla implementada en la librería gsl de GNU para c/c++.

Actividad 4.2: Estudio de bibliografía avanzada
En esta actividad el alumno debe leer el texto "ROC graphs: Practical considerations for Researchers". En él se expone una aproximación alternativa/complementaria a la forma habitual de evaluar los modelos (a través de la tasa de errores de clasificación, la suma cuadrática de los errores de regresión o medidas equivalentes) denominada AUC (Area Under Curve). La curva a la que hace referencia el nombre es la Receiver Operating Characteristic Curve y el mismo artículo expone sus fundamentos (procedentes de Teoría de la Señal) y la forma de calcularla.

Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:
1.Un resumen de los principios del análisis AUC/ROC
2.Un análisis de las diferencias con el método clásico de estimar el error de clasificación/regresión. Ventajas/inconvenientes de cada aproximación.
3.Un estudio de la bibliografía reciente del autor y el área. El estudiante puede hacer el estudio comenzando con una búsqueda por autor en el servidor citeseer. Con los resultados, deberá realizar una selección de publicaciones relacionadas con el tema de los análisis AUC/ROC y analizar su impacto medido por el número de citaciones. Finalmente, el informe deberá recoger publicaciones de otros autores relacionadas con el artículo original, de publicaciones de relevancia y los mayores índices de citación encontrados.

Bibliografía asociada
-Sistemas Basados en el Conocimiento II. Introducción a la Neurocomputación. Disponible en: http://www.ia.uned.es/asignaturas/sbc2/sbc2/libro/book.pdf
-Fawcett, T. (2003). ROC Graphs: Notes and practical considerations for researchers. Tech Report HPL-2003-4, HP Laboratories. Disponible en: http://www.hpl.hp.com/personal/Tom Fawcett/papers/ROC101. pdf
-Bouckaert, R. (2004). Estimating Replicability of Classifier Learning Experiments, ICML, Disponible en: http://www.aicml.cs.ualberta.ca/_ban_04/icml/pages/papers/61.pdf
-Para el test pareado de Student se puede consultar el texto .Estadística. Modelos y Métodos"de Daniel Peña Sánchez de Rivera. o las entradas correspondientes de la enciclopedia matemática on-line Mathworld http://mathworld.wolfram.com/Pairedt-Test.html o de la wikipedia, http://en.wikipedia.org/wiki/Student's_t-test.

Tema 5

Actividad 5.1. La metodología CRISP-DM
Visitar la página web relativa al proyecto CRISP-DM. Descargar y leer el documento relativo al modelo y guía de referencia de este estándar.
http://www.crisp-dm.org/index.htm

Entregables:
El alumno deberá realizar un conjunto de transparencias (tipo Powerpoint) en el que se resuma los fundamentos y las distintas fases de esta metodología.

Actividad 5.2. MD y escalabilidad: estudio de bibliografía avanzada
Realizar un análisis de cuáles de los algoritmos de minerías de datos estudiados a lo largo de este curso escalan bien a medida que se incrementa el volumen de datos.

Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 en donde se realice un análisis y resumen del comportamiento de distintos algoritmos ante el problema de la escalabilidad (ver referencia [Han et al-96] como punto de partida,) y de las distintas estrategias utilizadas en el campo de la minería de datos para abordarlo de forma eficiente (utilizar la referencia [Provost&Kolluri-99] como punto de partida).

Actividad 5.3. Minería de datos distribuida: Estudio de bibliografía avanzada
La mayoría de las técnicas de minería de datos vistas a lo largo de este curso aplican a ficheros de datos planos o bases de datos relacionales. Sin embargo, tal y como se ha estudiado en el presente tema, debido a la existencia de datos heterogéneos, de múltiples fuentes o almacenes de datos, y de la interconectividad con la web, ha cobrado recientemente importancia una nueva aproximación: la minería de datos distribuida.

Entregables:
Aunque este tipo de minería es un campo relativamente nuevo, se propone hacer una búsqueda bibliográfica sobre tipos de arquitecturas utilizadas para abordar la minería de datos distribuida y sobre las distintas técnicas que ésta utiliza. Realizar un informe sobre el estado actual del tema. Un punto de partida podría ser la referencia [Park&Kargupta-02]. También dispone en http://www.cs.umbc.edu/hillol/DDMBIB/ de un repositorio de bibliografía relacionada con este tema.

Actividad 5.4 (optativa). Difusión y uso de la MD: Estudio
de bibliografía avanzada
Un asunto importante a la hora de utilizar la información resultante de aplicar un programa de minería de datos es el de cómo integrar sus salidas en otro tipo de herramientas. Por ejemplo, cómo hacer un uso eficiente de los patrones o modelos aprendidos durante el proceso de minería en herramientas de toma de decisión. Según lo estudiado en este tema, existen distintas estrategias que abordan esta cuestión (reglas de actividad (triggers), integración de los modelos aprendidos en el sistema de gestión de base de datos, la utilización de estándares para el intercambio de modelos o el uso de protocolos basados en XML).

Entregables:
Se propone al alumno analizar en más profundidad alguna de estas soluciones y crear un documento de 3 a 6 páginas A4 en el que se recoja sus características, su operativa, ámbito de aplicación y grado de aceptación.

Actividad 5.5. Aplicaciones de la MD
La formación de un especialista en minería de datos debería no sólo atender a la evolución de sus distintos aspectos teóricos, sino complementarla continuamente con la consulta de ejemplos de aplicación. El conocimiento de lo ya solucionado puede ser de gran ayuda a la hora de abordar nuevos problemas en contextos similares. El alumno puede consultar alguno de los siguientes libros, donde se recopila información de soluciones de problemas abordados mediante minería de datos en diferentes campos.

-CRM y marketing [Berry&Linof-00]
-Telecomunicaciones [Mattison-97]
-Aplicaciones de ingeniería y científicas [Grossman et al-01]
-Medicina [Krzysztof-01, IBM-01]
-Finanzas, gubernamentales, seguros, etc. [Klösgen&Zytkow-02]
-Evidentemente, el abanico de referencias es muchísimo más extenso. Sólo en Internet se puede bucear en un amplio repertorio de trabajos publicados que están relacionados con aspectos prácticos y aplicados de la minería de datos.

Actividad 5.3. La MD: cuestiones éticas y legales
En el contexto de las cuestiones éticas y legales surgidas por el potencial buen uso o mal uso de la minería de datos, se propone al alumno que dé un vistazo a las dos directivas encargadas de regular, tanto a nivel nacional como europeo, el tema de la protección de datos personales. Se recogen aquí dos enlaces desde donde puede consultarse:

-La Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal:
-http://civil.udg.es/normacivil/estatal/persona/PF/Lo15-99.htm
-La Directiva 95/46/EC, del Parlamento Europeo, de 23 de noviembre de 1995, conocida como European Data Protection Directive:
-http://www.cdt.org/privacy/eudirective/EU_Directive_.html

Bibliografía asociada:
[Berry&Linof-00] Berry, M., Linoff, G., Mastering Data Mining: The Art and Science of Customer Relationship Management. John Wiley, 2000.
[Grossman et al-01] Grossman, R., Kamath, C., Kegelmeyer, W., Kumar, V., Namburu, R. (eds.). Data Mining for Scientific and Engineering Applications, Kluwer, September, 2001.
[Han et al-96] J. Han, Y. Fu, W. Wang, J. Chiang, W. Gong, K. Koperski, D. Li, Y. Lu. DBMiner: A System for Mining Knowledge in Large Relational Databases, in E. Simoudis, J. Han, U. Fayyad, (eds.). Proc. Intl. Conf. on Data Mining and Knowledge Discovery, pp. 250-255, AAAI Press, 1996.
[IBM-01] IBM Redbooks Mining Your Own Business in Health Care Using DB2 Intelligent Miner for Data, IBM Corp, 2001.
[Klösgen&Zytkow-02] W. Kloesgen, JM Zytkow (Eds.), Handbook of data Mining and Knowledge Discovery. Oxford University Press, 2002.
[Krzysztof-01] Krzysztof J. (ed.), Medical Data Mining and Knowledge Discovery. Physica-Verlag, Springer, New York, 2001.
[Mattison-97] R. Mattison, Data Warehousing and Data Mining for Telecommunications. Artech House Computer Science Library, 1997
[Provost&Kolluri-99] F. Provost, V. Kolluri. A survey of methods for scaling up inductive algorithms. Data Mining and Knowledge Discovery, 3(2), pp. 131-169, 1999.
[Park& Kargupta-02] B. Park and H. Kargupta. Distributed Data Mining: Algorithms, Systems, and Applications. In Nong Ye, editor, Data Mining Handbook, pages 341-358. IEA, 2002
.

4  Otras actividades prácticas programadas

Si las hubiera, se indicarían a lo largo del curso.

4.1  Plan de trabajo

Se han agrupado las actividades que se realizan con ordenador bajo el epígrafe de horas prácticas y las de lectura de bibliografía avanzada como otras actividades.
Se sugiere con dicho cronograma que es conveniente abordar primero las cuestiones teóricas leyendo el texto base de la asignatura. A continuación, consideramos conveniente consolidar los conocimientos adquiridos mediante experimentos prácticos con el ordenador, no sólo siguiendo las instrucciones del equipo docente sino explorando otras posibilidades que puedan quedar fuera del diseño de las prácticas. En el caso del tema 3, recomendamos alternar teoría y práctica puesto que las diferentes metodologías abordadas no siempre guardan nexos relacionales claros entre sí, y es preferible reforzar lo aprendido antes de pasar a otra metodología distinta. En la práctica, esto implica que las prácticas con redes neuronales se realicen inmediatamente después de su estudio teórico y antes de pasar a la siguiente técnica. Finalmente, recomendamos, en aquellos temas en los que existan, realizar las actividades de lectura avanzada y búsqueda bibliográfica.
Las estimaciones del equipo docente pretenden ser una aproximación bona fide al número medio de horas que necesitan los alumnos para llevar a cabo las tareas propuestas. Como toda media, es sólo un valor esperado: unos alumnos tardarán más otros menos. El alumno tiene libertad y criterio para reinterpretar dicho cronograma y, sobre todo, para hacer llegar al equipo docente sus impresiones personales sobre dicha secuenciación. El equipo docente se compromete a incorporar esa realimentación por parte del alumno al diseño del curso en años posteriores.
MesActividadH. estudioH. prácticaH. otras actividades
NoviembreTema12
Tema 210
Actividad 2.15
DiciembreActividad 2.213
EneroTema 38
Actividades 3.15
Actividades 3.25
FebreroTema 38
Actividades 3.35
Actividades 3.45
MarzoTema 38
Actividades 3.55
Actividades 3.65
AbrilTema 410
Actividad 4.110
MayoActividad 4.212
Tema 59
Actividad 5.15
JunioActividad 5.210
Actividad 5.210

5  Evaluación

La evaluación global de la asignatura se hará mediante el seguimiento individualizado del progreso de cada alumno juzgado principalmente por la calidad de las actividades realizadas y por su participación en el curso a través de la plataforma alF.

Reseña del profesorado

CARMONA SUÁREZ, ENRIQUE:
Doctor por la UNED (Departamento de Inteligencia Artificial, año 2003). Desde ese mismo año es profesor titular de escuela universitaria en dicho departamento, en el que imparte docencia en las carreras de Ingeniería Técnica en Informática de Sistemas y de Ingeniería Informática. Sus principales líneas de investigación se centran en el área del aprendizaje automático y en la aplicación de sus distintas técnicas (algoritmos evolutivos, redes neurofuzzy árboles de decisión, etc.) a distintos campos: minería de datos, medicina, visión artificial y video-vigilancia.
e-mail: ecarmona@dia.uned.es
Web personal:http://www.ia.uned.es/personal/ejcarmona

SARRO BARO, LUIS MANUEL:
Doctor en Física por la Universidad Autónoma de Madrid, departamento de Física Teórica (1998). Desde su incorporación a la UNED ha venido aplicando conceptos de Aprendizaje por Máquinas y Reconocimiento de Patrones en el ámbito de la Astrofísica, en particular, para tareas de descubrimiento de conocimiento en las grandes bases de datos científicas generadas como resultado de misiones espaciales. En la actualidad se encuentra involucrado en la coordinación de varios bloques de trabajo para las misiones CoRoT y GAIA y participa en proyectos de investigación como el Observatorio Virtual Español y ASTRID.
e-mail: lsb@dia.uned.es
Web personal:http://www.ia.uned.es/personal/lsb

Vista para imprimir