|
|
 |
 |
MINERIA DE DATOS
Profesorado
| Coordinador: Enrique J. Carmona(Dpto. Inteligencia Artificial, UNED) |
| Profesores: |
| Luis Sarro Baro. (Dpto. inteligencia Artificial, UNED) |
|
|
|
|
Ficha técnica:
| Tipo | Optativa |
|
| Cuatrimestre | Primero |
| Créditos/horas totales | 6/150 |
| Horas de estudio teórico | 55 |
| Horas de prácticas | 50 |
| Horas complementarias | 45 |
DESCRIPCIÓN DE LA ASIGNATURA
Prerrequisitos recomendables
El alumno debe haber cursado las asignaturas de Álgebra, Análisis
Matemático y Estadística impartidas en el primer ciclo de la titulación
de Informática de la UNED o asignaturas equivalentes en otras universidades.
Objetivos generales de la materia
El presente curso pretende dar una visión panorámica de la teoría
y conceptos fundamentales utilizados en Minería de Datos (MD), del
conjunto de tareas abordadas por esta disciplina y del repertorio
de técnicas y métodos existentes que permiten resolver cada una de
estas tareas.
Destrezas y competencias
-Conocer las relaciones existentes de la MD con otras disciplinas.
-Conocer las distintas fases implicadas en un proyecto de minería
de datos y las relaciones existentes entre ellas.
-Conocer y saber aplicar las distintas técnicas existentes en MD para
realizar preparación de datos.
-Distinguir entre tarea, técnica y método en MD.
-Saber relacionar las distintas tareas propias de MD con las técnicas
que permiten resolverlas.
-Conocer que tipo de tarea es capaz de abordar cada técnica de MD.
-Conocer varios tipos de algoritmos o métodos para cada técnica de
MD.
-Dominar, tanto desde un punto de vista teórico como práctico, los
distintas técnicas/algoritmos utilizados en MD.
-Aplicar técnicas de evaluación adecuadas en función del tipo de modelo
a evaluar.
-Practicar con algunas de las herramientas software de minería de
datos.
-Afrontar la solución de un proyecto de MD siempre desde un punto
de vista metodológico o ingenieril, nunca como un arte.
-Conocer y aplicar las metodologías de MD dedicadas a la creación
y seguimiento de un proyecto de minería de datos.
-Saber responder a la pregunta de: ¿Cuándo implantar un proyecto de
minería de datos en una organización?
-Conocer las repercusiones de la MD en distintos campos: social, legal
y ético.
-Conocer los retos que plantea la MD actualmente y las tendencias
futuras.
Contextualización de la materia en el conjunto del Master
Esta asignatura es común a los dos programas de Master de este posgrado.
Así, dentro de la titulación del Master "Lenguajes y Sistemas
Informáticos" se encuadra dentro del módulo denominado ESP-LSI-1:
Tecnologías del lenguaje en la web?. De otra lado, dentro del programa
de Master "IA Avanzada. Fundamentos Métodos y Aplicaciones"
pertenece al módulo denominado "ESP-IA.1: Sistemas Inteligentes
de diagnóstico, planificación y control".
Existen distintas asignaturas en el resto del programa de ambos master
relacionadas con esta asignatura. Así, "Métodos de Aprendizaje
en IA" aborda, además de otras técnicas de aprendizaje, la
mayoría de las técnicas que se estudiarán en este tema y que básicamente
se encuadran dentro del denominado paradigma de aprendizaje inductivo.
El alumno que haya cursado dicha asignatura tendrá mucho camino adelantado
al abordar esta asignatura. No obstante, hay que tener en cuenta que
la visión que allí se da está orientada eminentemente a la parte algorítmica
y de implementación (programación) de cada técnica. Aquí, el enfoque
está más orientado a su uso, independientemente de la implementación
particular. Es decir, consideraremos el conjunto de técnicas como
una biblioteca de componentes reutilizables, cada uno de los cuales
será seleccionado de acuerdo a las características de la tarea que
se requiere resolver. En otros casos, esta asignatura puede servir
de introducción a otras asignaturas de este programa de posgrado,
tales como "Descubrimiento de información en textos"
o "Minería en la Web", ambas pertenecientes al módulo
"ESP-LSI-1".
1 Medios de estudio
1.1 Metodología docente
La general del programa de postgrado adaptada a las directrices del
EEES, de acuerdo con el documento del IUED. Junto a las actividades
y enlaces con fuentes de información externas, existe material didáctico
propio preparado por el equipo docente. La asignatura no tiene clases
presenciales. Los contenidos teóricos se impartirán a distancia, de
acuerdo con las normas y estructuras de soporte telemático de la enseñanza
en la UNED.
1.2 Material de estudio
El material docente del presente curso está compuesto por el texto
base indicado en la bibliografía básica, por textos alternativos indicados
en la bibliografía general de consulta (ver epígrafe 1.15), por los
artículos referenciados en las actividades y en los epígrafes "Orientaciones",
pertenecientes al desglose que se hace más adelante de cada tema por
separado y, finalmente, por aquellas herramientas software indicadas
en algunas de las actividades a realizar.
El texto base será el hilo conductor para el estudio de los contenidos
de este curso. No obstante, dado el carácter introductorio de dicho
texto, existirán algunas cuestiones que será necesario ampliar mediante
la lectura de bibliografía alternativa.
Tratándose de un master orientado a la investigación, las actividades
de aprendizaje se pueden estructurar tanto desde un punto de vista
teórico como práctico. En el primer caso, girarán en torno al estado
del arte en cada una de las materias del curso y, en el segundo caso,
lo harán en relación con la búsqueda de soluciones de distintos subproblemas
propios del campo de la MD.
Bibliografía Básica:
-J. Hernández Orallo, M.J. Ramírez, C. Ferri, Introducción a la Minería
de Datos, Pearson-Prentice Hall, Madrid, 2004.
1.3 Materiales y recursos de apoyo
Además de la bibliografía indicada anteriormente, los materiales de
apoyo para la realización de las prácticas serán los siguientes:
De manera general, las prácticas se realizarán con el programa Weka,
descargable de la dirección http://www.cs.waikato.ac.nz
Excepcionalmente, las prácticas sobre redes neuronales se realizarán
con:
-SNNS (http://www-ra.informatik.uni-tuebingen.de/SNNS/) o
-JavaNNS (http://wwwra.informatik.uni-tuebingen.de/software/JavaNNS/)
y
-SOMPAK (http://www.cis.hut.fi/research/som_lvq_pak.shtml).
Los ficheros con los datos de trabajo serán proporcionados por el
equipo docente a través de la plataforma alF o formarán parte de la
distribución del software empleado. Si no se indica que la actividad
correspondiente haya de ser realizada con un conjunto de datos particular,
el alumno podrá elegir un fichero de casos del repositorio de la Universidad
de California Irvine http://kdd.ics.uci.edu/.
La plataforma de e-Learning aLF, proporcionará el adecuado interfaz
de interacción entre el alumno y sus profesores. Esta plataforma colaborativa
permite impartir y recibir formación, gestionar y compartir documentos,
crear y participar en comunidades temáticas, así como realizar proyectos
online.
Se ofrecerán las herramientas necesarias para que, tanto el equipo
docente como el alumnado, encuentren la manera de compaginar tanto
el trabajo individual como el aprendizaje cooperativo.
1.4 BIbliografia general de consulta
-J. Han, M.Kamber, Data Mining: Concepts and Techniques. Morgan Kaufmann
Publishers, 2001.
-H. Witten, E. Frank, Data mining: Practical Machine Learning Tools
and Techniques (Second Edition). Morgan Kaufmann Publishers, 2005.
-B.Pyle, Data Preparation for Data Mining. Morgan Kaufmann Publishers,
1999
-C.M. Bishop, Pattern Recognition and Machine Learning, Springer,
2006
Además, véase la incluida en la descripción de las actividades.
1.5 Tutorización
La tutorización de los alumnos se llevará a cabo exclusivamente a
través de la plataforma de e-learning Alf.
2 Estructura del curso
2.1 Estructura y contenido teórico
1.INTRODUCCIÓN
1.1.El concepto de Minería de Datos
1.2.La minería de datos y el proceso de descubrimiento de conocimiento
a partir de datos
1.3.Relación con otras disciplinas
1.4.Aplicaciones
1.5.Fases del proceso de extracción de conocimiento a partir de datos
2.PREPARACIÓN DE DATOS
2.1.Consideraciones previas generales. Los almacenes de datos.
2.2.Técnicas sencillas de preprocesado
2.2.1.Compleción (datos faltantes)
2.2.2.Limpieza de errores
2.2.3.Transformación de atributos
2.2.4.Escalado
2.2.5.Discretización
2.2.6.Numerización
2.3.Técnicas de reducción de la dimensionalidad I: Análisis de Componentes
Principales.
2.4.Técnicas de reducción de la dimensionalidad II: Métodos de Filtrado
y Envoltura
3.TAREAS Y TÉCNICAS DE MINERÍA DE DATOS
3.1.Tareas en minería de datos.
3.2.Correspondencia entre métodos y tareas.
3.3.Caracterización de las técnicas de minería de datos.
3.4.Técnicas de Minería de Datos
3.4.1.Métodos estadísticos.
3.4.2.Reglas de asociación y dependencia.
3.4.3.Métodos Bayesianos.
3.4.4.Árboles de Decisión y sistemas de reglas.
3.4.5.Redes Neuronales Artificiales.
3.4.6.Máquinas de vectores soporte.
3.4.7.Extracción de conocimiento con algoritmos evolutivos y reglas
difusas.
3.4.8.Métodos basados en casos y vecindad.
4.EVALUACIÓN
4.1.Consideraciones generales.
4.2.Técnicas básicas de evaluación de clasificadores
4.2.1.Medidas de la calidad de un clasificador: la tasa de errores
4.2.2.La descomposición del error en sesgo y varianza: el concepto
de generalización
4.2.3.El sobreentrenamiento
4.2.4.Repetibilidad estadística: la validación cruzada.
4.3.Aspectos específicos de la evaluación de los diferentes clasificadores
estudiados
4.4.Técnicas estadísticas de comparación de clasificadores
4.5.Medidas de calidad de agrupamiento
4.6.Interpretación, difusión y uso de modelos
5.IMPLANTACIÓN E IMPACTO DE LA MINERÍA DE DATOS
5.1.Implantación de un Programa de Minería de Datos (PMD) en una organización
5.1.1.Cuándo implantar un PMD: Necesidades y objetivos
5.1.2.Fases de un PMD: Estándar CRISP-DM
5.1.3.Integración de un PMD dentro de una organización
5.1.4.Recursos necesarios
5.2.Repercusiones y retos de la minería de datos
5.2.1.Impacto social
5.2.2.Cuestiones éticas y legales
5.2.3.Problemas y soluciones: Tendencias futuras
2.2 Objetivos por tema y orientaciones breves
Tema 1: Introducción
Objetivo:
El carácter introductorio de este tema pretende como principal objetivo
dar una panorámica general de los distintos aspectos relacionados
con la minería de datos. Este objetivo global puede descomponerse
en los siguientes objetivos más concretos:
O.1.1: Conocer los distintos tipos de datos que se manejan
en MD.
O.1.2: Conocer los distintos tipos de modelos que se pueden
aprender.
O.1.3: Conocer la relación de la MD con otras disciplinas.
O.1.4: Conocer los diferentes dominios de aplicación de la
MD.
O.1.5: Relacionar el concepto de Descubrimiento de Conocimiento
a partir de Datos con el de Minería de Datos.
O.1.5: Conocer las distintas fases implicadas en el proceso
de descubrimiento de conocimiento a partir de datos.
Orientaciones:
Teniendo en cuenta que los capítulos 1 y 2 del texto base, abarcan
todos los contenidos de este tema, su estudio se realizará atendiendo
a las siguientes indicaciones.
En primer lugar, se empezará definiendo el concepto de minería de
datos y el contexto que la rodea (sección 1.1). Así, se comentarán
algunos aspectos relacionados con las necesidades que han dado lugar
a su aparición y a su desarrollo, la materia prima que utiliza como
entrada, es decir, los distintos tipos de datos, y el tipo de soluciones
que ofrece como salidas (patrones y modelos). Para ello, es conveniente
una lectura atenta de los epígrafes 1.1 a 1.4 del libro base. Además,
en el epígrafe 1.2, se muestran también un conjunto de ejemplos prácticos
que permiten una primera toma de contacto con distintas aplicaciones
sencillas de la minería de datos. A continuación, en la sección 1.2
se analizará la minería de datos en un contexto más amplio como es
el del proceso de descubrimiento de conocimiento a partir de datos
(Knowledge Discovery in Databases, KDD), clarificando la relación
entre ambos conceptos (epígrafe 1.5). Para acabar la descripción del
contexto que rodea a la MD, se analizará, en la sección 1.3, su relación
con otras disciplinas (epígrafe 1.6) y, en la sección 1.4, se enumerará
una amplia lista de ejemplos pertenecientes a distintos dominios de
aplicación de la misma (epígrafe 1.7).
Finalmente, si se considera a la minería de datos como una de las
fases del proceso de descubrimiento de conocimiento a partir de datos,
el estudio de la sección 1.5 pretende dar una serie de nociones básicas
relacionadas con las distintas etapas que conforman la secuencia completa
de dicho proceso: Preparación de Datos, Minería de Datos, Evaluación,
Difusión y Uso de Modelos. Para ello, el alumno deberá leer detenidamente
el capítulo 2 completo del libro base. No obstante, cada una de estas
etapas se estudiarán por separado y con más detenimiento a lo largo
del curso.
Para ampliar el estudio del presente tema, el alumno puede consultar
el capítulo 1 y 2 de la referencia [Han&Kamber-01]. En el primero,
se incluye también una introducción al mundo de la minería de datos.
El segundo constituye una primera aproximación a distintos aspectos
(tipos de arquitectura, implementación, etc.) relacionados con el
uso por parte de la MD de los denominados Almacenes de Datos (Data
Warehouse).
Tema 2: Preparación de datos
Objetivos:
Los conocimientos y destrezas que el alumno debe adquirir a lo largo
del tema se detalla en la siguiente lista de objetivos:
O.2.1: El alumno debe comprender la importancia del preprocesado
de datos en el desarrollo de aplicaciones en Minería de Datos y conocer
el impacto potencial de las decisiones de dicho preprocesado en la
eficacia y eficiencia de las fases posteriores del proceso. En particular,
debe ser consciente de que no hacer preprocesado es también una decisión
de preprocesado que habitualmente tiene como consecuencia resultados
subóptimos.
O.2.2: Debe conocer las técnicas de corrección de errores
(compleción de datos, eliminación de datos exóticos, discretización
y reescalado) de los datos de partida y, de nuevo, el impacto que
tendrán sobre las etapas posteriores. Sobre todo, debe ser capaz de
sopesar en qué situaciones son necesarias estas técnicas.
O.2.3: Debe manejar con soltura conceptos como relevancia,
correlación u optimalidad de un conjunto de atributos y su relación
con el problema de la maldición de la dimensionalidad o el sobreajuste.
Debe saber evaluar la conveniencia de realizar una reducción de dimensionalidad
sobre el conjunto de datos inicial.
O.2.4: En relación con lo anterior, debe conocer la diferencia
entre las técnicas de selección de atributos por filtrado y de envoltura.
Debe saber combinar el potencial de ambas aproximaciones para obtener
conjuntos de atributos óptimos y debe conocer las diferentes posibilidades
que le ofrecen las técnicas de filtrado, incluyendo el análisis de
componentes principales.
O.2.5: Debe ser capaz de llevar a la práctica las diferentes
técnicas estudiadas en el tema con software convencional o (preferible,
pero no obligatoriamente) codificarlas él mismo.
O.2.6: Debe ser capaz de evaluar artículos recientes del
área y orientarse entre la bibliografía científica para fundamentar
y contextualizar las aportaciones de dichas publicaciones.
Orientaciones:
Siguiendo con las directrices generales del curso, el equipo docente
propone una aproximación gradual a este tema. En primer lugar, remitimos
al estudiante al texto base de la asignatura donde podrá encontrar
una introducción sencilla y clara a muchos de los aspectos tratados
en el tema. En particular, la Parte II del texto (capítulos 3, 4 y
5) cubre, si bien de forma muchas veces cualitativa, las cuatro secciones
en que hemos dividido el tema. Así, el capítulo 3 describe someramente
lo que es necesario conocer sobre los almacenes de datos. No iremos
más allá en este curso puesto que consideraciones de mayor detalle
bien caen fuera del ámbito de la asignatura, bien han sido tratados
durante los estudios de grado.
El capítulo 4 trata, de manera sencilla también, las secciones 2 y
3 de este tema. Comienza con unas consideraciones generales muy útiles
(4.1 y 4.2.1), trata los datos incompletos y las técnicas más sencillas
de compleción (4.2.3), y continúa con el filtrado de anomalías (4.2.4).
Después, en el apartado 4.3 aborda tanto el aumento como la disminución
de la dimensionalidad mediante transformaciones. La disminución de
la dimensionalidad mediante transformaciones se puede hacer de varias
maneras enumeradas en dicha sección 4.3, una de las cuales tiene una
presencia preponderante en la bibliografía científica del área: el
análisis de Componentes Principales, razón por la cual hemos decidido
concederle un apartado especial (el tercer apartado del tema del que
trataremos a continuación).
La sección 4.4 se ocupa de la discretización y numerización de atributos.
Estas técnicas son imprescindibles para la aplicación de algunos algoritmos
de aprendizaje. Por ejemplo, muchos de los aplicados a redes bayesianas
(ver siguiente tema) son intratables cuando se trabaja con variables
continuas. Finalmente, la sección 4.5 trata el escalado de los atributos.
Vemos entonces que el capítulo 4 del texto base cubre la sección 2
de este tema y presenta de manera somera la sección 3. La lectura
de la sección 4.3 no sólo ha introducido el análisis de componentes
principales sino que ha supuesto una toma de contacto con el problema
de la reducción de dimensionalidad que abordaremos desde el punto
de vista de dos aproximaciones diferentes (secciones 3 y 4 de este
tema). La primera aproximación consiste en crear combinaciones lineales
de los atributos originales de una forma que, salvo en circunstancias
especiales, faciliten las tareas más habituales de la Minería de datos,
especialmente de la clasificación. Puesto que, como hemos dicho, se
trata de una técnica muy utilizada en una amplísima variedad de nuevos
algoritmos cuyo fundamento, a pesar de ser sencillo, no es abordado
en profundidad en el texto base, hemos decidido dedicarle una sección
separada del tema y utilizar otro texto para su exposición. Este texto
es el utilizado en la asignatura optativa del grado de Ingeniería
Informática de la UNED "Sistemas Basados en el Conocimiento
II" que se puede descargar de la página web de la asignatura,
enlazada a su vez desde el servidor de la Escuela de Informática de
la UNED. En dicho texto se puede encontrar, en la sección 2.2.1 un
subapartado denominado "Selección de características. Análisis
de Componentes Principales" que introduce los fundamentos
del método y varios ejemplos de aplicación.
Finalmente, el capítulo 5 (retornando al texto base y, en concreto
el epígrafe 5.4) proporciona una visión muy general de las técnicas
de selección de datos cuyo núcleo principal es la selección de atributos
(y se trata, de hecho, de un campo de investigación con una actividad
reciente muy notable). En particular, cabe destacar la relevancia
de esta última sección del tema para los alumnos matriculados en la
asignatura de "Descubrimiento de Información en textos"
de este Postgrado y, en general, en campos de investigación científica
tan importantes como la Genética o la Proteómica. Por ello, más allá
de los contenidos incluidos en el apartado 5.4 del texto base, incluimos
como material del tema dos artículos en inglés: uno de ellos, la presentación
de los métodos wrapper o de envoltura de Kohavi y John (Wrappers for
Feature Subset Selection) y otro más reciente publicado como presentación
de un número especial dedicado a la selección de atributos en el Journal
of Machine Learning Research en 2003 por Isabelle Guyon y André Elisseeff.
Evidentemente, este último se trata de un artículo cuya profundidad
excede la esperable de este curso por lo que no se espera del alumno
la comprensión total de todos los aspectos abordados en él. Sólo,
que extraiga una visión general de las estrategias descritas y que
sea capaz de hacer un estudio especializado de aquéllas que le interesen
especialmente.
Tema 3: Tareas y técnicas de minería de datos
Objetivos:
Son varios los objetivos que se pretenden alcanzar con el estudio
del presente tema:
O.3.1: Diferenciar entre el concepto de tarea (problema a
resolver) y el de técnica o método que la implementa (que lo resuelve).
O.3.2: Conocer las tareas típicas asociadas a la minería
de datos.
O.3.3: Definir un conjunto de parámetros que, en función
de ellos, permita caracterizar las distintas técnicas de minería de
datos y, además, facilite el proceso de comparación entre ellas.
O.3.4: Conocer y describir las distintas técnicas de minería
de datos en función de los parámetros definidos anteriormente.
O.3.5: Conocer los distintos métodos y algoritmos asociados
a cada una de las técnicas de minería de datos.
O.3.6: Experimentar con los distintos algoritmos aplicándolos
a la resolución de tareas adecuadas y comprobar el efecto y/o dependencia
de variar el valor de los distintos parámetros de los que dependen
en la bondad del resultado esperado.
O.3.7: El alumno deberá ser capaz de verbalizar las respuestas
a las siguientes preguntas:
-Qué tipo de técnicas permiten implementar cada tarea típica de MD
y qué tienen todas estas técnicas en común.
-Qué tareas implementa cada técnica.
-De qué depende la dificultad de aplicación de cada método
-En qué formato de salida se expresa el resultado de estas técnicas.
O.3.8: Finalmente, el alumno deberá adquirir la suficiente
destreza como para dado un problema de minería de datos, descomponerlo
y reducirlo a un conjunto de tareas básicas. En un principio, a cada
una de ellas, le hará corresponder un conjunto de técnicas válidas
de entre las que, finalmente, seleccionará el algoritmo más adecuado
a aplicar de acuerdo a las condiciones de contorno, a las particularidades
de la tarea a resolver y, en muchas ocasiones, a la comparación de
resultados obtenidos al aplicar varios algoritmos diferentes.
Orientaciones:
Utilizando como libro de referencia el indicado en la bibliografía
básica, el estudio de la asignatura se realizará atendiendo a las
siguientes indicaciones. Las secciones 3.1, 3.2 y 3.3 del temario
se estudiarán a partir del capítulo 6. Así, atendiendo a las correspondencias
existentes entre métodos y tareas, y a modo de resumen, es altamente
ilustrativa la figura de la página 148. Igualmente la figura 6.2 constituye
una buena primera aproximación a la clasificación de las distintas
técnicas de acuerdo al tipo de modelo de salida que generan y a su
facilidad de interpretación.
Seguidamente, las distintas técnicas indicadas dentro de la sección
3.4 se estudiarán utilizando como referencia los capítulos 7-16 (ambos
incluidos) del texto base. Dichos capítulos, además, conservan el
mismo nombre que el utilizado en las secciones correspondientes del
temario. No obstante, hay que indicar que algunos capítulos del libro
no requerirán un estudio minucioso. Así, de los capítulos 7 y 8 que
comprenden la sección 3.4.1 del temario y que hacen referencia a distintos
métodos estadísticos, sólo se recomienda su lectura. Igualmente, la
segunda parte del capítulo 10, correspondiente a redes bayesianas,
queda fuera del alcance de este curso y sólo se recomienda su lectura.
El alumno interesado en este tipo de técnicas puede cursar la asignatura
"Métodos Probabilistas" perteneciente a la línea
curricular del master en Inteligencia Artificial Avanzada. Finalmente,
sólo se recomienda la lectura del capítulo 12.
La decisión de no estudiar las técnicas mencionadas anteriormente,
no significa que no sean técnicas importantes. Este hecho sólo obedece
a que los contenidos del temario deben adecuarse a la duración del
cuatrimestre. Muy al contrario, es importante dejar meridianamente
claro el hecho de que no existe ninguna técnica universal capaz de
resolver cualquier tarea de minería de datos. Por ello, es muy conveniente
conocer el máximo de técnicas junto con sus prestaciones porque, dependiendo
de las características y condiciones de contorno del problema a resolver,
en muchos casos, puede simplificarse enormemente la resolución del
mismo aplicando la técnica más idónea. Por ejemplo, no sería muy adecuado
resolver un problema de clasificación mediante redes neuronales si
se está muy interesado en la interpretabilidad del modelo resultante.
Finalmente, para ampliar el tema, el alumno puede consultar las siguientes
fuentes bibliográficas:
- Capítulo 3 y 4 de [Witten&Frank-05]: Hay muchas formas de representar
los patrones que pueden ser descubiertos por las distintas técnicas
existentes en minería de datos, y cada una dicta la clase de técnica
que debe ser usada para inferir la estructura de salida más adecuada
a las características del problema a resolver. En este sentido, el
capítulo 3 de esta referencia recopila y resume desde un punto de
vista práctico el formato de salida de la mayoría de las técnicas
estudiadas en este tema. Por otro lado, el capítulo 4 describe las
ideas básicas que están detrás de las distintas técnicas usadas en
minería de datos, sin profundizar en características particulares
de cada una de ellas. En muchas ocasiones es importante conocer estas
ideas para saber lo que realmente está ocurriendo cuando se analiza
un conjunto de datos particular.
- Capítulos 5-8 de [Han&Lamber-01]: muestran una visión muy parecida
a la que aquí pretendemos dar. Cada uno de los capítulos mencionados
sigue una estructura común: en primer lugar aborda una tarea típica
de minería de datos y, en segundo lugar, describe las técnicas que
permiten implementarlas.
- Capítulos 6, 8, 9 y 10 de [Borrajo et al-06]: Aunque se presenta
una visión más cercana a la implementación y a la parte algorítmica
de las distintas técnicas estudiadas aquí, es altamente interesante
su consulta porque a partir de la visión de la tarea de aprendizaje
como un problema de búsqueda, permite caracterizar las distintas técnicas
mediante un marco común que facilita la estructuración y comparación
de cada una de ellas.
Tema 4: Evaluación
Objetivos:
El alumno debería adquirir a lo largo del presente tema los siguientes
conocimientos y destrezas:
O.4.1: Comprensión de la necesidad de evaluar los desarrollos
en el área de la Minería de Datos.
O.4.2: Descripción matemática y cualitativa de las consecuencias
de la nula o incorrecta evaluación de los modelos.
O.4.3: Comprensión de los diversos parámetros manejados en
la evaluación de diferentes metodologías.
O.4.4: Conocimiento de las diferentes técnicas de evaluación,
de las ventajas de cada una de ellas y su justificación estadística.
O.4.5: Capacidad de aplicar las diferentes técnicas explicadas
empleando software convencional del área o (preferible, aunque no
necesariamente) codificando él mismo los desarrollos.
O.4.6: Comprensión de las diferencias entre las técnicas
de evaluación en clasificación, regresión y agrupamiento.
O.4.7: Capacidad de análisis crítico de artículos recientes
en el área de la evaluación de modelos y de búsqueda bibliográfica
de fuentes complementarias para contraste o fundamentación.
Orientaciones:
Nuestra recomendación es comenzar con la lectura del capítulo 17 del
texto base. Éste cubre de forma parcial pero sencilla y clara los
apartados del tema y da una visión global del problema abordado en
este tema. Una vez que hayamos concluido la lectura de dicho capítulo,
el estudiante debe proceder a la lectura del apartado 2.2.2 del libro
"Sistemas Basados en el Conocimiento II: Introducción a la
Neurocomputación". En él se da una visión algo más detallada
de las componentes del error de clasificación/regresión denominadas
sesgo y varianza. Si el estudiante lo considera oportuno, puede encontrar
en el epígrafe 2.2.3 del mismo texto, una exposición del método de
estimación del error denominado validación cruzada que ya habrá visto
en el capítulo 17 del texto base, así como una exposición de una técnica
denominada regularización que, como la validación cruzada, tiene como
objetivo minimizar el impacto del sobreentrenamiento en el error final
del modelo (disminuir la varianza).
A continuación, el equipo docente recomienda la lectura del artículo
"Estimating replicability of classifier learning experiments"
para abordar la sección 4 de este tema, que no está cubierta en el
capítulo 17 del texto base. Como el estudiante podrá comprobar, se
trata de un artículo reciente (2004) publicado en uno de los congresos
más importantes del área. La lectura del artículo puede suponer alguna
dificultad para aquellos estudiantes que no estén familiarizados con
las técnicas estadísticas básicas de contraste de hipótesis. En particular,
el artículo cita los tests t de Student y de Wilcoxon. Cualquier texto
de iniciación a la estadística le proporcionará sencillas descripciones
de estos tests. En caso de no disponer de ninguno, el estudiante puede
consultar las entradas correspondientes en la enciclopedia matemática
wolfram o en la wikipedia que, como el estudiante podrá comprobar,
se ha mantenido estable en los últimos años. El artículo de Bouckaert
se centra en su segunda mitad en el estudio de la replicabilidad de
las diferentes formas de estimar el error de un modelo. Esta segunda
mitad es menos relevante para el estudio de esta sección del tema
en la medida en que el equipo docente lo considera una cuestión avanzada.
En cualquier caso, recomendamos al alumno su lectura superficial.
Finalmente, el capítulo 19 del texto base cubre el último apartado
del tema. Con su lectura el equipo docente da por concluido el estudio
del tema. Por supuesto, todo lo anterior constituye sólo un itinerario
recomendado de seguimiento de la bibliografía. El alumno puede, si
lo considera oportuno, reordenar la secuencia de lecturas para adecuarla
a sus hábitos de estudio o buscar fuentes alternativas/complementarias
de información. La estrategia diseñada para el seguimiento de este
tema consiste en dividir su estudio en dos fases alternas. En la primera
fase, se tratan los fundamentos bien asentados de la disciplina según
han sido expuestos en el texto base de la asignatura (temas 17 y 19
y apartado 2.2.2 del libro de SBC II). En la segunda fase se tratan
temas avanzados y de actualidad en el área a través de la bibliografía
científica propuesta.
Tema 5: Implantación e impacto de la minería de datos
Objetivos:
Son varios los objetivos que se pretenden alcanzar con el estudio
del presente tema:
O.5.1: Concretar aquellos aspectos relevantes necesarios
para decidir o no la implantación de un programa de minería de datos.
O.5.2: Introducir al alumno en la metodología empleada en
la construcción de un programa de minería de datos.
O.5.3: Dar a conocer el impacto de la minería de datos en
distintos ámbitos: social, ético y legal.
O.5.4: Plantear y conocer los nuevos retos a los que se enfrenta
actualmente la minería de datos.
Orientaciones:
La idea es comenzar con una descripción de los aspectos más relevantes
necesarios para poner en marcha un Programa de Minería de Datos (PMD)
en una posible Organización o empresa. Para ello, será conveniente
responder un protocolo de preguntas, cuyas respuestas irán guiando
la construcción de dicho programa. La respuesta a una de estas preguntas
será crucial: la de la necesidad o no de crear en la organización
una sección o departamento dedicado a realizar MD. Por tanto, se empezará
estudiando una serie de pautas que ayuden a responder, de la forma
más eficaz posible, a las siguientes preguntas: cuándo es conveniente
implantar un PMD, con qué grado de autosuficiencia, qué integración
es necesaria con otros subsistemas de la organización y qué recursos
humanos y materiales son necesarios. Hay que tener en cuenta que el
concepto de Organización no queda restringido al de la gran multinacional.
Se verá cómo la minería de datos puede tener también cabida, no sólo
en la pequeña y mediana empresa, sino en el ámbito personal. Para
finalizar, se abordarán algunas cuestiones finales relativas al impacto
social de la minería de datos y los nuevos retos que se le plantea.
Teniendo en cuenta que los capítulos 22 y 23 del libro de referencia,
indicado en la bibliografía básica [Hernández et al-04], abarcan
todos los contenidos de este tema (secciones 5.1 y 5.2, respectivamente),
su estudio se realizará atendiendo a las siguientes indicaciones.
La sección 5.1.1 (epígrafes 21.1 y 21.2 del libro de texto) tratará
una serie de aspectos prácticos a tener en cuanta a la hora de decidir
cuándo implantar un PMD en una organización. Desde este punto de vista,
es importante resaltar que, en muchos casos, esta decisión no es una
cuestión de tamaño de volumen de negocio de la organización, sino
que más bien depende de si diariamente se toman decisiones importantes
sobre un entorno cambiante y de que exista una cierta tradición de
informatización y de gestión de los datos de la organización (los
datos son la materia prima de la MD). Una vez se haya respondido afirmativamente
a la pregunta de implantar un PMD, el paso siguiente, sección 5.1.2,
es llevarlo a cabo. Afortunadamente, existen estándares metodológicos
que nos pueden ayudar en este proceso. En concreto, uno de los más
extendidos, el denominado CRISP-DM, establece una metodología que
descompone el proceso en una serie de fases y subfases, descritas
en términos de sus entradas y salidas, de sus objetivos y de la relación
existente entre cada una de ellas. El estudio de esta sección se realizará
a partir del epígrafe 22.3 pero, no obstante, el alumno también podrá
acceder a la documentación oficial relacionada con el la metodología
CRISP-DM para ampliar detalles. En las secciones 5.1.3 y 5.1.4, se
considerarán distintos aspectos muy importantes relacionados con el
éxito final de la implantación de un PMD. Concretamente, en la primera
se tratará la integración de los modelos y patrones aprendidos en
el proceso de minería de datos con las distintas herramientas ya existentes
en el seno de la organización (epígrafe 22.4) y, en la segunda, cómo
estimar adecuadamente los recursos materiales y humanos necesarios
para ponerlo en práctica (epígrafe 22.5). El primer aspecto es relevante
porque, de no aprovecharse la nueva información obtenida por el PMD
y, además, de no hacerlo eficientemente, todo el esfuerzo habría sido
inútil y costoso. Igualmente, el segundo aspecto mencionado también
alcanza gran relevancia porque son los recursos materiales y humanos
las dos partidas más importantes del coste de un PMD.
Analizados los distintos aspectos prácticos relacionados con la implantación
de un PMD en una organización, la sección 5.2 pretende abandonar la
idea de minería de datos como un proceso de ingeniería e invita al
alumno a adentrarse en los retos que actualmente, en el terreno práctico,
le está planteando esta disciplina a la comunidad científica y técnica.
Incluso en el área del Derecho. Para ello, recurriremos por completo
al capítulo 23 del libro de texto. Así, en la sección 5.2.1 (epígrafe
23.1) se analizará el impacto social de la minería de datos en distintos
ámbitos: medicina, biología, banca, marketing, seguridad, fraude,
etc. Las cuestiones éticas y legales surgidas como consecuencia de
aplicar minería de datos, sección 5.2.2, utilizando información privada
personal se estudiarán a partir del epígrafe 23.2. Finalmente, la
sección 5.2.3 (epígrafes 23.4 y 23.5) introducirá al alumno a las
distintas tendencias y soluciones aportadas por la comunidad científica
a los retos actuales planteados en el mundo de la minería de datos.
3 Actividades y plan de trabajo
3.1 Actividades prácticas programadas
Tema 1
Sin actividades.
Tema 2:
Actividad 2.1: Ejercicios de simulación
El estudiante generará un conjunto de datos artificial compuesto por
100 instancias caracterizadas por una variable relevante en sentido
fuerte, tres variables relevantes en sentido débil y una variable
totalmente irrelevante. Esta última se puede generar mediante números
aleatorios extraídos de una distribución de probabilidad uniforme
o normal (gaussiana). Como indicación sugerimos extender el ejemplo
XOR a tres dimensiones. A continuación, aplicará diferentes técnicas
de selección de variables disponibles en weka (un mínimo de tres de
filtrado, el análisis de componentes principales y la técnica de envoltura,
WrapperSubsetEval, con BayesNet como clasificador y empleando todos
los valores por defecto, salvo el número máximo de padres que se debe
modificar a 3).
Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4
a una cara con los siguientes apartados:
1.Descripción del experimento.
2.Tabla de resultados obtenidos para las 5 aproximaciones.
3.Discusión de los resultados.
Actividad 2.2: Estudio de bibliografía avanzada
En esta actividad el alumno deberá elegir uno de los artículos del
especial del Journal of Machine Learning Research sobre "Variable
and Feature Selection" (http://jmlr.csail.mit.edu/papers/special/feature03.html).
La lista de artículos del número especial es la siguiente:
1.Distributional Word Clusters vs. Words for Text Categorization (Kernel
Machines Section). Ron Bekkerman, Ran El-Yaniv, Naftali Tishby, Yoad
Winter.
2.Extensions to Metric Based Model Selection.Yoshua Bengio, Nicolas
Chapados.
3.Dimensionality Reduction via Sparse Support Vector Machines. Jinbo
Bi, Kristin Bennett, Mark Embrechts, Curt Breneman, Minghu Song.
4.Benefitting from the Variables that Variable Selection Discards.
Rich Caruana, Virginia R. de Sa.
5.A Divisive Information Theoretic Feature Clustering Algorithm for
Text Classification. Inderjit S. Dhillon, Subramanyam Mallela, Rahul
Kumar.
6.An Extensive Empirical Study of Feature Selection Metrics for Text
Classification. George Forman.
7.Sufficient Dimensionality Reduction. Amir Globerson, Naftali Tishby.ç
8.Grafting: Fast, Incremental Feature Selection by Gradient Descent
in Function Space. Simon Perkins, Kevin Lacker, James Theiler.
9.Variable Selection Using SVM based Criteria. Alain Rakotomamonjy.
10.Overfitting in Making Comparisons Between Variable Selection Methods.
Juha Reunanen.
11.MLPs (Mono Layer Polynomials and Multi Layer Perceptrons) for Nonlinear
Modeling. Isabelle Rivals, Léon Personnaz.
12.Ranking a Random Feature for Variable and Feature Selection. Hervé
Stoppiglia, Gérard Dreyfus, Rémi Dubois, Yacine Oussar.
13.Feature Extraction by Non Parametric Mutual Information Maximization.Kari
Torkkola.
14.Use of the Zero Norm with Linear Models and Kernel Methods. Jason
Weston, André Elisseef, Bernhard Schölkopf, Mike Tipping.
Algunos de los artículos de la lista anterior presuponen conocimientos
sobre técnicas que se describirán en detalle en el tema 3. Los alumnos
que opten por este tipo de artículos deberán hacer el esfuerzo adicional
de adelantarse al temario y estudiar la técnica en cuestión antes
de comentar el artículo. Por ello, recomendamos una lectura de todos
los abstracts o resúmenes y una selección cuidadosa del artículo sobre
el que tratará el entregable.
Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4
a una cara con los siguientes apartados:
1.Una justificación breve sobre los motivos para la elección del artículo.
2.Un resumen de la aportación novedosa frente a trabajos anteriores
citados en el propio artículo. ¿Qué ventajas comparativas presenta
la contribución?
3.Un estudio sobre el ámbito de aplicabilidad de las conclusiones
obtenidas (para qué tipo de datos/algoritmos está especialmente indicado,
limitaciones, en qué situaciones está contraindicado...).
4.Un estudio de la bibliografía reciente del autor y el área. El estudiante
puede hacer el estudio comenzando con una búsqueda por autor en el
servidor citeseer (http://citeseer.ist.psu.edu/). Con los resultados,
deberá realizar una selección de publicaciones relacionadas con el
tema de la selección de atributos y, en particular, con la aproximación
elegida, y analizar su impacto medido por el número de citaciones.
Finalmente, el informe deberá recoger publicaciones de otros autores
relacionadas con el artículo original, de publicaciones de relevancia
y los mayores índices de citación encontrados.
Bibliografía asociada:
-Sistemas Basados en el Conocimiento II. Introducción a la Neurocomputación.
Disponible en: http://www.ia.uned.es/asignaturas/sbc2/sbc2/libro/book.pdf
-JMLR Special Issue on Variable and Feature Selection. Artículos disponibles
en http://jmlr.csail.mit.edu/papers/special/feature03.html
-Kohavi, R. & John, G.H., Wrappers for Feature Subset Selection (1997).
Disponible en: http://citeseer.ist.psu.edu/13663.html
-Para las definiciones estadísticas comunes o de teoría de la información
(información mutua, ganacia de información o entropía cruzada) se
pueden consultar las entradas correspondientes de la enciclopedia
matemática on-line Mathworld http://mathworld.wolfram.com de la wikipedia,
http://en.wikipedia.org/
Tema 3
Se propone realizar un conjunto de actividades prácticas relacionadas
con la resolución de diferentes tipos de problemas de minería de datos.
El alumno se familiarizará así con el uso de las distintas técnicas
estudiadas en este tema. Para ello, se utilizará Weka, un entorno
que proporciona una interfaz gráfica desde la cual se puede acceder
a una colección de algoritmos estándares de aprendizaje automático
para tareas de data mining. Además, soporta también herramientas para
procesado y visualización de datos. Finalmente, una característica
destacable de Weka es que es de uso libre y código abierto (open source)
bajo licencia GNU y está desarrollada enteramente en Java (multiplataforma).
El conjunto de prácticas a realizar están contenidas en un documento
accesible y descargable desde el curso de la asignatura ubicado en
la plataforma aLF y giran en torno a los siguientes contenidos:
Actividad 3.1: Reglas de asociación.
Actividad 3.2: Clasificadores Bayesianos.
Actividad 3.3: Árboles de Decisión.
Actividad 3.4: Arboles de Regresión y de modelos.
Actividad 3.5: Redes Neuronales I. Clasificación
Actividad 3.6: Redes Neuronales II. Mapas Autoorganizados.
Actividad 3.7: Máquinas de Vectores Soporte.
Actividad 3.8:Clustering: Algoritmo K-medias.
Tema 4
Actividad 4.1: Ejercicios de simulación
El estudiante utilizará weka para generar 10 particiones de 10 bloques
del conjunto de datos "iris.arff" proporcionado
junto con el software de la Universidad de Waikato. Para cada partición,
deberá realizar un experimento de validación cruzada con un clasificador
basado en redes bayesianas y otro en árboles de decisión, y deberá
ordenar los resultados de mayor a menor en una lista. Deberá promediar
los resultados de cada experimento y, con las dos listas ordenadas
de los promedios (una para los clasificadores bayesianos y otra para
los árboles de decisión), deberá realizar un test t de Student que
determine si existen diferencias estadísticas entre los resultados
obtenidos.
Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4
a una cara con los siguientes apartados:
1.Descripción del experimento.
2.Tablas ordenadas de cada uno de los 10 experimentos de validación
cruzada para cada clasificador.
3.Valores promediados de la tabla anterior.
4.Cálculo de la tasa media de error y su varianza para cada clasificador
y resultado del test de Student.
La distribución t de Student se puede obtener de muchas fuentes. En
particular, el estudiante puede hallarla implementada en la librería
gsl de GNU para c/c++.
Actividad 4.2: Estudio de bibliografía avanzada
En esta actividad el alumno debe leer el texto "ROC graphs:
Practical considerations for Researchers". En él se expone
una aproximación alternativa/complementaria a la forma habitual de
evaluar los modelos (a través de la tasa de errores de clasificación,
la suma cuadrática de los errores de regresión o medidas equivalentes)
denominada AUC (Area Under Curve). La curva a la que hace referencia
el nombre es la Receiver Operating Characteristic Curve y el mismo
artículo expone sus fundamentos (procedentes de Teoría de la Señal)
y la forma de calcularla.
Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4
a una cara con los siguientes apartados:
1.Un resumen de los principios del análisis AUC/ROC
2.Un análisis de las diferencias con el método clásico de estimar
el error de clasificación/regresión. Ventajas/inconvenientes de cada
aproximación.
3.Un estudio de la bibliografía reciente del autor y el área. El estudiante
puede hacer el estudio comenzando con una búsqueda por autor en el
servidor citeseer. Con los resultados, deberá realizar una selección
de publicaciones relacionadas con el tema de los análisis AUC/ROC
y analizar su impacto medido por el número de citaciones. Finalmente,
el informe deberá recoger publicaciones de otros autores relacionadas
con el artículo original, de publicaciones de relevancia y los mayores
índices de citación encontrados.
Bibliografía asociada
-Sistemas Basados en el Conocimiento II. Introducción a la Neurocomputación.
Disponible en: http://www.ia.uned.es/asignaturas/sbc2/sbc2/libro/book.pdf
-Fawcett, T. (2003). ROC Graphs: Notes and practical considerations
for researchers. Tech Report HPL-2003-4, HP Laboratories. Disponible
en: http://www.hpl.hp.com/personal/Tom Fawcett/papers/ROC101. pdf
-Bouckaert, R. (2004). Estimating Replicability of Classifier Learning
Experiments, ICML, Disponible en: http://www.aicml.cs.ualberta.ca/_ban_04/icml/pages/papers/61.pdf
-Para el test pareado de Student se puede consultar el texto .Estadística.
Modelos y Métodos"de Daniel Peña Sánchez de Rivera. o las
entradas correspondientes de la enciclopedia matemática on-line Mathworld
http://mathworld.wolfram.com/Pairedt-Test.html o de la wikipedia,
http://en.wikipedia.org/wiki/Student's_t-test.
Tema 5
Actividad 5.1. La metodología CRISP-DM
Visitar la página web relativa al proyecto CRISP-DM. Descargar y leer
el documento relativo al modelo y guía de referencia de este estándar.
http://www.crisp-dm.org/index.htm
Entregables:
El alumno deberá realizar un conjunto de transparencias (tipo Powerpoint)
en el que se resuma los fundamentos y las distintas fases de esta
metodología.
Actividad 5.2. MD y escalabilidad: estudio de bibliografía
avanzada
Realizar un análisis de cuáles de los algoritmos de minerías de datos
estudiados a lo largo de este curso escalan bien a medida que se incrementa
el volumen de datos.
Entregables:
El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4
en donde se realice un análisis y resumen del comportamiento de distintos
algoritmos ante el problema de la escalabilidad (ver referencia [Han
et al-96] como punto de partida,) y de las distintas estrategias utilizadas
en el campo de la minería de datos para abordarlo de forma eficiente
(utilizar la referencia [Provost&Kolluri-99] como punto de partida).
Actividad 5.3. Minería de datos distribuida: Estudio de bibliografía
avanzada
La mayoría de las técnicas de minería de datos vistas a lo largo de
este curso aplican a ficheros de datos planos o bases de datos relacionales.
Sin embargo, tal y como se ha estudiado en el presente tema, debido
a la existencia de datos heterogéneos, de múltiples fuentes o almacenes
de datos, y de la interconectividad con la web, ha cobrado recientemente
importancia una nueva aproximación: la minería de datos distribuida.
Entregables:
Aunque este tipo de minería es un campo relativamente nuevo, se propone
hacer una búsqueda bibliográfica sobre tipos de arquitecturas utilizadas
para abordar la minería de datos distribuida y sobre las distintas
técnicas que ésta utiliza. Realizar un informe sobre el estado actual
del tema. Un punto de partida podría ser la referencia [Park&Kargupta-02].
También dispone en http://www.cs.umbc.edu/hillol/DDMBIB/
de un repositorio de bibliografía relacionada con este tema.
Actividad 5.4 (optativa). Difusión y uso de la MD: Estudio
de bibliografía avanzada
Un asunto importante a la hora de utilizar la información resultante
de aplicar un programa de minería de datos es el de cómo integrar
sus salidas en otro tipo de herramientas. Por ejemplo, cómo hacer
un uso eficiente de los patrones o modelos aprendidos durante el proceso
de minería en herramientas de toma de decisión. Según lo estudiado
en este tema, existen distintas estrategias que abordan esta cuestión
(reglas de actividad (triggers), integración de los modelos aprendidos
en el sistema de gestión de base de datos, la utilización de estándares
para el intercambio de modelos o el uso de protocolos basados en XML).
Entregables:
Se propone al alumno analizar en más profundidad alguna de estas soluciones
y crear un documento de 3 a 6 páginas A4 en el que se recoja sus características,
su operativa, ámbito de aplicación y grado de aceptación.
Actividad 5.5. Aplicaciones de la MD
La formación de un especialista en minería de datos debería no sólo
atender a la evolución de sus distintos aspectos teóricos, sino complementarla
continuamente con la consulta de ejemplos de aplicación. El conocimiento
de lo ya solucionado puede ser de gran ayuda a la hora de abordar
nuevos problemas en contextos similares. El alumno puede consultar
alguno de los siguientes libros, donde se recopila información de
soluciones de problemas abordados mediante minería de datos en diferentes
campos.
-CRM y marketing [Berry&Linof-00]
-Telecomunicaciones [Mattison-97]
-Aplicaciones de ingeniería y científicas [Grossman et al-01]
-Medicina [Krzysztof-01, IBM-01]
-Finanzas, gubernamentales, seguros, etc. [Klösgen&Zytkow-02]
-Evidentemente, el abanico de referencias es muchísimo más extenso.
Sólo en Internet se puede bucear en un amplio repertorio de trabajos
publicados que están relacionados con aspectos prácticos y aplicados
de la minería de datos.
Actividad 5.3. La MD: cuestiones éticas y legales
En el contexto de las cuestiones éticas y legales surgidas por el
potencial buen uso o mal uso de la minería de datos, se propone al
alumno que dé un vistazo a las dos directivas encargadas de regular,
tanto a nivel nacional como europeo, el tema de la protección de datos
personales. Se recogen aquí dos enlaces desde donde puede consultarse:
-La Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos
de Carácter Personal:
-http://civil.udg.es/normacivil/estatal/persona/PF/Lo15-99.htm
-La Directiva 95/46/EC, del Parlamento Europeo, de 23 de noviembre
de 1995, conocida como European Data Protection Directive:
-http://www.cdt.org/privacy/eudirective/EU_Directive_.html
Bibliografía asociada:
[Berry&Linof-00] Berry, M., Linoff, G., Mastering Data Mining:
The Art and Science of Customer Relationship Management. John Wiley,
2000.
[Grossman et al-01] Grossman, R., Kamath, C., Kegelmeyer, W., Kumar,
V., Namburu, R. (eds.). Data Mining for Scientific and Engineering
Applications, Kluwer, September, 2001.
[Han et al-96] J. Han, Y. Fu, W. Wang, J. Chiang, W. Gong, K. Koperski,
D. Li, Y. Lu. DBMiner: A System for Mining Knowledge in Large Relational
Databases, in E. Simoudis, J. Han, U. Fayyad, (eds.). Proc. Intl.
Conf. on Data Mining and Knowledge Discovery, pp. 250-255, AAAI Press,
1996.
[IBM-01] IBM Redbooks Mining Your Own Business in Health Care Using
DB2 Intelligent Miner for Data, IBM Corp, 2001.
[Klösgen&Zytkow-02] W. Kloesgen, JM Zytkow (Eds.), Handbook of
data Mining and Knowledge Discovery. Oxford University Press, 2002.
[Krzysztof-01] Krzysztof J. (ed.), Medical Data Mining and Knowledge
Discovery. Physica-Verlag, Springer, New York, 2001.
[Mattison-97] R. Mattison, Data Warehousing and Data Mining for
Telecommunications. Artech House Computer Science Library, 1997
[Provost&Kolluri-99] F. Provost, V. Kolluri. A survey of methods
for scaling up inductive algorithms. Data Mining and Knowledge Discovery,
3(2), pp. 131-169, 1999.
[Park& Kargupta-02] B. Park and H. Kargupta. Distributed Data Mining:
Algorithms, Systems, and Applications. In Nong Ye, editor, Data Mining
Handbook, pages 341-358. IEA, 2002
.
4 Otras actividades prácticas programadas
Si las hubiera, se indicarían a lo largo del curso.
4.1 Plan de trabajo
Se han agrupado las actividades que se realizan con ordenador bajo
el epígrafe de horas prácticas y las de lectura de bibliografía avanzada
como otras actividades.
Se sugiere con dicho cronograma que es conveniente abordar primero
las cuestiones teóricas leyendo el texto base de la asignatura. A
continuación, consideramos conveniente consolidar los conocimientos
adquiridos mediante experimentos prácticos con el ordenador, no sólo
siguiendo las instrucciones del equipo docente sino explorando otras
posibilidades que puedan quedar fuera del diseño de las prácticas.
En el caso del tema 3, recomendamos alternar teoría y práctica puesto
que las diferentes metodologías abordadas no siempre guardan nexos
relacionales claros entre sí, y es preferible reforzar lo aprendido
antes de pasar a otra metodología distinta. En la práctica, esto implica
que las prácticas con redes neuronales se realicen inmediatamente
después de su estudio teórico y antes de pasar a la siguiente técnica.
Finalmente, recomendamos, en aquellos temas en los que existan, realizar
las actividades de lectura avanzada y búsqueda bibliográfica.
Las estimaciones del equipo docente pretenden ser una aproximación
bona fide al número medio de horas que necesitan los alumnos para
llevar a cabo las tareas propuestas. Como toda media, es sólo un valor
esperado: unos alumnos tardarán más otros menos. El alumno tiene libertad
y criterio para reinterpretar dicho cronograma y, sobre todo, para
hacer llegar al equipo docente sus impresiones personales sobre dicha
secuenciación. El equipo docente se compromete a incorporar esa realimentación
por parte del alumno al diseño del curso en años posteriores.
| Mes | Actividad | H. estudio | H. práctica | H. otras actividades |
|
| Noviembre | Tema1 | 2 | | |
| Tema 2 | 10 | | |
| Actividad 2.1 | | 5 | |
| Diciembre | Actividad 2.2 | | | 13 |
| Enero | Tema 3 | 8 | | |
| Actividades 3.1 | | 5 | |
| Actividades 3.2 | | 5 | |
| Febrero | Tema 3 | 8 | | |
| Actividades 3.3 | | 5 | |
| Actividades 3.4 | | 5 | |
| Marzo | Tema 3 | 8 | | |
| Actividades 3.5 | | 5 | |
| Actividades 3.6 | | 5 | |
| Abril | Tema 4 | 10 | | |
| Actividad 4.1 | | 10 | |
| Mayo | Actividad 4.2 | | | 12 |
| Tema 5 | 9 | | |
| Actividad 5.1 | | 5 | |
| Junio | Actividad 5.2 | | | 10 |
| Actividad 5.2 | | | 10 |
5 Evaluación
La evaluación global de la asignatura se hará mediante el seguimiento
individualizado del progreso de cada alumno juzgado principalmente
por la calidad de las actividades realizadas y por su participación
en el curso a través de la plataforma alF.
Reseña del profesorado
CARMONA SUÁREZ, ENRIQUE:
Doctor por la UNED (Departamento de Inteligencia Artificial, año 2003).
Desde ese mismo año es profesor titular de escuela universitaria en
dicho departamento, en el que imparte docencia en las carreras de
Ingeniería Técnica en Informática de Sistemas y de Ingeniería Informática.
Sus principales líneas de investigación se centran en el área del
aprendizaje automático y en la aplicación de sus distintas técnicas
(algoritmos evolutivos, redes neurofuzzy árboles de decisión, etc.)
a distintos campos: minería de datos, medicina, visión artificial
y video-vigilancia.
e-mail: ecarmona@dia.uned.es
Web personal:http://www.ia.uned.es/personal/ejcarmona
SARRO BARO, LUIS MANUEL:
Doctor en Física por la Universidad Autónoma de Madrid, departamento
de Física Teórica (1998). Desde su incorporación a la UNED ha venido
aplicando conceptos de Aprendizaje por Máquinas y Reconocimiento de
Patrones en el ámbito de la Astrofísica, en particular, para tareas
de descubrimiento de conocimiento en las grandes bases de datos científicas
generadas como resultado de misiones espaciales. En la actualidad
se encuentra involucrado en la coordinación de varios bloques de trabajo
para las misiones CoRoT y GAIA y participa en proyectos de investigación
como el Observatorio Virtual Español y ASTRID.
e-mail: lsb@dia.uned.es
Web personal:http://www.ia.uned.es/personal/lsb
|  |
 |
|