ETSI Ingeniería Informática » Posgrados oficiales » Masters en Inteligencia Artificial y Sist. Informáticos

Posgrados Oficiales

.........................................
Presentación
Oferta
Preinscripción
Matrícula
Admisión
Plazos
Precios
Legalización
Traducción
Convalidaciones
Documentación
Preguntas Frecuentes
Enlaces
Contactar
.........................................
Ir a Espacio Europeo ...


MOTORES DE BÚSQUEDA WEB



Profesorado

Coordinador: Julio Gonzalo Arroyo
(Dpto. Lenguajes y Sistemas Informáticos, UNED)
Profesores:
Anselmo Peñas Padilla
(Dpto. Lenguajes y Sistemas Informáticos, UNED)


Ficha técnica:

TipoOptativa
CuatrimestrePrimero
Créditos/horas totales6/150
Horas de estudio teórico100
Horas de prácticas50
Horas complementarias0

DESCRIPCIÓN DE LA ASIGNATURA

Prerrequisitos recomendables

Lectura fluida del inglés y conexión a Internet.

Objetivos generales de la materia

En este curso se estudian los aspectos esenciales para la recuperación de información en la Web: desde la naturaleza del problema (topología de la Web y características de los usuarios) hasta los retos tecnológicos planteados en la nueva generación de buscadores, pasando por los sistemas clásicos de recuperación de información, la arquitectura básica de un buscador Web, y los sistemas de recuperación basados en notoriedad, de los que Google es el ejemplo canónico.
Al finalizar el curso, el alumno debe ser capaz de plantear la arquitectura completa de un buscador Web, y debe ser capaz de diagnosticar las limitaciones de los sistemas actuales y proponer soluciones novedosas para superarlas.

Destrezas y competencias

El alumno adquirirá las siguientes destrezas y competencias:
Debe tener una visión de conjunto de las tecnologías relacionadas con la búsqueda Web, comprendiendo su evolución temporal y los retos de investigación que se plantean en la actualidad.
Debe ser capaz de realizar una lectura crítica de artículos científicos sobre el tema, de localizar y discriminar información bibliográfica relevante, y de sintetizar información de distintas fuentes.
Debe ser capaz de redactar con rigor científico y de comunicar y debatir con pares (en este caso, sus compañeros) sus análisis y opiniones en torno a los temas de la asignatura.
Debe ser capaz de diagnosticar las limitaciones del campo de investigación en motores de búsqueda Web y apuntar caminos para superarlas.

Contextualización de la materia en el conjunto del Master

Esta asignatura se encuadra en el módulo "ESP-LSI-1 Tecnologías del Lenguaje en la Web" dentro de la especialidad con el mismo nombre de la titulación de posgrado "Master en Lenguajes y Sistemas Informáticos". Dentro de esta especialidad, "Motores de búsqueda Web" aporta los fundamentos sobre los que aplicar tecnologías de procesamiento de textos más sofisticadas a gran escala.

1  MEDIOS DE ESTUDIO

1.1  Metodología docente

La general del programa de posgrado. En particular, el alumno realiza dos tipos de actividades en esta asignatura: las relacionadas con la consulta bibliográfica y las de implementación y experimentación. Las primeras son comunes a todos los alumnos y están fijadas dentro del material de estudio correspondiente a cada tema. En una segunda parte de la asignatura, cada alumno realiza un trabajo individual sobre un tema acordado con el equipo docente. Todo el material de estudio está disponible en el entorno virtual del posgrado, y toda la interacción entre profesores y alumnos se puede llevar a cabo en este entorno.

1.2  Material de estudio

Todo el material de estudio estará disponible para los alumnos en el entorno virtual de la asignatura. Consiste en material introductorio (preparado por el equipo docente), artículos científicos (generalmente en inglés) y tareas prácticas (ver sección 1.10, "actividades prácticas programadas") para cada tema. La bibliografía fundamental se recoge en el punto 1.15.

1.3  Materiales y recursos de apoyo

La plataforma de e-Learning Alf, proporcionará interfaz de interacción entre el alumno y sus profesores. aLF es una plataforma de e-Learning y colaboración que permite impartir y recibir formación, gestionar y compartir documentos, crear y participar en comunidades temáticas, así como realizar proyectos online.

1.4  BIbliografia general de consulta

Básica:
Arvind Arasu, Junghoo Cho, Hector García-Molina, Andreas Paepcke and Sriram Raghavan. Searching the Web. ACM Transactions on Internet Technology, vol. 1, n. 1, August 2001, pages 2-43.

Tema 1. Características de la búsqueda de información en la WWW
Sobre estructura de la WWW:
- Kleinberg, JM. Hubs, authorities, and communities, ACM computing surveys 1999.
http://www.cs.brown.edu/memex/ACMCSHT/10/10.html
- A Borodin, GO Roberts, JS Rosenthal, P. Tsaparas. Finding authorities and hubs from link structures on the World Wide Web. Proc. WWW 2001.
http://www10.org/cdrom/papers/314/
Sobre tipología de búsquedas web:
- Rose, D. y Levinson, D. Understanding User Goals in Web Search. WWW 2004.
http://wwwconf.ecs.soton.ac.uk/archive/00000537/01/p13-rose.pdf
Sobre navegación versus consulta:
- Marti A. Hearst. Next Generation Web Search: Setting Our Sites In IEEE Data Engineering Bulletin, 2002.
http://www.sims.berkeley.edu/hearst/papers/data-engineering
- A. Peñas, F. Verdejo, J. Gonzalo, 2002. Terminology Retrieval: towards a synergy between thesaurus and free text searching. Advances in Artificial Intelligence - IBERAMIA 2002, LNAI 2527.
http://nlp.uned.es/pergamus/pubs/iberamia2002.pdf

Tema 2. Arquitectura básica de un motor de búsqueda.
Sobre crawling:
- J Cho, H Garcia-Molina, L Page. Efficient Crawling Through URL Ordering, WWW 1998.
- Allan Heydon and Marc Najork. Mercator: A Scalable, Extensible Web Crawler. In Proceedings of World Wide Web Conference, 1999, pages 219-229.
Sobre soporte hardware:
- L. A. Barroso, J. Dean, U. Hoelzle. Web search for a planet: the Google cluster architecture. IEEE 2003.

Tema 3. Motores de búsqueda pre-Google: recuperación basada en contenidos.
- D Hiemstra. Using Language Models for Information Retrieval. CTIT Ph.D. Thesis, 2001.
- G Salton, A Wong, CS Yang. A Vector Space Model for Automatic Indexing. Comm. ACM, 1975.
- N Fuhr. Probabilistic Models in Information Retrieval. The Computer Journal, 1992.

Tema 4. Motores de búsqueda actuales (generalistas): recuperación basada en autoridad.
Referencias:
- M Hollander. Google's PageRank Algorithm to Better Internet Searching. TR UMN.
- Brin, S. y Page, L. The Anatomy of a Large-Scale Hypertextual Web
Search Engine. WWW 1998.
- CHQ Ding, X He, P Husbands, H Zha, HD Simon. PageRank, HITS and a unified framework for link analysis. SIGIR 2002.
TH Haveliwala. Topic-Sensitive PageRank: A Context-Sensitive Ranking Algorithm for Web Search. IEEE T. on Knowledge and data engineering, 2003.

Tema 5. Temas avanzados.
- Guha, R. y Garg, A. Disambiguating People in Search. Proc. WWW 2004.
- S Lawrence, NJ Princeton. Context in Web Search, IEEE data engineering
bulletin, 2000.
J Sivic, A Zisserman. Video google: A text retrieval approach to object matching in videos, ICCV 2003.
- SK Bhavnani, CK Bichakjian, TM Johnson, RJ Little. Strategy Hubs: Next-Generation Domain Portals with Search Procedures. Proc. ACM Conference on Human Factors in Computing Systems, 2003, ACM Press NY, USA.
- T Berners-Lee, J Hendler, O Lassila. The semantic Web. Scientific American, 2001.
- J Heflin, J Hendler. A Portrait of the Semantic Web in Action. IEEE Intelligent Systems, 2001.
- S Eissen, B Stein. Analysis of Clustering Algorithms for Web-Based
Search. Springer-Verlag, 2002.
- J. Cigarrán, A. Peñas, J. Gonzalo, F. Verdejo, 2005. Automatic selection of noun phrases as document descriptors in an FCA-based Information Retrieval system. ICFCA 2005. Springer LNCS 3403.
Search Engines: Technology, Society, and Business. Materiales online del curso:
http://www.sims.berkeley.edu/courses/is141/f05/schedule.html

1.5  Tutorización

La tutorización de los alumnos se llevará a cabo a través de la plataforma de e-Learning del posgrado en Inteligencia Artificial y Sistemas Informáticos.

2  ESTRUCTURA DEL CURSO

2.1  Estructura y contenido teórico

1. Características de la búsqueda de información en la WWW
- Topología de la WWW: Hubs, autoridades, islas, Internet Invisible,
etc.
- Necesidades de información y búsquedas web: perfil de usuarios.
- Formas básicas de búsqueda: navegación y consulta. Directorios web
versus motores de búsqueda.

2. Arquitectura básica de un motor de búsqueda.
- Crawling, Indexación, Procesado de la consulta, Recuperación,
Presentación de resultados.
- Arquitectura hardware/software.

3. Motores de búsqueda pre-Google: recuperación basada en contenidos.
- Modelos tradicionales de recuperación de información (modelo booleano,
modelo de espacio vectorial, modelos probabilísticos).
- Limitaciones de los modelos RI en la web: pertinencia versus autoridad,
vulnerabilidad a la manipulación externa (spamdexing).

4. Motores de búsqueda actuales (generalistas): recuperación basada en autoridad.
- Autoridad absoluta: Algoritmos PageRank y HITS.
- Autoridad relativa a un tema/consulta: Hilltop, Topic Distillation.
- El motor de búsqueda Google: evolución de Pagerank (historia de URLs y enlaces, análisis de patentes de Google, Local Rank, Google Sandbox, etc), sistemas de publicidad contextual (adwords, adsense), vulnerabilidad.
- Otros motores de búsqueda generalistas.

2.2  Objetivos por tema y orientaciones breves

1. Características de la búsqueda de información en la WWW

Objetivos:
El objetivo principal del tema es que el alumno comprenda cuál es la funcionalidad de un sistema de búsqueda en la Web. Se puede dividir en subobjetivos de esta manera:
O.1.1 Comprender la estructura y naturaleza de la Web, y la importancia de los sistemas de búsqueda de información en este medio.
O.1.2 Conocer las necesidades típicas que se resuelven mediante buscadores Web.
O.1.3 Conocer los mecanismos básicos que utilizan los usuarios al buscar información en la Web.

2. Arquitectura básica de un motor de búsqueda.

Objetivos:
En este tema, el alumno debe familiarizarse con los componentes básicos de cualquier motor de búsqueda, y comprender cuáles son las implicaciones de manejar un volumen de datos inmenso para obtener respuestas en fracciones de segundo. Este objetivo se puede dividir en:
O.2.1 Conocer y comprender la funcionalidad de los componentes básicos de un motor de búsqueda.
O.2.2. Conocer y comprender la arquitectura típica hardware/software que soporta esa funcionalidad, y los problemas derivados de la escala a la que trabaja un buscador Web.

3. Motores de búsqueda pre-Google: recuperación basada en contenidos.

Objetivos:
Conocer el corpus teórico conocido como "Information Retrieval" (recuperación de información), cómo se ha utilizado en los motores de búsqueda Web, y qué limitaciones tiene en un entorno Web. Se puede dividir en:
O.3.1. Conocer los modelos tradicionales de recuperación de información.
O.3.2. Saber cómo se han aplicado a la búsqueda web, qué limitaciones tienen, y qué otras aplicaciones de estos modelos son factibles en la Web (como, por ejemplo, la inserción de publicidad contextual).

4. Motores de búsqueda actuales (generalistas): recuperación basada en autoridad.

Objetivos:
Conocer los principios teóricos y prácticos sobre los que se fundamentan los motores de búsqueda Web actuales, en particular:
O.4.1 Conocer y ser capaz de comparar los algoritmos más relevantes para calcular la autoridad de una página Web a partir de la estructura de hipervínculos de la Web (PageRank, HITS).
O.4.2 Conocer sus limitaciones, las variantes propuestas, y ser capaz de realizar análisis críticos sobre esas propuestas alternativas.
O.4.3 Conocer cómo se aplica lo anterior a los principales buscadores (Google, Yahoo, MSN, Ask), y en particular sobre Google.

5. Temas avanzados.

Objetivos:
En este tema se estudian las tendencias de la nueva generación de motores de búsqueda, con el objetivo de que el alumno sea capaz de diagnosticar los retos técnicos por resolver y proponer soluciones relativamente novedosas:
O.5.1. Conocer las corrientes de investigación más recientes en el campo de los buscadores Web.
O.5.2. Tener una panorámica de los nuevos servicios relacionados con la búsqueda en la Web.
O.5.3. Ser capaz de proponer temas relevantes sobre los que realizar el trabajo individual de la asignatura.

3  Actividades y plan de trabajo

3.1  Actividades prácticas programadas

Las tareas que se asignan en esta asignatura tienen tanto que ver con la asimilación de los conocimientos propios de la materia, como con el desarrollo de la capacidad para investigar.
Algunos de los tipos de tareas que se proponen son:

-Lectura y análisis de un artículo de investigación, contestando a preguntas como: ¿Se trata de un artículo de teoría, metodología, experimentación o aplicación? ¿Cuáles son sus aportaciones originales? ¿Cuáles son los argumentos/resultados esenciales que conducen a sus conclusiones?
-Evaluación simulada de un artículo, calificando de forma razonada su originalidad, su impacto potencial en el área, la pertinencia y completitud de las referencias bibliográficas, la calidad del trabajo (argumentos, metodología, diseño experimental, etc., la calidad de la presentación (organización, claridad expositiva, etc.). Discusión en grupo (tres alumnos) para alcanzar una única evaluación consensuada, estableciendo una figura de meta-revisor encargado de coordinar la discusión y redactar la evaluación final.
-Estudio del impacto de un artículo: ¿Cuáles son los aspectos del artículo por los que es referenciado? ¿Coinciden con los aspectos sobre los que los autores habían hecho énfasis, o son aspectos inicialmente marginales? ¿Se ha hecho algún avance sustancial respecto a las conclusiones del artículo? ¿Se han refutado las conclusiones del artículo, se han corroborado, se ha profundizado en ellas, se han propuesto vías alternativas?
-Actualización de un artículo de revisión del estado del arte, sintetizando los avances más significativos posteriores a la publicación de la revisión inicial.
Propuesta de "lecturas recomendadas" para un tema, consensuando una lista razonada a partir del debate entre todos los alumnos de la asignatura.
-Evaluación comparada de servicios de búsqueda Web alternativos, utilizando tanto la revisión bibliográfica como la experimentación directa.
-Diseño e implementación de un servicio de búsqueda Web con algún componente novedoso, partiendo de herramientas de código abierto (como Lucene) o servicios Web (como las API de Google, Yahoo, etc).

3.2  Otras actividades prácticas programadas

Se irán anunciando de forma dinámica en el entorno virtual.

3.3  Plan de trabajo

-Tema 1 (15 horas) Semanas 1-3. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 2 (15 horas) Semanas 4-5. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 3 (20 horas) Semanas 6-8. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 4 (25 horas) Semanas 9-12. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 5 (25 horas) Semanas 13-16. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica. Determinación del trabajo individual en coordinación con el equipo docente.

Trabajo individual (50 horas). Semanas 16-23.

4  Evaluación

La evaluación se realizará a partir de las actividades realizadas en cada tema y el trabajo individual de cada alumno.

Reseña del profesorado

Gonzalo Arroyo, Julio
e-mail: julio@lsi.uned.es
web personal:http://nlp.uned.es/julio

Peñas Padilla, Anselmo
e-mail: anselmo@lsi.uned.es
web personal: http://nlp.uned.es/anselmo

Vista para imprimir