Un día del verano pasado, el motor de búsqueda de Google superó con gran discreción un nuevo hito: añadió la dirección número un billón a la lista de páginas web de que tiene noticia. Sin embargo, por increíblemente grande que este número parezca, sólo cubre una pequeña parte de la Web.
Detrás de ese billón de páginas existe una red todavía más inmensa de datos escondidos: información financiera, catálogos de compra, investigación médica y todo tipo de materiales que siguen siendo invisibles para los motores de búsqueda. Los retos a los que se enfrentan los principales motores de búsqueda para entrar en las profundidades de la Web explican en gran medida por qué todavía no responden satisfactoriamente a preguntas como “¿Cuál es la mejor tarifa para volar de Nueva York a Londres el próximo jueves?” o “¿Cuándo jugarán los Yankees contra los Red Sox este año?” Las respuestas están disponibles… Pero los motores de búsqueda no saben encontrarlas.
Cuando las nuevas tecnologías permitan llegar a todos los rincones de la Web, no sólo mejorarán la calidad de las búsquedas sino que cambiará la forma en que muchas empresas hacen negocios online.
La punta del iceberg
Los motores de búsqueda se basan en programas llamados crawlers (o spiders) que recopilan información siguiendo el rastro de los hiperenlaces que mantienen unida a la Web. Esta estrategia funciona bien con las páginas que configuran la “Web superficial”, esos programas tienen dificultades para penetrar en las bases de datos configuradas para responder a preguntas escritas.
“La Web explorable es la punta del iceberg”, dice Anand Rajaraman, cofundador de Kosmix, empresa que ha desarrollado un software que relaciona las búsquedas con las bases de datos que aporten información relevante, y después presenta un glosario con los contenidos extraídos. “La mayor parte de los motores de búsqueda intentan encontrar una aguja en un pajar —dice Rajamaran— pero lo que nosotros intentamos hacer es explorar el pajar”.
Ese pajar es infinitamente grande. Con millones de bases de datos conectadas a la Web e innumerables permutaciones posibles de objetos de búsqueda. Para extraer datos con sentido de la “Web profunda”, los motores de búsqueda tienen que analizar los términos de búsqueda del usuario e imaginar cómo reconducir esa petición a bases de datos concretos. Por ejemplo, si un usuario teclea “Rembrandt”, el motor de búsqueda tiene que saber qué bases de datos contienen información sobre bellas artes (por ejemplo, catálogos de museos o casas de subastas), y qué tipo de búsquedas aceptan esas bases de datos.
Esta estrategia puede parecer muy sencilla en teoría, pero en la práctica la vasta serie de estructuras de bases de datos y de posibles términos de búsqueda plantea un espinoso problema informático. “Este es el problema más interesante de integración de datos que puede imaginarse”, dice Alon Halevy, un antiguo profesor de ciencias informáticas de la Universidad de Washington que ahora dirige un equipo en Google que intenta resolver este jeroglífico. Su estrategia de búsqueda implica enviar un programa que analice los contenidos de todas las bases de datos que encuentre. Por ejemplo, si el motor de búsqueda encuentra una página con una forma relativa a bellas artes, empieza por adivinar términos probables de búsqueda —como Rembrandt, Picasso, Vermeer, etc.— hasta que alguno de esos términos devuelva una coincidencia. El motor de búsqueda analiza después los resultados y desarrolla un modelo que predice lo que contiene esa base de datos. Con la misma estrategia, la Universidad de Utah, desarrolla DeepPeep, un proyecto para confeccionar un índice de todas las bases de datos de la Web.
A medida que los motores de búsqueda empiezan a experimentar con la incorporación de estos nuevos contenidos en los resultados de sus búsquedas, deben discurrir cómo presentar éstos datos sin sobrecargar sus páginas. Un dilema muy particular para Google, que siempre se ha resistido a la tentación de introducir cambios relevantes a su austera pantalla de resultados.
No hay comentarios:
Publicar un comentario