Buscar

2012/05/29

Los tesoros ocultos de la Red que quedan fuera del alcance de los científicos


Cuando los científicos publican sus investigaciones, también ofrecen los datos en los que se basaron para que los resultados puedan ser verificados por otros científicos. Al menos así es como se supone que debe funcionar el sistema. Pero últimamente científicos sociales se han chocado con una excepción que, en coincidencia con cómo se la llama, es inmensa.
Se trata de lo que en inglés se conoce como "big data" -bases de datos grandes-, vastos conjuntos de información reunida por investigadores en compañías como Facebook, Google y Microsoft a partir de los patrones generados por las llamadas con teléfonos celulares, mensajes de texto y clics en Internet de millones de usuarios en todo el mundo. Las compañías a menudo se niegan a hacer pública esa información, en algunos casos por motivos de competencia y en otros para proteger la privacidad de sus clientes. Pero para muchos científicos, esa práctica es una invitación a la mala ciencia, a los manejos oscuros e incluso al potencial fraude.
La cuestión se puso al rojo vivo el mes pasado en una conferencia científica en Lyon, Francia, cuando tres científicos de Google y la Universidad de Cambridge se negaron a publicar datos que habían compilado para un trabajo sobre la popularidad de los videos de YouTube en distintos países.
El presidente del panel de la conferencia - el argentino Bernardo A. Huberman , un físico que dirige el grupo de computación social de los laboratorios de HP aquí- respondió enojado. En el futuro, dijo, la conferencia no aceptaría trabajos de autores que no hagan públicos sus datos. Su comentario fue recibido con aplausos.
En febrero, el doctor Huberman había publicado una carta en la revista Nature alertando de que los datos no publicados estaban atentando contra la base misma de las investigaciones científicas. "Si otro conjunto de datos no convalida los resultados obtenidos con datos privados -preguntó- ¿cómo sabemos que no se debe a que no son universales o los autores cometieron un error?"

Agregó que el control corporativo de los datos podía dar acceso preferencial a un grupo de elite de científicos en las mayores corporaciones. "Si continúa esta tendencia -escribió- veremos un pequeño grupo de científicos con acceso a bases privadas de datos disfrutar de una atención inmerecida en la comunidad a expensas de investigadores igualmente talentosos cuya única falla es la falta de los "contactos" adecuados con los datos privados".
Facebook y Microsoft se negaron a hacer comentarios sobre la cuestión. Hal Varian, el jefe de economistas de Google, dijo que simpatiza con la idea de la apertura de las bases de datos pero agregó que las cuestiones de privacidad son significativas.
"Este es uno de los motivos por el que el patrón general en Google es tratar de poner los datos a disposición de todos o ninguno", dijo. "He estado trabajando para conseguir que las compañías difundan más datos sobre sus sectores. La idea es que se puede difundir datos privados agregados de tal modo que no pongan en riesgo la privacidad".
El debate se intensificará a medida que las grandes compañías con muchos fondos hagan más investigaciones sobre sus usuarios. "En la era de Internet -dijo Andreas Weigend , un físico y ex jefe de científicos de Amazon- la investigación ha pasado de las universidades a los Google, Amazon y Facebook del mundo".

Pero mientras los científicos sociales y los especialistas en datos concuerdan en la importancia de poder repetir resultados experimentales, hay menos consenso sobre qué y cómo debe hacerse respecto de las preocupaciones por la privacidad.

La revista no señaló la excepción a la política cuando publicó el artículo.
Del mismo modo, un artículo de abril de 2011 en la revista PLoS One declaraba que la investigación se basaba "en registros de 72,4 millones de llamadas y 17,1 millones de mensajes de textos acumulados en un período de un mes" pero no identificaba al proveedor de la información.
Uno de los fundadores de PLoS, Michael Eisen, biólogo celular de la Universidad de California, Berkeley, que es un fuerte partidario de la "ciencia abierta" sonaba atribulado por ese trabajo en un mensaje de correo electrónico. "Es antitético a las normas básicas de la ciencia hacer afirmaciones que no puedan ser corroboradas porque los datos son privados" escribió.
La cuestión fue anticipada en un ensayo de 2009 publicado por Science entre cuyos autores se incluía Albert-Laszlo Barabasi, un físico de la Universidad del Noreste de Estados Unidos, que también fue autor de los trabajos controvertidos publicados en Science y PLoS One.
"Quizás el desafío más complicado se da por el lado de los datos, con respecto al acceso y la privacidad" escribieron. Alertaron que incluso hacer anónimos los conjuntos de datos podría ser una solución imperfecta, y reclamaron nuevos modelos de colaboración entre las empresas y los sectores académicos para ayudar a las investigaciones y proteger la privacidad.
El año pasado la National Science Foundation (Fundación Nacional de las Ciencias) dijo que se espera de los investigadores que reciben sus fondos que compartan sus datos con otros investigadores.
Muchos científicos concuerdan en que esto debe ser así.
"La respuesta obvia es que tiene que haber más acceso a los datos" dijo Alex Pentland, director del Laboratorio de Dinámica Humana del MIT. "Eso está comenzando a suceder a medida que los gobiernos y las empresas comprenden que tienen que entender mejor las posibilidades y los límites de las grandes bases de datos; por ejemplo, pronto estaremos anunciando la difusión de una inmensa base de datos telefónicos de múltiples países".



No hay comentarios: