Buscar

Mostrando entradas con la etiqueta captcha. Mostrar todas las entradas
Mostrando entradas con la etiqueta captcha. Mostrar todas las entradas

2011/06/15

El guatemalteco que enamoró a Google y sueña con frenar el crimen

Leyó a Jorge Luis Borges, quien hace unos 70 años pensó una biblioteca infinita que cualquier lector de nuestra época, inadvertido, podría confundir con internet.
Hoy dice no tener ya tiempo para leer, porque dedica sus horas a la red de redes, a cómo hacerla herramienta no del caos ordenado descrito por Borges, sino de orden y conocimiento.
Luis von Ahn nació en Guatemala en 1979 (el apellido es legado del origen alemán de su padre), pero vive en Pittsburgh, Estados Unidos, donde enseña ciencias de la computación en la Universidad de Carnegie Mellon.
Recientemente la revista Foreign Policy lo ubicó a la cabeza de su clic lista de los diez nuevos rostros del pensamiento iberoamericano (mención que se suma a más de una decena de honores semejantes).
Es empleado de Google, aunque alguna vez dijo que no quería trabajar para ninguna empresa porque no soporta tener jefes.
En Google "mi jefe no me dice qué hacer, puedo hacer lo que quiera", se justifica con BBC Mundo. Además, no es un empleado común y corriente del gigante de internet. La compañía lo contrató para integrar una de sus creaciones, clic reCAPTCHA, a sus propias plataformas.
Google parece tener un especial gusto por las innovaciones de este científico (tal vez porque la misión de esa empresa es "organizar la información del mundo y hacerla universalmente accesible y útil"): en 2005 ya había comprado su clic juego ESP.

Traducir internet

Tanto reCAPTCHA -la invención más difundida de von Ahn- como el juego ESP hacen uso de la computación humana, el campo de la informática en el que él investiga. Consiste en utilizar las habilidades y conocimientos de los individuos para resolver grandes tareas que las computadoras no pueden solucionar.
En varios sitios web, cuando uno quiere registrarse o completar algún formulario, se le solicita que transcriba dos palabras que se muestran en una imagen distorsionada, como medida de seguridad para comprobar que uno es un humano y no un programa informático. Eso es reCAPTCHA.
Pero no se limita a ser un filtro. Una de esas dos palabras forma parte de un texto que el sistema está intentando digitalizar, pero que las computadoras no pueden entender porque la impresión es poco clara (una primera edición de "El Aleph", de Borges, por ejemplo). Un humano sí puede entenderlo. Y muchísimos humanos pueden ayudar a digitalizar muchísimos textos.
"Alrededor de 850 millones de personas han participado", cuenta von Ahn.
El juego ESP utiliza un principio similar para determinar qué es lo que hay en una imagen, una fotografía. Y siempre se trata de una tarea cooperativa, a escala gigantesca.
"Ésa es la escala que me gusta", cuenta el investigador antes de hablar de su siguiente proyecto, clic Duolingo, con el que sueña traducir todo el contenido de internet entre todos los idiomas porque cree que con las computadoras solas no funciona. "Funciona un poquito, pero no bien".
¿La solución? "Convertir la traducción en algo que millones de personas quieran hacer, convertir traducción en educación. Duolingo es un sitio donde la gente va a poder aprender un idioma gratis. Y mientras están aprendiendo, al mismo tiempo están traduciendo internet".
La idea es darles a los usuarios frases en el idioma por aprender y sugerirles las palabras sueltas para construir la traducción en su propio idioma.
"Ellos traducen las frases y pueden ver cómo las tradujeron otras personas. Y después de hacer eso empiezan a aprender, y a medida que aprenden les damos oraciones más complejas", explica Von Ahn.
Duolingo se lanzará en unos meses (menos de 12, dice el investigador) en cuatro idiomas: alemán, francés, español e inglés.

Después de Duolingo, ¿Guatemala?

Cuando BBC Mundo le pregunta qué tendría que pasar para que vuelva a Guatemala, el científico responde: "Uno de los requerimientos es realmente más seguridad".
Tal vez de este anhelo haya nacido el que podría convertirse en su próximo proyecto.
"La idea es ésta", explica. "En América Latina, tomemos México y Guatemala que son los que conozco más, es muy pequeño el porcentaje de personas que realmente son criminales. Estamos hablando de que el total de personas en Guatemala que son criminales será como 10.000. Y las personas que no son criminales son como 13 millones".
"Cómo podemos hacer que estos 13 millones de personas se coordinen para parar el crimen. Eso es lo que me gustaría averiguar".
Cuenta que empezó a pensar en esto cuando vio cómo, gracias a la tecnología de internet y los teléfonos celulares, se lograron organizar los levantamientos en Egipto que terminaron con el régimen del presidente Hosni Mubarak.
"Sé lo que quiero hacer, pero no tengo la menor idea de cómo lo voy a hacer. Todavía está como estaba Duolingo hace como dos años, cuando yo sabía que lo que quería hacer era traducir internet, pero no sabía cómo lo iba a hacer".
Para su idea de resolver el crimen, ha estado pensando en "alguna manera de hacer un sitio o una aplicación de teléfono, o algo por teléfono, porque es lo que tiene la mayoría de personas".
Pero reconoce que "es posible que nunca" se logre cumplir el objetivo de controlar el crimen utilizando computación humana.

"Cultura de ciencia"

Si lograra encontrar una solución exitosa y Guatemala se volviera más segura, ¿regresaría entonces?
"No estoy seguro. Realmente el otro impedimento es la falta de una cultura de ciencia. Creo que eso está mejorando un poco en Guatemala y creo que eso es algo que podría armar yo mismo, al menos en mi círculo, llevándome gente con la que trabajo en Estados Unidos, que ya son de Guatemala o Latinoamérica".
Aunque se entusiasma al hablar de esos planes y empieza a pensar cómo podría conseguir financiación en EE.UU. para investigar desde el sur, reconoce que eso no sucederá "por al menos 10 o 20 años".
Mientras tanto seguirá dedicándose a inventar juegos que crean conocimiento, como se dedicó a aprender computación para poder jugar cuando a los ocho años su madre le trajo de regalo un ordenador, en vez de la consola de videojuegos que él le había pedido.

BBC Mundo

2009/06/22

Un código ilegible pero que no evita la basura en Internet

Fuente: Publico.

Los códigos captcha , diseñados para evitar que sistemas automáticos accedan a las páginas web, están provocando que las que no puedan entrar sean las personas. En el afán de perfeccionarlos al máximo, los usuarios no los entienden.

Estos sistemas, que suelen estar formados por caracteres alfanuméricos distorsionados o superpuestos, tratan de que las máquinas no los descifren. Los hay en casi todas las páginas que ofrecen un servicio, ya sea cuentas de correo, comentarios en un foro o sitios de descarga directa. Con ellos se pretende evitar que alguien use máquinas para conseguir mas cuentas, enviar spam o saltarse otras limitaciones.

El problema surge cuando, al intentar perfeccionar el sistema captcha (acrónimo de "prueba de Turing para diferenciar entre máquinas y humanos") para que los robots no puedan identificarlos, un elevado porcentaje de las personas que quiere acceder a la web tampoco puede.

La Universidad Estatal de Búfalo (Nueva York) ha creado un sistema de captchas basado en caracteres manuscritos, intentando que los más avanzados programas de reconocimiento de caracteres (OCR) no sean capaces de identificarlos. Los expertos sostienen que aunque ningún método de captchas tiene un 100% de éxito frente a los robots, el desarrollado por estos investigadores logra frenar al 99% de las máquinas, aseguran.

Pero este porcentaje debe ser enfrentado con el 75% de acierto de las personas cuando interpretan estos códigos. Si una persona de cada cuatro no puede entrar en una web o escribir un comentario en un primer intento debido a que no es capaz de reproducir el código, ¿se puede decir que se trata de un sistema adecuado?

Cuanto más imperfecto es un carácter manuscrito (de ahí que se estudie el escaneo de libros antiguos) o más difícil es leer las letras de forma separada, mayor es la dificultad de los sistemas de reconocimiento automático para interpretarlo. La solución es encontrar el equilibrio entre el código imposible de interpretar por una máquina y el que pueden descifrar las personas.

Para aquellas que intentan acceder a las páginas sin éxito en una de cada cuatro ocasiones, sólo les queda pedir a la web que genere otro nuevo código. Y siempre se corre el riesgo de que el internauta decida poner su comentario en otro foro.

Aún así, para las empresas resulta menos problemático que el usuario tenga que repetir el ejercicio varias veces a que los robots puedan llenar la página de spam o crear cientos de cuentas de correo de forma automática por incluir un captcha poco eficiente.

Sistema hombre-máquina

Pero un buen captcha no detiene a los spammers profesionales. Si sus máquinas no pueden leerlo, usan a personas para hacerlo. Como explica el director técnico de la compañía de seguridad Panda Labs, Luis Corrons: "Hay empresas en países en vías de desarrollo que contratan a gente para que introduzca los captcha más complicados manualmente", saltándose las barreras.

Corrons aclara que el interés en resolver estos códigos va más allá del enfrentamiento entre el hombre y la máquina, apuntando a intereses económicos. "Por eso, en ocasiones a los spammers les resulta más rentable la mano de obra barata que invertir en nuevas técnicas de reconocimiento de caracteres", añade.

Cada nuevo captcha, según Corrons, funciona bien cuando se lanza, ya que aún no se ha diseñado el modo de saltárselos. Pero, los crackers afinan sus algoritmos de detección de captchas en paralelo al esfuerzo de los investigadores para perfeccionar los suyos. "En un corto periodo de tiempo, lo que tenía una fiabilidad total deja de tenerla", destaca.

Detección humana basada en imágenes

Los sistemas de verificación basados en texto están siendo sustituidos por identificación de imágenes.

Según un grupo de investigadores de Google, sólo un ser humano puede distinguir si una imagen está o no bien orientada, por lo que la compañía está desarrollando varios ‘captchas' de este tipo.

Este sistema se realiza a partir de un banco de imágenes en el que se evita la incorporación de retratos u otras siluetas fácilmente identificables por las máquinas, ya que los ‘spammers' podrían crear un algoritmo capaz de reconocerlas.

Una de las variaciones consiste en colocar manualmente una fotografía en el ángulo correcto usando una barra de desplazamiento horizontal.

Para Google, estos sistemas no sólo se lo ponen mucho más difícil a las máquinas, sino que también son más cómodos para el usuario.

La compañía no descarta que tengan que distorsionar también estas imágenes, como se hace con el texto, para evitar que las máquinas superen este filtro.

2009/04/20

Google propone nuevos captchas: ¿en qué imagen el pájaro está bien orientado?

Fuente: google.dirson.com.

De acuerdo con Google, solamente un ser humano tiene la capacidad de saber la respuesta correcta, puesto que la imagen contienen elementos que solamente nosotros (y no programas informáticos) pueden diferenciar. De esta manera, la compañía podría usar esta idea para detectar si aquel que dice ser un humano (y que quiere, por ejemplo, abrir una nueva cuenta en Gmail) realmente lo es y no es un sistema automático que quiere registrar miles de cuentas.

En este paper publicado por tres ingenieros de Google, y que será presentado en la decimoctava 'World Wide Web Conference' que se celebrará a partir de mañana en Madrid (España), se analizan nuevos métodos para crear 'captchas', distintos de los que muestran simplemente letras y cifras, y que han sido utilizados clásicamente para protegerse de las peticiones automáticas, de ataques de fuerza bruta para hacerse con una contraseña de usuario, o prevenir el spam en los blogs de Blogger.

Estos nuevos sistemas propuestos por Google son realizados a partir de imágenes extraidas de un repositorio, de las cuales se eliminan aquellas que un sistema informático podría orientar (por ejemplo, porque contiene rostros, los cuales son identificables mediante algoritmos). Posteriormente, se proponen estas imágenes a seres humanos para ver cuáles pueden ser orientados por ellos, y finalmente se utilizan para crear captchas que son nuevamente testeados para comprobar su eficacia a la hora de detectar bots automatizados.

Según este paper, los nuevos captchas son más "divertidos" de utilizar, no requieren que el usuario teclee nada (simplemente debe elegir posibilidades), y además obtiene mejores resultados a la hora detectar los sistemas informáticos intrusos. Aparte del ejemplo que os hemos mostrado de elegir dos posibilidades (una imagen y otra sin girar), se proponen otros formatos de captchas en el que las posibilidades son más numerosas.

En noviembre de 2007 os contábamos cómo Google aseguraba que sus captchas de letras y cifras eran "irrompibles", aunque existían en el mercado cada vez un mayor número de 'productos' que ayudaban a los spammers a intentar romper estos sistemas de seguridad.

2009/04/16

Si quieres escribir tu comentario... encuentra al perrito entre todos los gatos

Fuente: 20minutos.

Los captchas (Completely Automated Public Turing test to tell Computers and Humans Apart) son el sistema utilizado en Internet para diferenciar si un usuario es una máquina o un humano.

La prueba consiste en introducir un conjunto de caracteres que aparecen distorsionados en pantalla de modo que una máquina no pueda identificarlos automáticamente.

Este sistema, que se emplea para evitar actos maliciosos en foros, encuestas y otros servicios de Internet, está en constante evolución. Día a día se investigan nuevos sistemas de captcha, que pretende ser más intuitivos y eficaces (algunos captcha son realmente complicados y molestos).

Hay sistemas que utilizan imágenes 3D y ya se están probando captchas que utilizan elementos de audio, especialmente útiles para personas con discapacidad visual.

En la web especializada The Inquirer recogen otro nuevo y original sistema de seguridad llamado captcha the dog.

Dicha herramienta muestra grupos de nueve imágenes: ocho de ellas son gatos y sólo una muestra un perro. El internauta debe clickar sobre el perro seis veces consecutivas. Cuando todas las fotos son de gatos, entonces se puede enviar el comentario.

El código, compatible con todos los navegadores, está disponible de forma gratuita.

2008/02/08

El Captcha de Microsoft hackeado

Fuente: HispaMp3.

Según parece el sistema de Captchas que emplea Microsoftr en Windows Live ha sido hackeado.

Los "Captcha" (Completely Automatic Public Turing Tests to Tell Computers and Humans Apart) inicialmente desarrollados por investigadores de la Universidad de Carnegie Mellon, en Estados Unidos, pretenden servir para diferenciar entre personas y programas automatizados a la hora de registrar correos electrónicos.

En forma de letras y números deformados dichos códigos tienen como intención evitar el que los spammers puedan conseguir cuentas de manera automatizada.

No obstante y según informa Dan Hubbard, vicepresidente de Websense, el sistema de Captchas que emplea Microsoft en las cuentas de correo de Windows Live ha sido vulnerado.

El bot consigue un elevado promedio de aciertos sobre el mismo, de entre el 30 y el 35%, cuyos resultados están siendo empleados para crear cuentas ficticias desde las que enviar Spam.

2007/09/06

reCaptcha, filtrado de spammers mediante libros escaneados

Fuente: Barrapunto.

Si este verano (invierno para los que leen desde el hemisferio equivocado) habéis intentado escribir en Barrapunto sin registraros, habréis encontrado el captcha que saca una imagen con texto distorsionado para evitar que los spammers automaticen el envío. Aparte de lo irritante que es teclear textos absurdos, cuesta distinguir la m de la n. Mientras tanto, los inventores del captcha en la universidad Carnegie-Mellon han sacado el recaptcha , un servicio web (con módulos para varios sistemas de weblog) en el que las palabras a reconocer vienen de libros escaneados del Internet Archive con las que el reconocimiento óptico ha tenido problemas. Tras presentar la misma palabra a varios usuarios, el sistema puede hacerse una idea de los caracteres que hay realmente en la imagen. Ya que hay que trabajar, que ese esfuerzo sirva para la cultura mundial. De momento, las palabras sólo vienen de libros en inglés.