¿Google está utilizando ReCaptcha como una fuente gratuita de mano de obra humana inteligente?

Habiendo trabajado en Amazon Mechanical Turk durante mucho tiempo, encuentro que algunas preguntas de ReCaptcha son muy similares a las tareas 1c allí. Identifica esto, identifica aquello.

Una búsqueda muestra que varios autores web comparten la misma sospecha. La mayoría de ellos son altos en la escala de papel de aluminio, por lo que no son una fuente tan confiable. Se incluye a continuación con fines de notoriedad.

fuente de reclamación 1

fuente de reclamación 2

fuente de reclamación 3

WP/ReCaptcha#crítica

fuente de reclamación 5

Dado que Google no es una organización benéfica y que recaptcha es gratuito, el reclamo podría sostenerse.

¿Qué está sacando Google de ReCaptcha? mano de obra gratis? ¿Análisis de comportamiento de big data? ¿Algo más?

También lo usan para identificar direcciones comerciales ("haga clic en imágenes que tienen escaparates"), números de casas y vías fluviales ("haga clic en imágenes donde hay ríos") para el mapeo.
este es todo el punto de recaptcha.
No es realmente gratis considerando que crear y mantener captch no puede ser barato
@Jeroen El OP significa que el servicio es gratuito para el usuario, no para el proveedor
Esto es increíble. Fuiste a blogs de teoría de la conspiración para ver si era cierto, aunque Google no oculta esto y está escrito explícitamente en el sitio web de recaptcha...
@NajibIdrissi El centro de ayuda requiere notoriedad y que la pregunta no se edite en el sitio; no se menciona si la pregunta/afirmación debe ser difícil o fácil de probar o desacreditar. Y wikipedia difícilmente es un sitio de teoría de la conspiración. Tome esto como una pregunta de nivel de entrada. Probablemente, algo que aprender es verificar lo que dice la empresa objetivo del reclamo, admito una falla en eso e incluiré el "estado oficial" en futuras preguntas. Gracias por tu crítica.
@Mindwin ¿No ha aceptado porque no era la respuesta que buscaba?
Creo que todo esto tiene que ver con inglip.
"Alto en la escala del papel de aluminio", eso es rico.
Aah, ¡siempre supe esto! ¡¡Son inteligentes!!
La ironía de esta pregunta es extrema. "¿Está Stack Exchange utilizando sitios de preguntas y respuestas como una fuente gratuita de trabajo humano inteligente?"
XKCD relevante: xkcd.com/1897

Respuestas (2)

Sí, y ReCaptcha siempre ha sido abierto al respecto, antes y después de ser adquirida por Google.

Desde su formación, uno de los principales puntos de venta de ReCaptcha fue que se utilizarían los datos. En un principio, se utilizó para corregir errores y ambigüedades en la digitalización de libros. Aquí hay un ejemplo de esto que se elogió en 2007 , 2 años antes de que Google lo adquiriera, cuando ReCaptcha era nuevo:

reCaptcha hace que los captchas sean más útiles que simplemente prevenir el spam; Al aprovechar las 150 000 horas que, según se informa, pasan diariamente escribiendo captchas, reCaptcha hace que los usuarios corrijan el texto del libro que OCR no pudo reconocer y que, de lo contrario, tendría que pasar a un Mechanical Turk u otro corrector de pruebas distribuido. ...el ingenio de reCaptcha radica en hacer que una tarea engorrosa valga la pena

Hoy (2016), se ha ampliado para incluir mapas mejorados, aprendizaje automático/IA y posiblemente otros usos. Google está abierto al respecto e incluso tiene una galería de ejemplos de cómo se utilizan los datos de recaptcha: https://www.google.com/recaptcha/intro/index.html#creation-of-value

Millones de CAPTCHA son resueltos por personas todos los días. reCAPTCHA hace un uso positivo de este esfuerzo humano al canalizar el tiempo dedicado a resolver CAPTCHA en la digitalización de texto, la anotación de imágenes y la creación de conjuntos de datos de aprendizaje automático. Esto, a su vez, ayuda a conservar libros, mejorar mapas y resolver problemas difíciles de IA.

Google también se mostró abierto al respecto cuando lo adquirió por primera vez. De hecho, en ese momento, su eslogan no solo hacía referencia a cómo se usaban los datos, sino que la propia herramienta también lo decía explícitamente:

reCAPTCHA. Deja de spam, lee libros.

Las palabras anteriores provienen de libros escaneados. Escribiéndolos ayudas a digitalizar textos antiguos.

ingrese la descripción de la imagen aquí

Captura de pantalla de este blog

Promocionaron el producto como una forma de "colaboración colectiva", utilizando la mano de obra que las personas estaban dando libremente de todos modos en los sistemas de captcha existentes para hacer algo útil. Por ejemplo, de la entrada de blog oficial de Google de 2009 anunciando la adquisición:

Dado que las computadoras tienen problemas para leer palabras onduladas como estas, los CAPTCHA están diseñados para permitir el ingreso de humanos, pero evitan que los programas maliciosos obtengan boletos u obtengan millones de cuentas de correo electrónico para enviar spam. Pero hay un giro: las palabras en muchos de los CAPTCHA proporcionados por reCAPTCHA provienen de periódicos de archivo escaneados y libros antiguos. A las computadoras les resulta difícil reconocer estas palabras porque la tinta y el papel se han degradado con el tiempo, pero al escribirlas como CAPTCHA, las multitudes les enseñan a las computadoras a leer el texto escaneado.

De esta manera, la tecnología única de reCAPTCHA mejora el proceso que convierte las imágenes escaneadas en texto sin formato, conocido como reconocimiento óptico de caracteres (OCR). Esta tecnología también impulsa proyectos de escaneo de texto a gran escala como Google Books y Google News Archive Search.


Si eso es o no eficiencia o explotación, inteligente o inmoral, es subjetivo, pero nunca ha habido ninguna duda o secreto sobre el hecho de que sucede.

[editar] por supuesto, con algunos de los desafíos que provienen del software de "texto" que no se pudo identificar, siempre existe la posibilidad de que sea irrazonablemente difícil o que ni siquiera el texto en absoluto. Con agradecimiento al comentario de Mateo:

??

Si esto ayuda a hacer un mejor software de OCR, estoy totalmente de acuerdo. He realizado muchas pruebas de resultados de OCR y las aplicaciones actuales dejan mucho que desear.
¿No implica eso que reCAPTCHA tendrá que volverse más y más complicado con el tiempo a medida que las soluciones existentes mejoren gracias a la creciente base de datos de entrada de los usuarios? (Aunque se podría decir que ya lo ha hecho, con el paso del reconocimiento de palabras a la clasificación visual).
@JAB esa es probablemente una pregunta para Google, no para mí ...
@JAB ¿Los datos de reCAPTCHA están disponibles públicamente ? Si no, realmente no veo el problema... solo Google se vuelve mejor en la lectura, no otros bots aleatorios.
@JAB Eso solo podría ser cierto si no se produjeran más libros mal escritos, lo cual dudo, y tenga en cuenta que los captchas individuales se muestran a varios usuarios para asegurarse de que no obtengan falsos positivos. El hecho de que Google haya pasado a lo visual probablemente tenga más que ver con el hecho de que los proyectos de reconocimiento de Google Maps y Google Images son más importantes para ellos que Google Scholar en este momento.
También durante un tiempo estuvieron mejorando el reconocimiento de números de casas para los mapas de calles de Google.
Lo que no entiendo es, ¿no tiene que saber cuál es la respuesta para verificar su entrada? Entonces, ¿cómo estás ayudando al participar?
@Carcigenicate Siga el enlace debajo de la imagen y los comentarios: al menos una persona intentó colar palabras groseras en Google Books averiguando qué palabra era la palabra de "prueba" y cuál era la palabra de "escaneado", escribiendo la "prueba" uno correctamente para pasar la prueba, mientras trollea el "escanear". Presumiblemente, los desarrolladores se dieron cuenta de esto y solo aceptaron información que coincidía con varias personas no relacionadas...
@Carcigenicate, según tengo entendido, es por eso que enviaron dos palabras, una era una palabra en la que ya tenían mucha confianza y, por lo tanto, podían usarla como prueba. La otra era una palabra que querían que leyeras pero no sabías cuál era cuál. IIRC también envió a los usuarios "sospechosos" dos palabras de "prueba" en lugar de una "prueba" y una "lectura".
@PeterGreen Exactamente. Y es por eso que toda su afirmación de "usar el trabajo hecho de todos modos para algo útil" era falsa (al menos en esos días, no he investigado las formas más recientes). La mitad del trabajo fue el CAPTCHA, la otra mitad se usó para algo útil. En esencia, solo te hicieron hacer un trabajo extra. (Sin embargo, eso no quiere decir que el servicio no tenga una serie de aspectos positivos).
La "palabra desconocida" si unas pocas personas la ingresan de la misma manera, se convierte en una palabra de prueba. Como esta es una palabra que el mejor software de OCR no podría manejar, el sistema generó sus propias imágenes de prueba. Crear las imágenes de prueba para CAPTCHA es uno de los problemas difíciles de resolver.
@JAB sí, pero eso sigue de todos modos: los avances en ML significan que los captchas tienen que ser más difíciles para cumplir su propósito principal de distinguir a los humanos de las máquinas.
@JAB Eso es exactamente lo que ya sucedió. Hubo un período en el que estos captchas eran prácticamente irresolubles. Mejoró a medida que el conjunto de prueba se examinó de manera más inteligente, pero aún sucede.
@KonradRudolph Siempre he odiado los captchas, pero recientemente cometí un error con los de estilo de texto distorsionado de la vieja escuela que algunas grandes empresas todavía usan, VARIAS veces seguidas. No estoy seguro si es un error de tamaño de muestra pequeño o si es el resultado de lo que dijiste, pero eso me da algo de contexto.
tuve que intentar "resolver" esto una vez: i.stack.imgur.com/EbT01.png
@mateo jajaja eso es increíble, lo estoy robando y agregándolo a la respuesta, ¡espero que no te importe!
@Carcigenicate También es importante tener en cuenta que reCaptcha ahora evalúa a la mayoría de los usuarios mediante una puntuación general basada en el comportamiento, por lo que muchos usuarios no tendrán que resolver captchas para autenticarse: security.googleblog.com/2014/12/… En este caso, cada prueba individual no es tan importante, pero un usuario que tiene un patrón de comportamiento sospechoso y no pasa varias pruebas puede ser bloqueado para continuar.
@Mateo "牙 牙 牙 牙 牙 牙 牙 牙 foreInc", ¿amirita?
Esto es ridículo, ¿por qué es mi respuesta más votada de todos los tiempos?
@ user568458 Porque esta es la respuesta en la que la mayoría de los lectores confían que es correcta y, por lo tanto, votan a favor. Es una característica conocida del sistema de intercambio de pila que las respuestas "simples" obtienen más votos a favor.

¡Sí!

Luis von Ahn, uno de los desarrolladores originales, habló en una conferencia TEDx sobre la tecnología reCAPTCHA y su nuevo Proyecto DuoLingo

En esta presentación, habla sobre la historia y los problemas de CAPTCHA y cómo las personas desperdiciaban alrededor de 500,000 horas todos los días usando CAPTCHA. Luego pensó en cómo usar este tiempo en algo útil, como ayudar a los libros OCR.

Quiere usar esta idea sobre la colaboración masiva en Duolingo, una plataforma de aprendizaje de idiomas. La idea es traducir textos a más idiomas además del inglés.

Esta es la charla original de 2006 en Google TechTalks.