Habiendo trabajado en Amazon Mechanical Turk durante mucho tiempo, encuentro que algunas preguntas de ReCaptcha son muy similares a las tareas 1c allí. Identifica esto, identifica aquello.
Una búsqueda muestra que varios autores web comparten la misma sospecha. La mayoría de ellos son altos en la escala de papel de aluminio, por lo que no son una fuente tan confiable. Se incluye a continuación con fines de notoriedad.
Dado que Google no es una organización benéfica y que recaptcha es gratuito, el reclamo podría sostenerse.
¿Qué está sacando Google de ReCaptcha? mano de obra gratis? ¿Análisis de comportamiento de big data? ¿Algo más?
Sí, y ReCaptcha siempre ha sido abierto al respecto, antes y después de ser adquirida por Google.
Desde su formación, uno de los principales puntos de venta de ReCaptcha fue que se utilizarían los datos. En un principio, se utilizó para corregir errores y ambigüedades en la digitalización de libros. Aquí hay un ejemplo de esto que se elogió en 2007 , 2 años antes de que Google lo adquiriera, cuando ReCaptcha era nuevo:
reCaptcha hace que los captchas sean más útiles que simplemente prevenir el spam; Al aprovechar las 150 000 horas que, según se informa, pasan diariamente escribiendo captchas, reCaptcha hace que los usuarios corrijan el texto del libro que OCR no pudo reconocer y que, de lo contrario, tendría que pasar a un Mechanical Turk u otro corrector de pruebas distribuido. ...el ingenio de reCaptcha radica en hacer que una tarea engorrosa valga la pena
Hoy (2016), se ha ampliado para incluir mapas mejorados, aprendizaje automático/IA y posiblemente otros usos. Google está abierto al respecto e incluso tiene una galería de ejemplos de cómo se utilizan los datos de recaptcha: https://www.google.com/recaptcha/intro/index.html#creation-of-value
Millones de CAPTCHA son resueltos por personas todos los días. reCAPTCHA hace un uso positivo de este esfuerzo humano al canalizar el tiempo dedicado a resolver CAPTCHA en la digitalización de texto, la anotación de imágenes y la creación de conjuntos de datos de aprendizaje automático. Esto, a su vez, ayuda a conservar libros, mejorar mapas y resolver problemas difíciles de IA.
Google también se mostró abierto al respecto cuando lo adquirió por primera vez. De hecho, en ese momento, su eslogan no solo hacía referencia a cómo se usaban los datos, sino que la propia herramienta también lo decía explícitamente:
reCAPTCHA. Deja de spam, lee libros.
Las palabras anteriores provienen de libros escaneados. Escribiéndolos ayudas a digitalizar textos antiguos.
Captura de pantalla de este blog
Promocionaron el producto como una forma de "colaboración colectiva", utilizando la mano de obra que las personas estaban dando libremente de todos modos en los sistemas de captcha existentes para hacer algo útil. Por ejemplo, de la entrada de blog oficial de Google de 2009 anunciando la adquisición:
Dado que las computadoras tienen problemas para leer palabras onduladas como estas, los CAPTCHA están diseñados para permitir el ingreso de humanos, pero evitan que los programas maliciosos obtengan boletos u obtengan millones de cuentas de correo electrónico para enviar spam. Pero hay un giro: las palabras en muchos de los CAPTCHA proporcionados por reCAPTCHA provienen de periódicos de archivo escaneados y libros antiguos. A las computadoras les resulta difícil reconocer estas palabras porque la tinta y el papel se han degradado con el tiempo, pero al escribirlas como CAPTCHA, las multitudes les enseñan a las computadoras a leer el texto escaneado.
De esta manera, la tecnología única de reCAPTCHA mejora el proceso que convierte las imágenes escaneadas en texto sin formato, conocido como reconocimiento óptico de caracteres (OCR). Esta tecnología también impulsa proyectos de escaneo de texto a gran escala como Google Books y Google News Archive Search.
Si eso es o no eficiencia o explotación, inteligente o inmoral, es subjetivo, pero nunca ha habido ninguna duda o secreto sobre el hecho de que sucede.
[editar] por supuesto, con algunos de los desafíos que provienen del software de "texto" que no se pudo identificar, siempre existe la posibilidad de que sea irrazonablemente difícil o que ni siquiera el texto en absoluto. Con agradecimiento al comentario de Mateo:
¡Sí!
Luis von Ahn, uno de los desarrolladores originales, habló en una conferencia TEDx sobre la tecnología reCAPTCHA y su nuevo Proyecto DuoLingo
En esta presentación, habla sobre la historia y los problemas de CAPTCHA y cómo las personas desperdiciaban alrededor de 500,000 horas todos los días usando CAPTCHA. Luego pensó en cómo usar este tiempo en algo útil, como ayudar a los libros OCR.
Quiere usar esta idea sobre la colaboración masiva en Duolingo, una plataforma de aprendizaje de idiomas. La idea es traducir textos a más idiomas además del inglés.
usuario33109
usuario428517
Jeroën
jbentley
usuario31438
Mindwin
Loco
Raystafari
celeritas
ABcDexter
Pablo Draper
qazwsx