¿La última herramienta de traducción de Google es compatible con la hipótesis del lenguaje del pensamiento de Jerry Fodor?

Google actualizó recientemente su herramienta de traducción para que ahora pueda traducir entre pares de idiomas que no había visto antes, algo que llaman "traducción de tiro cero". Consulte aquí el documento completo y aquí un resumen.

Por ejemplo, pueden entrenar una red neuronal para traducir del japonés al inglés y del inglés al coreano. Luego le piden que realice traducciones japonés-coreano, y funciona "razonablemente" bien, aunque nunca fue entrenado para traducir ese par de idiomas en particular.

Lo que me llamó la atención es la siguiente conclusión del artículo:

5.1 Evidencia de una interlingua:

De hecho, varias redes entrenadas muestran una fuerte evidencia visual de una representación compartida . Por ejemplo, la Figura 2 a continuación se produjo a partir de un modelo de muchos a muchos entrenado en inglés↔japonés e inglés↔coreano. Para visualizar el modelo en acción, comenzamos con un pequeño corpus de 74 triples de frases en varios idiomas semánticamente idénticas. Es decir, cada terna contenía frases en inglés, japonés y coreano con el mismo significado subyacente.[...] La inspección de estos grupos muestra que cada hilo representa una sola oración, y los grupos de hilos generalmente representan un conjunto de traducciones del misma oración subyacente , pero con diferentes idiomas de origen y de destino.

En otras palabras, Google pudo agrupar oraciones en una estructura geométrica subyacente, que corresponde a un metalenguaje o, como dicen los autores, una interlingua. Algunos de los artículos populares que he leído sobre esto van tan lejos como para decir que la red neuronal de Google "inventó su propio lenguaje", pero siento que solo están siendo sensacionalistas.

Mi pregunta: ¿Esta evidencia de un metalenguaje o una representación compartida subyacente a todos los idiomas apoya teorías como la Hipótesis del Lenguaje del Pensamiento de Jerry Fodor (es decir, Mentalese) o la afirmación de Chomsky de que existe una gramática universal ?

Claro que podría usarse como apoyo, sin embargo, ya se ha demostrado que la gramática universal de Chomsky es una tontería. Ver " There Is No Language Instinct " de Sampson, así como las críticas, en particular sobre: ​​el Pirahå
¿No admite todo lo contrario? La "interlingua" es una interpretación de los investigadores humanos de los estados globales de la neuro-red, la red en sí misma, por otro lado, no se basa en primitivas, ni las combina compositivamente, como lo harían LOT y UG. La red de Google no solo emula interlingua, sino que desarrolló esta emulación, que va en contra de todas las especulaciones de "lenguaje cableado". Que la unificación de diferentes idiomas optimice la traducción no es más sorprendente que la existencia del esperanto , pero no soporta el esperanto en el cerebro.
¿Cómo se compara con dos personas diferentes que traducen J->E y luego E->K?
Nunca habrá un verdadero lenguaje de pensamiento hasta que puedas descartar por completo la palabra representación . Mientras solo esté representando algo, siempre se está quedando corto en lo que necesita ser representado. Es solo otro código que requiere que los humanos lo decodifiquen, porque no hay una forma previsible de liberar a las máquinas del código.
@Conifold una de las suposiciones del reconocimiento de patrones (Neural Nets, SVMs, etc...) es que existe un patrón por descubrir, si el algoritmo PR no puede encontrar un patrón natural y "fuerza" uno en los datos existentes , esto conduce a un sobreajuste, en el que el algoritmo funciona bien en el conjunto de entrenamiento pero falla estrepitosamente cuando intenta generalizar a nuevos patrones. En este caso, eso significa que NNet de Google podría traducir muy bien los pares de idiomas existentes, pero no podría generalizar a nuevos pares de idiomas; el hecho de que pudiera dividir el espacio de manera tan eficiente es notable.
Dado que el japonés y el coreano tienen importantes similitudes documentadas , este ejemplo suena más como el caso de un mentalista que mejora sus probabilidades de obtener un resultado atractivo que cualquier otra cosa. Esta pregunta puede ser una buena opción para Skeptics.SO en ese sentido.
Es bien sabido por los lingüistas que los principales idiomas, con los que trabaja principalmente Google, comparten muchos puntos en común (se vuelven escasos más allá de ese grupo, que es lo que hundió el UG original, y probablemente refleje usos típicos en lugar de mentalés). Tirando de ellos en un lenguaje de interpolación se hizo, por ejemplo, en esperanto. Lo que es notable para mí es que interlingua fue hecha por una red neuronal en lugar de por un humano, y lo que me confirma es la "plasticidad de las redes neuronales", su capacidad para emular una variedad de estructuras sin una composición precableada de primitivas, incluyendo el pensamiento no lingüístico en el cerebro.
Realmente no leo español ni francés, pero si miro las oraciones de estos idiomas, encuentro que me resultan muy familiares; no sorprende que las herramientas de lenguaje de Google puedan encontrar una gran cantidad de puntos en común.
@bright-star como alguien que ha estudiado japonés y coreano (y también habla chino), diría que debido a la similitud de la gramática entre los dos idiomas y el hecho de que incluso he realizado traducciones entre idiomas que no conozco. tiene un alto nivel de competencia en el uso de Google Translate para hacer exactamente lo mismo, no hay pruebas suficientes que sugieran que está haciendo algo sofisticado. Dado que las oraciones más complejas (incluso si proporciona suficiente contexto) fallan bastante en la prueba de traducción inversa, me gustaría ver más evidencia antes de hacer esta afirmación.

Respuestas (2)

La tesis detrás de mentale es algorítmica y representacional. También se postula en base a la teoría del lenguaje. El traductor de Google es una IA basada en redes neuronales, y las redes neuronales no usan representación, y Google en realidad no usa lenguaje. Por lo tanto, el traductor de Google no puede haber verificado ni descubierto el mentalismo representativo o un idioma universal.

¿Es esto una interlingua?

Del papel :

Proponemos una solución simple y elegante para utilizar un único modelo de traducción automática neuronal (NMT) para traducir entre varios idiomas. Nuestra solución no requiere ningún cambio en la arquitectura del modelo de nuestro sistema base, sino que introduce un token artificial al comienzo de la oración de entrada para especificar el idioma de destino requerido.

De Wikipedia :

La traducción automática neuronal (NMT, por sus siglas en inglés) es un enfoque de la traducción automática que utiliza una red neuronal artificial para predecir la probabilidad de una secuencia de palabras, generalmente modelando oraciones completas en un solo modelo integrado.

Al principio, el modelado de secuencias de palabras se realizaba típicamente utilizando una red neuronal recurrente (RNN). La red neuronal utiliza una red neuronal recurrente bidireccional, conocida como codificador, para codificar una oración fuente para un segundo RNN, conocido como decodificador, que se usa para predecir palabras en el idioma de destino. Las redes neuronales recurrentes enfrentan dificultades para codificar entradas largas en un solo vector. Esto se puede compensar con un mecanismo de atención que permite que el decodificador se concentre en diferentes partes de la entrada mientras genera cada palabra de la salida.

Entonces, tal vez .

El sistema descrito en este documento traduce oraciones a vectores (una cadena de números de longitud fija; esta es una técnica estándar ) y luego convierte esos números nuevamente en oraciones. Este sistema utiliza el mismo modelo para traducir varios idiomas diferentes, tratando todos los idiomas como si fueran el mismo idioma con una gramática más complicada. Los sistemas anteriores usaban un modelo separado por par de idiomas.

La representación de Apfel en un modelo se puede mapear en la representación de pomme en otro, ¡porque ambos se refieren a manzanas! Las manzanas generalmente se describen como rojas o verdes, sin importar el idioma que estés usando, por lo que la estructura que las rodea es la misma. (Especialmente si está utilizando un corpus que consiste en el mismo documento traducido a muchos idiomas, pero esperaría esto incluso si no lo estuviera).

Entonces, hasta cierto punto, esta representación interna es una interlingua. Sin embargo, probablemente sea más preciso describirlo como una correlación . Véase la sección 5.2 del documento (énfasis mío):

Por ejemplo, la Figura 3a muestra una proyección t-SNE de vectores de atención de un modelo que se entrenó en portugués→inglés (azul) e inglés→español (amarillo) y que realizó una traducción de tiro cero de portugués→español (rojo). Esta proyección muestra 153 ternas semánticamente idénticas traducidas como se describe arriba, lo que da un total de 459 traducciones. La gran región roja de la izquierda contiene principalmente traducciones del portugués al español. En otras palabras, para una cantidad significativa de oraciones, la traducción de tiro cero tiene una incrustación diferente que las dos direcciones de traducción entrenadas. Por otro lado, algunos vectores de traducción de disparo cero parecen caer cerca de las incrustaciones que se encuentran en otros idiomas, como en la región grande de la derecha.

Es natural preguntarse si el gran grupo de traducciones de tiro cero "separadas" tiene algún significado. Una respuesta definitiva requiere más investigación, pero en este caso, las traducciones de tiro cero en el área separada tienden a tener puntajes BLEU más bajos.

Además, esta "interlingua" (un vector) probablemente no tenga gramática. Caritativamente, podrías describirlo como una obra de arte impresionista de partes de una oración, o una representación numérica de conceptos complejos, o un protocolo, pero no creo que sea realmente un lenguaje . Está mejor descrito por las estadísticas que por la lingüística. 1 Si es una lengua, es una ajena.

¿Apoya esto la hipótesis del lenguaje del pensamiento?

De Wikipedia :

La hipótesis del lenguaje del pensamiento (LOTH), a veces conocida como expresión mental ordenada por el pensamiento (TOME), es una visión de la lingüística, la filosofía de la mente y la ciencia cognitiva, presentada por el filósofo estadounidense Jerry Fodor. Describe la naturaleza del pensamiento como poseedor de una estructura compositiva o "similar a un lenguaje" (a veces conocida como mentalés). Desde este punto de vista, los conceptos simples se combinan de manera sistemática (similar a las reglas de la gramática en el lenguaje) para construir pensamientos. En su forma más básica, la teoría establece que el pensamiento, como el lenguaje, tiene sintaxis.

Dado que esta herramienta de traducción no exhibe un comportamiento obviamente similar al pensamiento, no puedo ver cómo apoya esta hipótesis en absoluto. El LOTH se trata de que el pensamiento humano sea como un lenguaje, no de que el lenguaje humano sea universal de alguna manera. (Ni siquiera es suponiendo que " mentale " sea universal.)

¿Apoya esto que haya una gramática universal?

De Wikipedia :

La gramática universal (GU), en la lingüística moderna, es la teoría del componente genético de la facultad del lenguaje, generalmente acreditada a Noam Chomsky. El postulado básico de GU es que existen restricciones innatas sobre cuál podría ser la gramática de un posible lenguaje humano. Cuando se reciben estímulos lingüísticos en el curso de la adquisición del lenguaje, los niños adoptan reglas sintácticas específicas que se ajustan a UG.

UG es una afirmación sobre la psicología humana; esta tecnología de traducción automática no se limita al lenguaje natural y exhibiría el mismo comportamiento en idiomas que están fuera de un UG hipotético (siempre que tengan suficiente localidad para ser comprensibles). La representación vectorial interna tiene más que ver con el significado que con la gramática . No creo que esto diga nada sobre UG.

Excepto en la medida en que podamos modelar el procesamiento del lenguaje humano para que se comporte como este modelo de traducción automática. Pero para cuando sepamos lo suficiente sobre la psicología humana para saber si nuestro procesamiento del lenguaje funciona de esta manera, la GU ya estará resuelta.


1 : De hecho, es el tipo de formato al que convertimos el lenguaje escrito para poder aplicarle estadísticas. Puede hacer estadísticas sobre el lenguaje escrito directamente, pero generalmente es bastante limitado a menos que sea muy inteligente . (No quiere decir que las cadenas de Markov sean de ninguna manera el límite de lo que puede hacer si es muy inteligente con el análisis estadístico del lenguaje).