¿Los algoritmos de aprendizaje automático tienen conocimiento (si no creencias verdaderas justificadas)?

Por "algoritmo de aprendizaje automático" me refiero a algoritmos de aprendizaje automático básicos, principalmente estadísticos; para ejemplos concretos, considere algoritmos de clasificador simples como SVM o clasificador bayesiano o árboles de decisión . Estoy estipulando que estas máquinas no tienen mente.

Veo una homología entre estos algoritmos y la teoría del conocimiento de JTB: el conjunto de entrenamiento y la estructura del modelo se asignan a la justificación, los resultados (etiquetas de clase declaradas) se asignan a las creencias y el aspecto verdadero no se ve afectado. Existe una homología similar a la visión de "conjetura y crítica" del conocimiento (alanf) en las fases de entrenamiento y prueba típicamente aplicadas en el aprendizaje automático (estadístico).

Obviamente, la primera objeción sería que la creencia (¿y la justificación?) requiere una mente, algo que estos algoritmos no incorporan. ¿Es ese el único criterio que diferencia el "conocimiento" de los sistemas de aprendizaje automático estadístico y el conocimiento real?

Apartes

Diría que un subconjunto del conocimiento normal (humano) es de la forma que es susceptible de representación en términos de aprendizaje automático; un ejemplo que me viene a la mente es el conocimiento que los observadores de aves emplean para identificar aves en función de la observación parcial. Los observadores de aves han notado qué características son más observables y capaces de discriminar especies de aves entre sí; que esto es conocimiento parece incontrovertible.

También veo algo así como una paradoja de Sorite aquí: un observador de aves que identifica las aves de id mirándolas "conoce sus aves"; alguien que usa una guía de campo para ayudar, todavía parece tener una "creencia verdadera justificada" cuando se hace la identificación correcta; ¿Qué pasa con un soporte más extenso, como Merlin ID (que a partir de las capturas de pantalla parece que lo guía a través de un árbol de decisiones)? ¿Qué hay de simplemente tomar el resultado de algún algoritmo automatizado de identificación de aves al pie de la letra? (en el caso final, ¿se agregó algo nuevo aparte de que la identificación de la especie se transfirió de la pantalla del iPhone a la mente del observador de aves?)

Parece haber una falta de analogía potencial en su aparte sobre los observadores de aves en la medida en que el significado de "aviso" cuando se aplica a un sujeto humano puede ser diferente a cualquier cosa que hagan los algoritmos de aprendizaje automático. O para decirlo de otra manera, el "observar" parece necesitar ser programado en un programa de una manera que al menos el programador entienda fundamentalmente, pero los observadores de aves notan de una manera que quizás no entiendan.
@virmaior Interpreto el hecho de que al final del entrenamiento, las estructuras del modelo resultante codifican qué características del dominio del problema son relevantes para la tarea en cuestión como "observar qué características son relevantes"; al menos en un sentido analógico.
No estoy seguro de seguirte en el uso de "aviso" allí. Darse cuenta me parece una facultad de la que carecen las máquinas. Tener un sensor de detección codificado parece ser completamente lo contrario de al menos un sentido normal de observación. Y las máquinas parecen (y mi conocimiento aquí podría ser limitado) simplemente aprender a filtrar la información de detección que no se correlaciona. Parece que (al menos eso creo) hacemos lo contrario al menos en el nivel de la conciencia y llamamos a esto "advertir".
La selección de características de @virmaior ( machinelearningmastery.com/an-introduction-to-feature-selection ) es un análogo aún más relevante de "observar", especialmente cuando se ejecuta "en línea" en respuesta a un caso de prueba particular ( aclweb.org /antología/P15-1015 ). Me inclino a aceptar que este tipo de algs. probablemente no sean modelos o simulaciones de la observación biológica; pero en los casos en que se utilizan, aplican, en términos del marco general del aprendizaje, un papel similar al de la observación.

Respuestas (4)

La propuesta OP es similar en espíritu a la del artículo de Farkas Belief May Not Be a Necessary Condition for Knowledge . Su principal ejemplo es Otto, un chico con una severa pérdida de memoria, que guarda toda la información importante en un cuaderno que lleva consigo en todo momento, y que "amplía" su mente:

" Hay partes del conocimiento que son demasiado tediosas para adquirir y retener en nuestra cabeza: recordar números de teléfono o cumpleaños, por ejemplo... Argumentaré que naturalmente podemos extender la aplicación del concepto de conocimiento a tales casos. Andy Clark y David Chalmers, quien introdujo escenarios de mente extendida (1998), presentó un argumento similar para las creencias... Mi propuesta es que esto funciona mejor para el conocimiento que para la creencia ".

El OP parece estar dispuesto a ir más allá al considerar el conocimiento sin un agente "pensante" por completo. El dicho de Platón del conocimiento como creencia (verdadera justificada) sigue siendo ampliamente aceptado, pero no está libre de reproches . "Creo en Dios" y "Creo que el sol saldrá mañana" usan "creer" de formas muy diferentes. Uno requiere un acto activo de aceptación, mientras que el otro tiene un aire de resignación, uno se mezcla con esperanzas y deseos, el otro con suposiciones y opiniones. Según Radford, las personas pueden saber y dar respuestas correctas sin creer en ellas y pensando que están adivinando. Si no se requiere un acto de aceptación para el conocimiento en escenarios de mente extendida, ¿por qué debería ser requerido en absoluto? Si el conocimiento no es una creencia,

Uno (Searle) podría objetar que incluso si eliminamos la parte de la creencia, la parte de la justificación aún requiere "intencionalidad" y "comprensión" para generar conocimiento. Y sólo una mente puede proporcionar eso. Los autores de sistemas responden a la sala china de Searle (Minsky, Cole) responden, sin embargo, que cualquier cosa que tengan las máquinas es suficiente mente. Cole escribe explícitamente sobre " un vasto "fondo" de conocimiento de sentido común codificado en el programa y los archivadores ". Searle niega que la "codificación" sea posible, o que la "mente virtual" califique como una mente.

Uno puede eludir este argumento sobre las mentes descartando el dicho de Platón y describiendo el conocimiento como algo así como una suposición efectiva en la que se basan las acciones. Esta es más o menos la teoría pragmatista que se remonta a Peirce y James. El "abuelo" del pragmatismo, Bain, definió la creencia como " aquello sobre lo que un hombre está preparado para actuar ". Una máquina puede adquirir y almacenar información sobre la cual "actúa", si esta información es efectiva para hacer que sus acciones sean "adecuadas", entonces cuenta como conocimiento. Podría decirse que eso es todo el conocimiento humano.

Para una perspectiva más amplia ver Análisis de Conocimiento de la SEP .

Las palabras son una forma pobre de expresar creencias y conocimientos y de discutir su naturaleza, pero no tenemos una alternativa. Cuidado con los resultados cuando se utiliza una herramienta pobre.
Exigencia falsa. Las acciones son una mejor forma de expresar creencias y conocimientos porque son objetivas y, por lo tanto, públicas. 'Las acciones hablan más que las palabras' no es un adagio porque rima.

Esto limita con la idea del "Experimento mental de la habitación china". Si no está familiarizado con este experimento, el siguiente video y la cita le serán muy útiles.

El experimento mental de Searle comienza con esta premisa hipotética: suponga que la investigación de inteligencia artificial ha logrado construir una computadora que se comporta como si entendiera chino. Toma caracteres chinos como entrada y, siguiendo las instrucciones de un programa de computadora, produce otros caracteres chinos, que presenta como salida. Supongamos, dice Searle, que esta computadora realiza su tarea de manera tan convincente que pasa cómodamente la prueba de Turing: convence a un hablante chino humano de que el programa en sí mismo es un hablante chino en vivo. A todas las preguntas que hace la persona, da respuestas apropiadas, de modo que cualquier hablante de chino estaría convencido de que está hablando con otro ser humano de habla china.

La pregunta que Searle quiere responder es la siguiente: ¿la máquina "entiende" literalmente el chino? ¿O simplemente está simulando la capacidad de comprender el chino?[6][c] Searle llama a la primera posición "IA fuerte" y a la última "IA débil".[d]

Searle luego supone que está en una habitación cerrada y tiene un libro con una versión en inglés del programa de computadora, junto con suficiente papel, lápices, borradores y archivadores. Searle podía recibir caracteres chinos a través de una ranura en la puerta, procesarlos de acuerdo con las instrucciones del programa y producir caracteres chinos como salida. Si la computadora hubiera pasado la prueba de Turing de esta manera, se deduce, dice Searle, que él también lo haría, simplemente ejecutando el programa manualmente.

Searle afirma que no existe una diferencia esencial entre los roles de la computadora y él mismo en el experimento. Cada uno simplemente sigue un programa, paso a paso, produciendo un comportamiento que luego se interpreta como una demostración de conversación inteligente. Sin embargo, Searle no podría entender la conversación. ("No hablo ni una palabra de chino", [9] señala). Por lo tanto, argumenta, se deduce que la computadora tampoco podría entender la conversación.

Searle argumenta que sin "comprensión" (o "intencionalidad"), no podemos describir lo que la máquina está haciendo como "pensar" y dado que no piensa, no tiene una "mente" en el sentido normal de la palabra. . Por lo tanto, concluye que la "IA fuerte" es falsa.

Fuente: https://en.wikipedia.org/wiki/Chinese_room

https://www.youtube.com/watch?v=TryOC83PH1g&edufilter=42sx_3NqAVcegVpqn7ZbPg

Espero que esto ayude y pueda guiarlo hacia una respuesta. En mi opinión, como puede ver, los algoritmos de aprendizaje automático no tienen conocimiento.

El argumento de Searle es relevante, pero la comprensión (su término) no es idéntica al conocimiento (mi enfoque). O al menos no es obvio para mí que estos términos sean intercambiables en este contexto; ¿ve más claramente cómo desempaquetar su ejemplo en el conocimiento (JTB) en sí mismo?

Los algoritmos de aprendizaje automático instancian el conocimiento. Es perfectamente posible que un sistema tenga conocimiento, pero no que comprenda ese conocimiento.

Muchos filósofos mantienen la creencia verdadera justificada. El conocimiento que tiene el ser humano no está justificado . El conocimiento tampoco necesita ser verdadero, por ejemplo, la mecánica newtoniana es falsa, pero es conocimiento. Y una de las razones por las que se imagina que el conocimiento es una creencia es que necesitas una persona para justificarlo, pero eso no es cierto, por lo que no es necesaria ninguna creencia.

Dado que no queda nada de la teoría del conocimiento JTB, eso deja la cuestión de qué separa el conocimiento del no conocimiento. El conocimiento es información que resuelve algún problema.

No es necesario que nadie sepa de la existencia de un problema para que se resuelva un problema. Por ejemplo, el corazón humano es una bomba que puede funcionar continuamente durante décadas sin intervención humana ni mantenimiento. Las alas de los gorriones ayudan a resolver el problema de cómo hacer volar objetos pequeños y livianos. La información sobre cómo resolver estos problemas está contenida en los genes de los organismos relevantes. El hecho de que nadie conozca esa información es irrelevante. Muchas ligeras variantes en esas estructuras no resolverían los problemas que resuelven. Esta estrecha coincidencia entre esas estructuras y un problema particular requiere una explicación. La explicación de esta coincidencia tiene fuertes similitudes estructurales con la forma en que se crea el conocimiento humano. Tanto el conocimiento humano como el conocimiento biológico se crean mediante muchas rondas de variación y selección.

Los algoritmos de aprendizaje automático crean instancias de conocimiento que en gran parte es creado por personas. Las personas deciden qué información alimentar a los algoritmos. La gente escribe el código que produce variaciones. Las personas deciden qué tipo de resultados cuentan como éxito. Las personas deciden cómo debe funcionar la selección. Los algoritmos instancian información sobre cómo resolver algún problema en una forma que no sabemos cómo leer explícitamente. Sin embargo, el algoritmo puede resolver algún problema, dice el reconocimiento facial, para que la gente ya no tenga que hacerlo. Entonces, el programa de aprendizaje automático instancia algún conocimiento.

Ejemplo de conocimiento pero no comprensión del conocimiento: e = mc^2.
Mucha gente entiende E=mc^2, incluyéndome a mí. Si no lo hace, intente leer "Relatividad especial" de AP French.
Creo que el punto de @ gnasher729 es que podemos saber que e = mc ^ 2 es "verdadero" pero no saber nada más sobre lo que eso significa: cómo se conoció y cómo se puede aplicar. Sé montones de cosas que realmente no entiendo. Sé que tu alias es alanf y que tienes (en este momento) 3.605 puntos, pero ¿por qué? ¿Por qué? ¿Significa eso que no sé esas cosas? Están justo en frente de mi cara. Incluso puedo saber el alcance de lo que no sé, para tomar prestada la famosa frase.
No creo que sepas que e=mc^2 es cierto si no lo entiendes. Simplemente dices que es verdad porque es un eslogan ampliamente aceptado. La frase significa algo que es cierto en el contexto de la física y que algunas personas conocen y entienden. Sabes que mi nombre de pantalla es alanf porque sabes que el navegador te brinda información precisa sobre ese nombre, al igual que mi puntaje.

Arthur Samuel, un pionero estadounidense en el campo de los juegos de computadora y la inteligencia artificial, acuñó el término "Machine Learning" en 1959 mientras trabajaba en IBM[12].

Como esfuerzo científico, el aprendizaje automático surgió de la búsqueda de la inteligencia artificial.

Ya en los primeros días de la IA como disciplina académica, algunos investigadores estaban interesados ​​en que las máquinas aprendieran de los datos.

Intentaron abordar el problema con varios métodos simbólicos, así como lo que entonces se denominó "redes neuronales" ; estos eran en su mayoría perceptrones y otros modelos que más tarde se descubrió que eran reinvenciones de los modelos lineales generalizados de estadística.[13] También se empleó el razonamiento probabilístico, especialmente en el diagnóstico médico automatizado.[14]:488

Sin embargo, un énfasis cada vez mayor en el enfoque lógico basado en el conocimiento provocó una brecha entre la IA y el aprendizaje automático.

Para 1980, los sistemas expertos habían llegado a dominar la IA y las estadísticas estaban en desuso.[15] El trabajo sobre el aprendizaje simbólico/basado en el conocimiento continuó dentro de la IA, lo que condujo a la programación lógica inductiva, pero la línea de investigación más estadística estaba ahora fuera del campo de la IA propiamente dicha, en el reconocimiento de patrones y la recuperación de información.[14]:708–710; 755

La investigación de redes neuronales había sido abandonada por la IA y la informática casi al mismo tiempo. Esta línea también continuó fuera del campo AI/CS, como "conexionismo", por investigadores de otras disciplinas, incluidos Hopfield, Rumelhart y Hinton. Su principal éxito llegó a mediados de la década de 1980 con la reinvención de la retropropagación.[14]:25

El aprendizaje automático comenzó a florecer en la década de 1990.

El campo cambió su objetivo de lograr inteligencia artificial a abordar problemas solucionables de naturaleza práctica. Cambió el enfoque lejos de los enfoques simbólicos que había heredado de la IA, y hacia métodos y modelos tomados de la estadística y la teoría de la probabilidad.[15] También se benefició de la creciente disponibilidad de información digitalizada y la capacidad de distribuirla a través de Internet.

El aprendizaje automático y la minería de datos a menudo emplean los mismos métodos y se superponen significativamente, pero mientras que el aprendizaje automático se centra en la predicción, en función de las propiedades conocidas aprendidas de los datos de entrenamiento, la minería de datos se centra en el descubrimiento de propiedades desconocidas (anteriormente) en los datos (esto es el paso de análisis del descubrimiento de conocimiento en bases de datos). La minería de datos utiliza muchos métodos de aprendizaje automático, pero con diferentes objetivos; por otro lado, el aprendizaje automático también emplea métodos de minería de datos como "aprendizaje no supervisado" o como un paso de preprocesamiento para mejorar la precisión del alumno.

Gran parte de la confusión entre estas dos comunidades de investigación (que a menudo tienen conferencias y revistas separadas, ECML PKDD es una gran excepción) proviene de los supuestos básicos con los que trabajan: en el aprendizaje automático, el rendimiento generalmente se evalúa con respecto a la capacidad de reproducir el conocimiento conocido,

mientras que en el descubrimiento de conocimiento y la minería de datos (KDD) la tarea clave es el descubrimiento de conocimiento previamente desconocido.

Evaluado con respecto al conocimiento conocido, un método no informado (no supervisado) será superado fácilmente por otros métodos supervisados, mientras que en una tarea típica de KDD, los métodos supervisados ​​no se pueden usar debido a la falta de disponibilidad de datos de entrenamiento.

El aprendizaje automático también tiene vínculos íntimos con la optimización: muchos problemas de aprendizaje se formulan como la minimización de alguna función de pérdida en un conjunto de ejemplos de entrenamiento. Las funciones de pérdida expresan la discrepancia entre las predicciones del modelo que se está entrenando y las instancias reales del problema (por ejemplo, en la clasificación, uno quiere asignar una etiqueta a las instancias y los modelos se entrenan para predecir correctamente las etiquetas preasignadas de un conjunto de ejemplos) .

La diferencia entre los dos campos surge del objetivo de la generalización: mientras que los algoritmos de optimización pueden minimizar la pérdida en un conjunto de entrenamiento, el aprendizaje automático se ocupa de minimizar la pérdida en muestras no vistas.[16] Árbitro.-

https://en.wikipedia.org/wiki/Machine_learning#Inductive_logic_programming

Desafortunadamente, esta respuesta no responde a la pregunta de si estos algoritmos tienen conocimiento.
@Carl Masens: vea la cita <la minería de datos se centra en el descubrimiento de propiedades (anteriormente) desconocidas en los datos (este es el paso de análisis del descubrimiento de conocimiento en las bases de datos)>
Nuevamente, esto describe el descubrimiento de conocimiento por algoritmos, en lugar de tener conocimiento, que son dos cosas muy diferentes.
@ Carl Masens-<mientras que en el descubrimiento de conocimiento y la minería de datos (KDD) la tarea clave es el descubrimiento de conocimiento previamente desconocido....este término 'conocimiento previamente desconocido, nuevo conduce a la construcción de conocimiento...