Efectos de Big Data en cuestiones de filosofía de la ciencia

El Oxford English Dictionary nombró recientemente a 'posverdad' como su palabra del año. El término, cuyo uso se dice que aumentó un 2000 % en el último año, se define como: “…relacionado con o que denota circunstancias en las que los hechos objetivos son menos influyentes en la formación de la opinión pública que las apelaciones a la emoción y la creencia personal”.

Lo que parece referirse a la prevalencia ostensible de hechos falsos/falsos que ahora se promulgan con tanta frecuencia en las redes sociales. Al escuchar la definición, transpuse inmediatamente "creencia" y "opinión" para crear una especie de ciclo de retroalimentación y [además o alternativamente] definí el término como "circunstancias en las que los hechos objetivos tienen menos influencia en la formación de creencias personales que las apelaciones a la emoción". y la opinión pública.”

Esta formulación me trajo a la mente una pregunta que planteé aquí hace un año (pero que, a pesar de las muy buenas respuestas de los Sres. King y Alexander, pronto se cerró por ser demasiado amplia), relacionada con otra forma en que las computadoras (aquí en términos de capacidad computacional más bien que posibles fuentes alternativas de/o autoridad] han impactado nuestra relación con los “hechos”, los cuales contribuyen al tipo de fatiga de hecho que muchos de nosotros parecemos estar experimentando.

Mi nueva pregunta (la anterior reformulada y ampliada) es: ¿Cómo afectará la creciente prevalencia de "big data" (la plétora explosiva de información y poder de cómputo para correlacionarla):

(i) La teoría/formación de hipótesis/confirmación/falsificación del método científico; definir la teoría/hipótesis en términos generales como algo así como una suposición provisional sostenible hecha para extraer/determinar sus consecuencias empíricas (y tal vez, dependiendo de la facha relevante, también normativas y/o lógicas);

(ii) La exposición de Quine' de la tesis de la subdeterminación; es decir, cómo afectarán los fenómenos la percepción de que las teorías están subdeterminadas porque en un momento dado las teorías en conflicto son consistentes con los datos [cada vez mayores] disponibles; y

(iii) ¿El debate realista/relativista/constructivista? Por ejemplo, como observó Nelson Alexander, “Dado que ahora se puede hacer muy poca ciencia sin el “aparato sensorial” de procesamiento masivo de datos [comparándolo con el telescopio de Galileo], parece que nos estamos deslizando inevitablemente hacia un círculo más “constructivista” de confirmación. -predecir.” ¿Hay también formas concebibles en las que se puede decir que los fenómenos de los grandes datos respaldan una ontología/epistemología realista?

Si bien esta "Pregunta" constituye tres consultas, creo que considerarlas juntas aumentará la relevancia y la calidad de las respuestas, porque las tres patas se ocupan de cómo los observables (consecuencias/datos, como se los defina, [se puede decir que ] "explicar", "construir" [o correlacionarse con] no observables.

@jobermrk... ¿Por qué eliminar tu respuesta? Estuvo bien.

Respuestas (1)

Punto preliminar 1: Hay un puñado de filósofos de la ciencia cuyo trabajo actual se centra en big data. Recomiendo especialmente a Luciano Florid y Sabina Leonelli .

Punto preliminar 2: A los filósofos de la ciencia les disgusta hablar de "el" método científico. Los físicos de partículas, los modeladores climáticos y los etólogos, por ejemplo, adoptan enfoques muy diferentes para diseñar proyectos de investigación, recopilar datos y analizarlos. Las cosas se vuelven aún más diversas cuando se incluyen científicos sociales e historiadores cualitativos.

(i) En 2008, Chris Anderson , el editor en jefe de Wired , argumentó que los grandes datos estaban provocando "el fin de la teoría"; que trabajar con big data era una ciencia inductiva, no causal y sin teoría. Creo que algunas personas han comparado esto con el inductivismo de Bacon, en contraste con el falsacionismo popperiano (aunque no puedo encontrar ninguna referencia en este momento). La posición de Anderson es la más radical que he visto con respecto a la pregunta (i). Ratti y Leonelli han argumentado que los grandes datos no son novedosos, o al menos no son novedosos en la forma en que Anderson los presenta. (Véase también este artículo de revisión/comentario de Mazzocchi.) Si no recuerdo mal los artículos, tanto Ratti como Leonelli argumentan que la ciencia inductiva, no causal y libre de teorías de Anderson es una investigación exploratoria, y que la ciencia está muy familiarizada con los modos de investigación tanto exploratorios como confirmatorios. Leonelli también señala que algunas preocupaciones estadísticas tradicionales de datos pequeños, como el error de muestreo, siguen siendo muy relevantes para los datos grandes.

(ii) Tengo dos respuestas aquí, una para el proceso de recopilación y mantenimiento de big data, y otra para el proceso de análisis de big data para construir modelos y sacar inferencias. En primer lugar, la recopilación de grandes datos es tan difícil, desordenada y contingente como la recopilación de pequeños datos. Por ejemplo, la secuenciación de genes implica cortar el ADN de interés en muchos, muchos segmentos cortos, replicar químicamente estos segmentos cortos para que tenga suficiente para leer de manera confiable y luego unir los resultados tratando de hacer coincidir las secuencias superpuestas en los segmentos cortos. . Según tengo entendido, existen algunos métodos diferentes para unir los resultados, y no necesariamente concuerdan. También hay decisiones previas sobre dónde recopilar datos. Por ejemplo, ha habido múltiples análisismostrando que la investigación genómica tiende a centrarse en personas de ascendencia europea. Y existen contingencias importantes sobre qué metadatos se adjuntan a un dato determinado (¿deberíamos adjuntar metadatos de raza y etnicidad?) y qué datos se conservan o descartan. En todos estos casos, diferentes caminos podrían haber producido datos sustancialmente diferentes, por lo que hay un sentido en el que los datos mismos están indeterminados.

En segundo lugar, dado un conjunto de datos y una pregunta de investigación, hay muchas formas posibles de analizar los datos e intentar responder la pregunta. En el ámbito de los datos pequeños, esto da lugar a la posibilidad de p-hackeo y el jardín de caminos bifurcados : básicamente, si sigue probando diferentes enfoques de análisis, eventualmente obtendrá un resultado "estadísticamente significativo". (Compare con esta revisión crítica ). Yo diría que los grandes datos permiten más p-hackeo que los pequeños datos, de tres maneras. En primer lugar, los grandes datos involucran muestras mucho más grandes, lo que aumenta el poder estadístico. Eso puede parecer algo bueno, pero significa que los métodos estadísticos tradicionales pueden quedar dominados:incluso las diferencias más pequeñas cuentan como "estadísticamente significativas". En segundo lugar, los datos masivos a menudo involucran muchas más características (covariables, predictores, variables independientes) que observaciones, como miles de genes para unos pocos cientos de individuos. Esto hace que sea extremadamente fácil sobreajustar los datos . En tercer lugar, los enfoques modernos de aprendizaje automático a menudo requieren grandes cantidades de datos. Pero los métodos estadísticos tradicionales todavía se pueden aplicar a los mismos grandes conjuntos de datos. Por lo tanto, los analistas de big data tienen más posibilidades, más caminos que se bifurcan a seguir, más formas de piratear algunos valores p estadísticamente significativos, que los analistas de small data.

(iii) No sé quién es Nelson Alexander y no puedo encontrar ningún contexto para la cita en línea, así que no comentaré sobre eso. La visión de Anderson de los grandes datos (ver la respuesta a la pregunta (i)) se presta a una explicación puramente instrumentalista: estamos encontrando correlaciones u otros patrones estadísticos en los datos, no descubriendo relaciones causales. Por otro lado, en el contexto de la crisis de replicación, al menos tres personas diferentes han sugerido una conexión entre los problemas de replicación y la falta de buenas teorías causales que puedan informar y recopilar, analizar e interpretar datos. En otras palabras, según el argumento, sin teorías causales, no puede diseñar sus experimentos, observaciones y análisis de datos de una manera que controle los posibles factores de confusión; y entonces terminas con problemas de replicación. Esto podría verse como un argumento contra el instrumentalismo. Muchos enfoques modernos de aprendizaje automático (bosques aleatorios, máquinas de vectores de soporte, redes neuronales profundas) se entienden mejor como puramente instrumentalistas; pero otros enfoques desarrollados por investigadores de IA, como Bayes o redes causales, apuntan al razonamiento causal y, por lo tanto, parecen encajar mejor con una visión realista. (Personalmente, tiendo a ver las cosas a través de la lente de la ciencia basada en modelos, que es ortogonal a los debates realismo/antirrealismo; por ejemplo, me gusta este artículo dePotochnik .)

Pensé que ya había dicho esto, hace unos tres días. El comentario anterior se ha ido, así que lo diré de nuevo. Muchas gracias por esta respuesta completa y reflexiva. Y por las citas exquisitamente relevantes. Después de leer muchos de ellos, mi pregunta ha llegado a sonar anacrónica, casi pintoresca... .
¿Cómo es posible que exista un problema de subdeterminismo, o un problema interesante de realismo versus constructivismo/pragmatismo/instrumentalismo, o un paradigma kuhniano, o [condición de consistencia, es decir, problemas de [in]variancia] feyerabendiano, o un problema del "mito de lo dado" de Sellers en un ámbito de "ciencia basada en datos"/"análisis dependientes de datos": conceptos cuyos significados e implicaciones/consecuencias apenas puedo entender