¿El conteo de votos para Joe Biden en las elecciones de 2020 viola la Ley de Benford?

La Ley de Benford es una regla estadística que dice que la distribución de dígitos en conjuntos de datos numéricos del mundo real tiende a seguir un patrón específico. A menudo se utiliza para comprobar si una elección es legítima o falsa, comparando la frecuencia de los dígitos en el recuento de votos de los candidatos con el patrón esperado. Por ejemplo, se utilizó para establecer el fraude electoral en las elecciones iraníes de 2009.

Recientemente me encontré con varias fuentes de derecha que afirman que el recuento de votos del presidente electo Joe Biden en las elecciones de 2020 viola la Ley de Benford. Los ejemplos incluyen el sitio web "The Red Elephants" y este hilo r/donaldtrump . El artículo "Elefantes rojos" hace varias otras afirmaciones de fraude, pero me gustaría restringir esta pregunta al análisis de frecuencia de dígitos. Normalmente descartaría de inmediato algo como esto como una teoría de conspiración partidista sin fundamento, pero las afirmaciones deben ser comprobables utilizando registros públicos y análisis estadístico. Cita:

Según algunos analistas, los recuentos de votos de Biden violan la ley de Benford, ya que todos los recuentos de los demás candidatos siguen la ley de Benford en todo el país, excepto el de Biden cuando se encuentra en una carrera reñida. Biden claramente falla en una prueba aceptada para detectar el fraude electoral, utilizada por el Departamento de Estado y los contadores forenses.

Los analistas corrieron los datos con Allegheny usando la prueba de 2do dígito de Mebane con Trump vs Biden. La diferencia fue significativa. Simplemente no funciona. Biden es sospechoso, muchas desviaciones significativas. En el de Trump hubo solo 2 desviaciones pero ninguna es significativa al nivel del 5%. El eje X es el dígito en cuestión, el eje Y es el % de observaciones con ese dígito.

Aquí hay algunas de varias imágenes relevantes del artículo:

Frecuencias de primer dígito en Chicago

Frecuencias de primer dígito en Chicago

Frecuencias de segundo dígito en el condado de Alleghany, Pensilvania

Frecuencias de segundo dígito de Biden en Alleghany

Frecuencias de segundo dígito de Trump en Alleghany

Tengo problemas para acceder al enlace de Reddit, solo para aclarar: ¿La afirmación de que Biden/Harris viola la ley de Benford es en una cantidad significativa de condados en todo el país, o solo en unos pocos? Con más de 3,000 condados en los Estados Unidos , estoy seguro de que se esperaría que algunos infringieran la ley por cualquier multa, por lo que algunos son reclamos diferentes a muchos . Además, noté que las dos gráficas en la parte inferior tienen diferentes límites en el eje y, una visualización de datos falsa por parte de alguien.
Seguramente los conteos oficiales de votos en especialmente lPennsylvania aún no se publican ¿de dónde son los datos?
Hasta que los totales de votos completos estén/certificados/etc., esto parece un 'evento actual no resuelto': no ​​podemos decir si los dígitos del resultado final siguen la ley de Benford hasta que sepamos con certeza cuáles son los dígitos del resultado final. Encontrar algunos valores atípicos al mirar una instantánea de números que aumentan constantemente no dice mucho.
Requerimos que las preguntas en este sitio se refieran a afirmaciones ampliamente creídas (" notables "). Algunos usuarios confunden eso con afirmaciones provenientes de fuentes que consideran confiables. La fuente de la afirmación de esta pregunta puede no considerarse confiable, pero se lee ampliamente. He eliminado los comentarios que insisten en fuentes confiables para esta pregunta. (Las respuestas, por supuesto, deben usar fuentes confiables).
"A menudo se usa para probar si una elección es legítima o falsa [...] se usó para establecer el fraude electoral en las elecciones iraníes de 2009". Este no es un resumen justo de la página de Wikipedia vinculada, que incluye una cita de un artículo que explica que "la Ley de Benford es esencialmente inútil como indicador forense de fraude" para las elecciones. Yo diría que una persona lo usó para alegar fraude en las elecciones iraníes de 2009, en lugar de establecerlo.
Investigadores como Meban intentan aplicar la Ley de Benford (y usando segundos dígitos) y encuentran desviaciones por todas partes. Llegan a la conclusión de que esto significa que el fraude en realidad no existe y que lo que en realidad están viendo es una buena estrategia electoral (es decir, campañas para promover el voto, etc.). Esto no está del todo claro, ya que muchos expolíticos de alto rango (como Blagojevich) han afirmado que el fraude está muy extendido, es realmente endémico.
@Giter Analizar subtotales o "votos hasta ahora" debería estar bien. El problema es si los números "anunciados" son reales o inventados. Cuanto más se analice, mejor, siempre y cuando no se tomen decisiones. Si reclamo 472,581 amigos de Facebook, es sospechoso. Si proporciono números de los últimos 10 días, desglosados ​​por continente, sin repeticiones ni números consecutivos, es casi seguro que están inventados.
No tengo tiempo para poner esto en una respuesta real en este momento porque necesito prepararme para el trabajo, y este sitio frunce el ceño al citar el trabajo de otra persona al por mayor, así que twitter.com/gelbach/status/1324760993692590081
El problema más interesante aquí es que la ley de Benford solo puede mostrar un tipo de fraude, que es la fabricación de números. Algo que es muy poco probable en un sistema de votación distribuida (bajo la administración de Trump). Lo que es más probable es la supresión de votantes o que los empleados de escrutinio extiendan las reglas de firmas o formularios válidos a su partido político preferido. Esos efectos no dan como resultado totales "fabricados".
Me encanta cómo afirman que una prueba estadística es perspicaz aquí, pero luego no calculan, por ejemplo, un valor p, sino que simplemente dicen que el gráfico se ve muy mal a simple vista.
El problema clave que me gustaría que se abordara es el número de hipótesis simultáneas que se prueban. A menudo se dice que una observación es "significativa" si hay un 5 % de probabilidad de que haya ocurrido por casualidad, por lo que si observa 20 regiones, una de ellas mostrará una desviación significativa del patrón esperado. También tenga en cuenta que si las desviaciones estuvieran en los números de Trump pero no en los de Biden, la conclusión a la que se llegaría sería la misma, porque no hay nada en los datos que muestre qué candidato sería ayudado por los números "falsos".
@Charles, por supuesto, un tipo como Blagojevich tiene un gran interés en decir que todos hacen cosas como él.
Veo diferentes gráficos en el artículo de redelephants: las distribuciones de primer dígito son para Milwaukee y Allegheny en lugar de Chicago, el gráfico de segundo dígito es sobre ausencias y no tiene alteraciones de ejes. ¿Cambió el artículo mientras tanto?
@Shadur: fruncimos el ceño ante el plagio, pero eso se resuelve mostrando sus fuentes. Tenemos cuidado de que se citen pasajes laaaargos; mejor resumir y proporcionar un enlace. Pero esto parece una fuente legítima (aunque no revisada por pares).
Relacionado: la ley de Benford y la votación en Georgia math.stackexchange.com/questions/3902008/…
@oddthinking Oh, bien, escribió un artículo más convincente en medium.com. Lo he citado extensamente en mi respuesta.
Para comparar, analicé los datos de Chicago de 2016 y los resultados son los mismos para Clinton/Trump. Entonces, a menos que Clinton se haya beneficiado del mismo "fraude", lo atribuiría a algunas de las buenas explicaciones proporcionadas en esta publicación. Me interesaría ver cómo fue el 2016 en Pensilvania, donde perdió...
Como nota, los datos de Allegheny quizás estarían mejor representados trazando ambas líneas en un solo gráfico, con un eje Y que va de 7 o 7,5 a 12,5 en incrementos de 0,5. Esto evitaría interpretaciones defectuosas debido a las diferentes escalas del eje Y y facilitaría la comparación directa, sin alterar los datos en sí.
¿Qué es "N" en los gráficos? ¿Es el conteo de votos a nivel de distrito electoral?

Respuestas (8)

Esta respuesta solo aborda los segundos gráficos. Dejaré que el matemático Matt Parker se ocupe de la ley de Benford .

Puedo confirmar que [el resultado es] exactamente lo que cabría esperar, eso no está fuera de lugar... Y, en segundo lugar, la Ley de Benford no es una buena prueba para el fraude electoral. Y cito [de la Ley de Benford y la Ley de Detección de Elecciones (2011) ] "La Ley de Benford es problemática en el mejor de los casos como herramienta forense cuando se aplica a las elecciones".

Para los gráficos, las escalas verticales son diferentes. Las escalas verticales estrechas hacen que los cambios parezcan más grandes. Mientras que las amplias escalas verticales suavizan los cambios. El gráfico de Biden utiliza una escala más estrecha que la de Trump.

Los puse todos juntos en un gráfico con la misma escala y ya no se ven tan diferentes.

Gráfico redibujado

No he verificado que los datos del gráfico original sean correctos. Tuve que observar los números de los gráficos.

Es sospechoso porque alguien tuvo que elegir usar diferentes ejes verticales para cada gráfico. Parece un caso sacado directamente de Cómo mentir con las estadísticas .

Los comentarios no son para una discusión extensa; esta conversación se ha movido a chat .
@Oddthinking Gracias por el retoque. El video de Matt Parker hace un muy buen trabajo al abordar la pregunta completa. ¿Debo agregar una sección a esta respuesta para proporcionar más detalles? ¿Hacerlo en una segunda respuesta? ¿O dejarlo como enlace?

Descargo de responsabilidad: no he mirado los datos reales.

En general, el mayor problema con la aplicación de la ley de Benford a los datos electorales a nivel de distrito es que los precintos suelen ser pequeños y de tamaño similar. Por ejemplo, si todos los distritos electorales tienen alrededor de 800 votantes y un candidato obtiene constantemente el 40-50% de los votos, entonces se espera que los primeros dígitos más frecuentes sean 3 y 4.

La ley de Benford funciona mejor en los casos en que los valores abarcan varios órdenes de magnitud, lo que no es el caso aquí.

Para ejemplos concretos, vale la pena mirar los varios problemas de Github en la fuente del análisis:

La desaparición de la ley de Benford en Milwaukee es solo una función de la preferencia de los votantes. Si un candidato tiene entre un 60% y un 80% de probabilidad promedio de recibir un voto, entonces el tamaño de los distritos electorales de Milwaukee es demasiado pequeño para adaptarse a la ley de Benford.

De manera más general, varios artículos cuestionan la utilidad de la ley de Benford aplicada a los datos electorales:

¿La aplicación de la Ley de Benford identifica de forma fiable el fraude el día de las elecciones?

Desafortunadamente, mi análisis muestra que la Ley de Benford es una herramienta poco confiable. Y, a medida que se aplican métodos de estimación más sofisticados, los resultados se vuelven cada vez más inconsistentes. Peor aún, cuando se compara con datos de observación, la aplicación de la Ley de Benford con frecuencia predice fraude donde no ha ocurrido ninguno.

La Ley de Benford y la Detección del Fraude Electoral

No se trata simplemente de que la Ley juzgue ocasionalmente una elección fraudulenta justa o una elección justa fraudulenta. Su "tasa de éxito" de cualquier manera es esencialmente equivalente a lanzar una moneda al aire, lo que lo hace problemático en el mejor de los casos como herramienta forense y totalmente engañoso en el peor.

Si la herramienta no es muy confiable, ¿está siendo utilizada por el Departamento de Estado y debería serlo?
@AndrewGrimm No tengo idea, no era parte de la pregunta. Edite la pregunta agregando referencias a las afirmaciones de que debería usarse, o haga una nueva pregunta.
@AndrewGrimm, la pregunta dice que lo usa el Departamento de Estado, y no para qué. Su fiabilidad depende de para qué se utilice y en qué contexto.
Una respuesta completa analizaría estos datos y los compararía específicamente con el número medio de votos (por candidato) en los "recintos". Además, la distribución del "número de votos" en cada recinto es importante.
"Por ejemplo, si todos los distritos electorales tienen alrededor de 800 votantes y un candidato obtiene constantemente el 40-50% de los votos, entonces se espera que los primeros dígitos más frecuentes sean 3 y 4". Para dar seguimiento a esto: si un candidato va a la zaga en muchos recintos pero domina en algunos otros, digamos, toma de un rango de 25-95% de los votos, entonces eso producirá una mayor dispersión de primeros dígitos, pero aún así tendiendo a evitar el 1 (para estos números). Mientras que el otro candidato tendría un margen de 5-75%, por lo que tendría resultados que abarcarían más de un orden de magnitud, lo que haría que la ley se mantuviera mejor.
Puede reducir la escala de los datos necesarios para aplicar la ley de Benford utilizando un logaritmo más pequeño (es decir, en lugar de base 10, ¿y si lo hiciéramos en base 5?). Tengo curiosidad por ver los mismos análisis aplicados en estos casos también.
Votos de @StevenSagona Chicago por recinto: media 516, mediana 491, desviación estándar 173. Votos de Biden/Harris: media 424, mediana 403, desviación estándar 152. Votos de Trump/Pence: media 83, mediana 61, desviación estándar 80.
@AndrewGrimm, debe agrupar datos en lotes de diferentes tamaños para aplicar la ley de Benford. Por ejemplo, si agrupa los resultados a nivel estatal en lugar de a nivel de precinto, los primeros dígitos siguen la ley razonablemente bien.
Chicago también proporciona los mismos datos para elecciones anteriores. vemos el mismo patrón en 2016. Además, hice el mismo análisis para las elecciones federales alemanas de 2017 y ahí la ley de Benford (1er dígito) simplemente no es aplicable al menos para los partidos principales. Supongo que esto también se relaciona con recintos que tienen aproximadamente el mismo tamaño.
@Enrique. Bien, entonces, a continuación, alguien tendría que comparar esta distribución con distribuciones anteriores en el pasado. Es decir, la evaluación de que la ley Benfords no implica fraude supone que es creíble que esta distribución uniforme de votos sea creíble. Entonces, el siguiente paso sería evaluar qué tan probable es esto. (Por ejemplo, tal vez los tamaños de los distritos electorales sean en realidad muy diferentes y la participación real sea muy diferente entre los distritos electorales).
@Anon Sí, pero eso anulará todo el propósito del análisis. Si hay fraude es porque las personas han estado editando los datos y terminarán haciéndolo de una manera estadísticamente antinatural. Pero si luego transforma dichos datos editados a otra base, los dígitos terminarán siendo aleatorios y la ley de Benford volverá a aparecer.
Esta respuesta llega al corazón de la pregunta, pero también puede valer la pena agregar que es bastante común que los dígitos observados no sigan exactamente la distribución de la Ley de Benford. Pero si ese es el estándar que desea utilizar, comparar los niveles de conformidad no tiene sentido. El gráfico Biden-Harris Benford no se ajusta particularmente a Benford, pero tampoco lo es el gráfico Trump-Pence. Si ninguno se ajusta, entonces ninguno es realmente "mejor" que el otro. Y eso suponiendo que Benford se aplique bien al conteo de votos, que como en la respuesta no está claro.
Y, sin embargo, los votos en todas las demás contiendas coinciden razonablemente bien con la ley de Benford. Es interesante y sugerente que solo los votos de Biden/Kamala se desvíen tan marcadamente de él.
@DrMcCleod Como señala la respuesta de Henry, solo los votos de Trump lo igualan mucho; todos los demás candidatos de terceros partidos tenían un dígito inicial de cero en cientos de distritos electorales. Casi siempre puede encontrar sugerencias en un conjunto de ejemplos lo suficientemente pequeño, especialmente cuando se seleccionan datos; lo primero que haría al pensar en tal teoría es trabajar con las diez elecciones anteriores a esta y ver si la regla se mantuvo para los presidentes anteriores.
@anon hice los números para milwaukee con base5 y funciona para trump, no para biden. El problema con la base 4 es que solo tienes 4 puntos de datos.

Mirando los datos reales de Chicago en https://www.chicagoelections.gov/en/election-results-specifics.asp por precinto a fines del 7 de noviembre, los gráficos de Chicago parecen creíbles, pero la suposición de que la ley de Benford debería aplicarse no lo es. , al menos para Biden/Harris o los candidatos menores.

De los 2069 distritos electorales (la mayoría de los cuales son de tamaño similar en términos generales), Biden/Harris obtuvo menos de 100 votos en 12 distritos electorales y más de 999 votos en 4 distritos electorales. Todos los demás (más del 99%) tenían tres dígitos para sus votos, violando el requisito de que los datos naturales que satisfacen la ley de Benford deben abarcar varios órdenes de magnitud . Más de la mitad de los precintos (1100) le dieron a Biden/Harris de 300 a 499 votos, lo que hace que 3 y 4 sean los primeros dígitos más comunes (el gráfico refleja esto y está cerca de mostrar las frecuencias reales por cientos de votos, por lo que 300-399 era el más común).

Para Trump y Pence, los votos estuvieron más dispersos: 99 distritos electorales con 1 a 9 votos, 1339 distritos electorales con 10 a 99 y 633 distritos electorales con 100 o más votos. Esta dispersión en órdenes de magnitud permitió una mayor posibilidad de acercarse a la ley de Benford.

Para los candidatos menores, solo alcanzaron dos dígitos en un número muy pequeño de distritos electorales (y obtuvieron 0 votos en cientos de distritos electorales, que no se muestran en las tablas), por lo que las tablas están cerca de mostrar su distribución real de votos con censura de 0 y 10. +; de nuevo, no esperaría que se aplicara la ley de Benford.

Chicago fue una elección extraña para investigar por sospechas de trampa en 2020, donde la brecha en Illinois era de 12 puntos porcentuales (1960, cuando era de 0,2 puntos porcentuales, podría haber sido más interesante). Sospecho que se eligió simplemente porque los datos están disponibles públicamente y las distorsiones causadas por el tamaño similar del recinto llevaron a este resultado que no es de la ley Benford. Verá esto en otros lugares por razones similares: en 2019, muy pocos parlamentarios británicos obtuvieron una cantidad de votos que comenzaba con 5 a 9, ya que sus distritos electorales son de tamaños muy similares y los ganadores generalmente obtuvieron en el rango de 10,000 a 49,999 votos, nuevamente fallando el requisito de abarcar varios órdenes de magnitud.

Esa es una buena explicación, aunque no del todo precisa: no existe un requisito para abarcar varios órdenes de magnitud, y la Ley de Benford puede observarse incluso cuando no hay una amplia gama de magnitudes. Si hay un lapso amplio, la Ley de Benford tiende a aplicarse con mayor precisión, pero no es un requisito. Lo que se requiere es que no haya un corte de posibles dígitos principales (un requisito de delimitación).
@ user3570982 No tener múltiples órdenes de magnitud es un límite (suave) de valores posibles en sí mismo.
@SomeoneSomewhereSupportsMonica Eso no es realmente cierto. Mire el ejemplo proporcionado en el artículo de Wikipedia al que se hace referencia: en.wikipedia.org/wiki/Benford%27s_law#Example . Independientemente de las unidades utilizadas, las alturas de los edificios en ese ejemplo difieren solo en un orden de magnitud y, en el caso de los metros, solo 5/58 edificios tienen menos de 100 m, pero se aplica la Ley de Benford; después de todo, es el ejemplo utilizado. Abarcar varias magnitudes no es un requisito, es una regla empírica para juzgar la precisión, pero es una regla que depende en gran medida del contexto.
@ user3570982 - excepto que ese ejemplo no se ajusta a la ley de Benford ya que el patrón de alturas en metros no coincide con el patrón de alturas en pies. "1 es, con mucho, el dígito principal más común" puede ser cierto en ese ejemplo particular en metros y pies, pero no habría sido cierto, por ejemplo, en una escala de medio metro (3 aparecería más a menudo como el primer dígito que 1 ); la distribución general de Benford no coincide con esos datos en ninguna escala.
@ user3570982 Lo que ha dicho es literalmente lo contrario de lo que está escrito en el artículo de referencia. Citaré completamente: "Examinar una lista de las alturas de las 58 estructuras más altas del mundo por categoría muestra que 1 es, con mucho, el dígito principal más común, independientemente de la unidad de medida (cf. "invariancia de escala", a continuación )". En cambio, ha ilustrado exactamente lo que es cierto: requerir un lapso a través de múltiples magnitudes tiende a la precisión, pero esa es una regla general que depende del contexto.
@ user3570982 Ha citado el artículo con precisión, pero esa parte del artículo es simplemente incorrecta. La prevalencia del primer dígito 1 depende de la unidad de medida. Para algunas opciones de una unidad (por ejemplo, pies, metros) 1 es el más común; para otras posibles elecciones de una unidad, no lo es. Henry dio un contraejemplo refutando la afirmación del artículo. La afirmación es "casi cierta", porque este conjunto particular de datos abarca casi exactamente un orden de magnitud y en su mayoría se distribuye uniformemente de manera logarítmica (aunque con un pico notable de alrededor de 175 m).
@David KI debería haberse tomado el tiempo para leer completamente lo que Henry estaba escribiendo, en lugar de concentrarse en la cita parcial. Culpa mía. Sin embargo, lo que ha escrito no "refuta" la aplicación de la Ley de Benford al conjunto de datos de ejemplo dado. De mathworld.wolfram.com/BenfordsLaw.html , "La Ley de Benford se aplica a los datos que no son adimensionales, por lo que los valores numéricos de los datos dependen de las unidades". Es decir, la invariancia de escala no es un requisito para aplicar el análisis, pero cuando se incluyen las dimensiones de la unidad, el contexto específico importa. (continuado)...
@David K ​​Esto ilustra una posible dependencia del contexto de la aplicación de la Ley de Benford, que es, creo, el objetivo principal de lo que Henry escribió originalmente. Sin embargo, eso todavía no significa que la afirmación de que múltiples tramos de magnitud en el conjunto de datos que se analiza es un requisito para la Ley de Benford, sea precisa. No lo es. Es posible que la aplicación de la Ley de Benford a los recintos electorales no sea aplicable por razones contextuales, pero la razón principal dada para rechazar su aplicación (intervalos de magnitud) en realidad no es descalificante.
@ user3570982 Creo que el punto de Henry es que si bien los datos que no abarcan varios órdenes de magnitud pueden seguir la Ley de Benford, como lo habrían hecho las alturas, si algunos entre 160 y 190 m se hubieran dejado fuera de la lista, no hay razón para espera que lo hagan. La afirmación principal que estamos discutiendo aquí es el poder predictivo de la Ley de Benford para los resultados electorales. No se ve bien para eso.
@ user3570982 Si bien es posible que no se requiera abarcar varios órdenes, sí lo es una invariancia de escala (como en la medición en pies frente a metros cuando las unidades no están relacionadas con los observables). Con tamaños de precintos más o menos iguales, estamos mucho más cerca de una situación de Bernoulli. Si cocina una olla grande de sopa de lentejas y la distribuye en platos del mismo tamaño, entonces la cantidad de lentejas por plato no será benfordiana.
@Hagen von Eitzen Eso no es exacto: la invariancia de escala es suficiente para que se aplique la Ley de Benford, pero no es necesaria. Además, su ejemplo en realidad parece ilustrar el argumento general. Si no restringe la cantidad de lentejas por plato, verá una distribución de Benford; si lo haces, no lo harás. Por cierto, esa es exactamente la razón por la que se afirma que la Ley de Benford sugiere fraude electoral: si no limita la cantidad de votos que recibe un candidato, debería ver una distribución de Benford; si restringe (esa es la parte del fraude), entonces la distribución no coincidirá con la Ley de Benford.
@user3570982 Su reclamo está a poca distancia de uno que es verificablemente incorrecto. Si especificamos un poco más el ejemplo de Hagen para imponer que "del mismo tamaño" significa que normalmente se distribuye alrededor de una media con una desviación estándar de, digamos, 10% (lo que parece razonable para la pasta con ojos), entonces la gran mayoría de la distribución estará en un orden de magnitud, y probablemente podrá ver la media específica de la distribución. Habrá una curva de campana alrededor de algún número (quizás se pueda argumentar que esta media en sí misma está distribuida por Benford, pero está donde está).
@Mario Carneiro Estoy de acuerdo. Si restringe las porciones de lentejas para que sean "del mismo tamaño", entonces no debería ver una distribución consistente con la Ley de Benford... porque restringió el tamaño de la porción. Cada vez que agrega restricciones como esa, necesariamente está sesgando el conjunto de datos. Si abre los tamaños de las porciones a tamaños que están fuera del "mismo tamaño", debería surgir la Ley de Benford. De manera similar, si restringe los recuentos de votos de los distritos electorales, también verá algo más que la Ley de Benford... que es el punto. Tenga en cuenta que no estoy diciendo que desviarse de la Ley de Benford demuestre una restricción (fraude).
Mire, no estoy diciendo eso, porque la Ley de Benford no siempre se puede observar con Biden, que hubo fraude, o incluso que la Ley de Benford se aplica correctamente a los totales del precinto. Lo que he rechazado es la mala aplicación de reglas que no siempre son aplicables. La Ley de Benford no requiere invariancia de escala o intervalos de magnitud múltiple para los conjuntos de datos que se analizan. Insistir en que esos son requisitos es simplemente incorrecto. Entiendo que, para muchos, este es realmente un argumento político, pero duplicar las falsedades ciertamente está fuera de lo que consideraría un razonamiento escéptico. De todos modos, tengo que trabajar.
@user3570982 que no abarca al menos un orden de magnitud significa que estaba restringido. Tal vez esa restricción sea natural (la cantidad de hijos que tienen las personas no es Benfordien, pero los datos ciertamente no han sido manipulados). La cantidad de lentejas en un tazón de sopa tampoco ha sido manipulada, es solo una consecuencia natural de que las personas llenen el tazón aproximadamente en el mismo lugar. Si un conjunto de números tiene naturalmente una distribución estrecha (menos de un orden de magnitud 6 sigma), no será benfordiano. Entonces queda la pregunta de si la votación naturalmente tiene una distribución ajustada.
Lo que dijo Rick. Y además, no se trata solo de si la votación en general tiene una distribución ajustada, sino de si la votación en los distritos de Chicago está estrechamente distribuida, donde aparentemente hay una buena razón para que así sea, a saber, que los distritos son todos del mismo tamaño (y también la política no se distribuye uniformemente en ningún sentido). Me mantendría firme en la afirmación de que las magnitudes múltiples son una condición necesaria para una distribución benfordiana o, al menos, no veo ninguna razón a priori para creer que una RV estrechamente distribuida debería ser benfordiana.
@ user3570982 En cuanto a la invariancia de escala, ese no es un requisito de la distribución de Benford, es una propiedad de la distribución de Benford. Realmente no tiene sentido decir que un RV es en sí mismo invariante de escala porque un RV dado tiene una media y esa media cambia si escalas la variable. Pero si se distribuye en Benford, entonces también se distribuirá en Benford una versión escalada de la variable.

Según Wikipedia:

La ley de Benford, también llamada ley de Newcomb-Benford, la ley de los números anómalos o la ley del primer dígito, es una observación sobre la distribución de frecuencia de los primeros dígitos en muchos conjuntos de datos numéricos de la vida real. La ley establece que en muchas colecciones de números naturales, es probable que el primer dígito sea pequeño.
...
Tiende a ser más preciso cuando los valores se distribuyen en múltiples órdenes de magnitud, especialmente si el proceso que genera los números se describe mediante una ley de potencia (que es común en la naturaleza).

La Ley de Beford no es un fenómeno universal, y el hecho de que no se cumpla no es una "prueba" de fraude. Por ejemplo, podemos jugar este juego con los porcentajes de votos que recibió Donald Trump en 2016: 11 primer dígito de 3, 19 primer dígito de 4, 16 primer dígito de 5, 9 primer dígito de y 1 primer dígito de 7 (sí , esto suma 56; algunos estados no asignan electores en función de los totales estatales, y también está DC). ¡Claramente, los porcentajes de votos de Trump fueron fraudulentos! En el hilo de reddit, u/Three-Twelve dice

En el caso de los datos de Milwaukee y Detroit citados en las imágenes anteriores, el número de votos por área de votación no abarca varios órdenes de magnitud, por lo que la Ley de Benford no es aplicable.

El tamaño de un recinto es probablemente un predictor más fuerte de la cantidad de votos para Biden que el apoyo de Biden. Si estas personas quieren afirmar que esto es evidencia de que el número de votantes por distrito electoral no es aleatorio, eso estaría más respaldado por la evidencia, pero también sería mucho más vacuo (no es una noticia trascendental que se prefieran algunos tamaños de distrito electoral sobre otros) .

La cantidad por la cual el nivel de apoyo de un candidato predice su conteo de votos, en comparación con el tamaño del precinto, aumentará cuanto más varíe ese nivel de apoyo (como porcentaje de ese apoyo). Por lo tanto, si el apoyo de Biden varía entre el 90 % y el 95 %, y el de Trump varía entre el 5 % y el 10 %, el apoyo de Biden varía un poco más del 5 % (las matemáticas son un poco confusas, ya que es un porcentaje de un porcentaje ; el 5% es un poco más del 5% del 90%), y el apoyo de Trump varía en un 100% (el 5% es el 100% del 5%). Entonces, los totales de votos de Trump variarán más que los de Biden y, por lo tanto, los totales de Trump tendrán más variaciones en los órdenes de magnitud, y la Ley de Beford será más aplicable (tenga en cuenta que Jo Jorgensen, que tiene incluso menos apoyo que Trump, tiene una distribución que también es más cerca de Benford).

El artículo de Wikipedia dice además:

Basado en la suposición plausible de que las personas que fabrican cifras tienden a distribuir sus dígitos de manera bastante uniforme, una simple comparación de la distribución de frecuencia del primer dígito de los datos con la distribución esperada de acuerdo con la ley de Benford debería mostrar cualquier resultado anómalo.

La distribución de Biden no es consistente ni con Benford ni con una distribución uniforme. Sin embargo, se ajusta muy bien a una distribución de Poisson o lognormal.

Siempre que tenga un análisis estadístico, es importante recordar que lo que puede decirle es que los datos observados son poco probables dada su hipótesis nula. Pasar de eso a que el nulo definitivamente es falso requiere una justificación adicional, y asumir que porque el nulo es falso significa que su alternativa preferida es verdadera es una dicotomía falsa. Si alguien tiene un modelo en el que estos datos de votación son poco probables, todo eso es un argumento a favor de que su modelo es falso. Que los demócratas se comprometan con el fraude es solo una posible forma en que el modelo podría ser falso.

¿De dónde son tus números de Trump? Citar a un comentarista de Reddit como autoridad parece bastante débil. La parte media del análisis necesita referencias; no tenemos ninguna razón para confiar en usted como analista. ¿Quién dice que la distribución de Biden encaja bien con Poisson/lognormal? Sugiero vincular algunas explicaciones de falacias en el último párrafo porque no está claro.
No puede usar porcentajes al aplicar la ley de Benford, ya que no abarcan múltiples órdenes de magnitud. Si usa el conteo de votos sin procesar para Trump 2016, la distribución de los primeros dígitos parece decididamente benfordiana.
@Mark Es muy posible que los porcentajes abarquen múltiples órdenes de magnitud. ¿Quiere decir que estos porcentajes particulares no abarcan múltiples órdenes de magnitud? Ese es mi punto: no todos los conjuntos de datos siguen la Ley de Benford.

La razón por la que la ley de Benford a menudo se cumple para los datos de la vida real es que los datos de la vida real a menudo se distribuyen de manera bastante amplia en una escala logarítmica.

[La Ley de Benford] tiende a ser más precisa cuando los valores se distribuyen en múltiples órdenes de magnitud

https://en.wikipedia.org/wiki/Benford%27s_law

Para pasar de una distribución en una escala logarítmica a una distribución del tipo que normalmente se ve en las ilustraciones de la ley de Benford, haga lo siguiente ( cubierto con más detalle aquí ):

  1. "Envuelve" los cubos ignorando la parte entera del logaritmo de base 10 y usando solo la parte fraccionaria. Si la distribución era amplia, entonces la distribución envuelta será bastante uniforme en el rango [0,1).

  2. Redistribuya en nueve cubos de tamaño desigual, con el cubo más a la izquierda que va desde log 1 = 0 hasta log 2 ≈ 0,30, el cubo siguiente va desde 0,30 hasta log 3 ≈ 0,48, y así sucesivamente. Si la distribución de partes fraccionarias fuera uniforme, alrededor del 30 % de los puntos de datos terminarán en el cubo más a la izquierda, el 18 % en el siguiente, y así sucesivamente.

He aquí un ejemplo de cómo funciona esto para datos que obedecen la ley de Benford: 2069 valores generados aleatoriamente (igual que el número de distritos electorales de Chicago) en una distribución logarítmica normal con una desviación estándar de 10 0,5 :

El gráfico de la izquierda es un histograma de los valores en una escala log 10 con un tamaño de cubo de 0,05. El gráfico del medio es el mismo que el de la izquierda, pero combina cubos con la misma parte fraccionaria. El gráfico de la derecha es el mismo que el del medio, pero con cubos del tamaño de Benford.

Estos son los recuentos reales de votos para Biden en los 2.069 recintos electorales, como se encuentran aquí :

Puede ver que el histograma de la izquierda se parece mucho a los datos artificiales. La única diferencia es que la desviación estándar es mucho menor. Como resultado, los cubos envueltos no se llenan de manera uniforme y, por lo tanto, los cubos del tamaño de Benford no se llenan en proporción a su ancho.

Aquí están los datos correspondientes a Trump:

La distribución parece ser bimodal por alguna razón. Debido a la depresión en el medio, los baldes envueltos se llenan de manera algo menos uniforme de lo que serían, pero aún son más uniformes que los de Biden, simplemente porque la distribución es más amplia. Como resultado, los baldes de Benford se llenan algo más en proporción a su ancho que los de Biden.

¿Qué podemos concluir de esto? Creo que la conclusión principal es que los gráficos del medio y de la derecha son absolutamente inútiles. Cada propiedad de estas distribuciones que podría ser de interés está presente en los gráficos de la izquierda. Los procedimientos que producen los otros gráficos solo ofuscan los datos. ¿Es la buena distribución gaussiana de los datos de Biden evidencia de que se inventaron como mis datos artificiales? ¿La caída en los datos de Trump es evidencia de alguna irregularidad? Tal vez (probablemente no), pero si lo es o no, se puede responder mejor mirando los datos originales. Las gráficas de primer dígito no son útiles en lo más mínimo. La desviación de los datos de Biden de la ley de Benford no tiene nada que ver con la plausibilidad de la misma, y ​​todo que ver con la estrechez de la misma.

En contraste con las gráficas de frecuencia de segundo dígito , no veo evidencia clara de que estas gráficas de primer dígito hayan sido diseñadas para inducir a error. Pero quienquiera que los haya hecho es, al menos, un analfabeto estadístico; para empezar, no entienden por qué la ley de Benford es verdadera, ya que si lo hicieran, habrían adivinado de inmediato (y correctamente) la razón por la cual la gráfica de primer dígito de Biden parece gaussiana.

¿Por qué deberíamos creerle a usted que la ley de Benford es inaplicable y no el demandante diciendo que lo es? Proporcione algunas referencias para respaldar sus afirmaciones.
Esta es una muy buena respuesta, desafortunadamente está redactada de una manera que puede ser demasiado opaca para muchos lectores (de ahí la solicitud de referencias en el primer comentario). Sin embargo, podría resumirse en una sola oración simple: "La bondad de ajuste de la ley de Benford aquí está estrechamente relacionada con el hecho de si los conteos de votos abarcan múltiples magnitudes (por ejemplo, 1...1000 para Trump) o se centran más en un solo orden de magnitud (por ejemplo, 100..999, para Biden)".
@Oddthinking No me queda claro qué se debe citar en una respuesta como esta en la que solo tomo los datos de la pregunta y los clasifico de varias maneras, y señalo que una distribución es más estrecha que otra, etc. ¿Necesito un fuente de algo así como la estrecha desviación estándar de los totales de votos de Biden (que probablemente sería imposible de encontrar)? Agregué un enlace a una respuesta de intercambio de pila matemática que tiene la misma explicación de la conexión entre la ley de Benford y las distribuciones logarítmicas normales amplias.
@benrg: No permitimos la investigación original aquí. No tenemos motivos para confiar en que haya hecho un buen trabajo. Incluso si podemos hacer la aritmética nosotros mismos y confirmar que es correcta, no podemos estar seguros de que haya aplicado el proceso correcto, especialmente para una pregunta donde la aplicabilidad del proceso es la pregunta real. Entonces, defender que todo lo que has hecho es analizar los datos es básicamente decir que esto no es una respuesta.
@Oddthinking No estoy de acuerdo. Esta respuesta es bastante independiente. ¿Tiene algún problema específico con alguna de las afirmaciones hechas en la respuesta? ¿Cuál de las afirmaciones requiere "confianza"?
@BKE: Este es un argumento que seguimos teniendo en este sitio . Personas que piensan que su lógica perfectamente formada es correcta y no necesita justificación. Les recuerdo que el reclamante original TAMBIÉN pensó eso.
Todo el argumento aquí parece ser: así es como se ven los datos que siguen clásicamente la Ley de Benford. Así es como se ven los datos para Biden. No sigue la Ley de Benfords. Así es como se ven los datos para Trump. Sigue mejor la Ley de Benford. Por lo tanto, la Ley de Benford es inútil aquí. Ese último paso podría ser reemplazado por "Por lo tanto, los datos de Biden son sospechosos" con el mismo nivel de justificación dados los datos.
@Oddthinking No parece que estés buscando una justificación para mis afirmaciones; lo que estás buscando es a otra persona que haga las mismas afirmaciones que yo, pero que sea más confiable. Así es como funcionan las fuentes en Wikipedia. Lo que no sé es cuán similar tiene que ser su afirmación a la mía. Si es suficiente que digan que la ley de Benford no funciona con distribuciones estrechas, entonces creo que mis fuentes existentes lo cubren. Si tienen que hablar específicamente sobre los datos de Chicago, entonces creo que la pregunta no tiene respuesta en este momento y, estrictamente hablando, todas las respuestas existentes deberían eliminarse.
@Oddthinking Tampoco entiendo por qué has seleccionado mi respuesta. Una de las otras respuestas no cita nada, una cita solo el artículo de Wikipedia sobre la ley de Benford, y otra cita solo Wikipedia más un Redditor aleatorio en r / donaldtrump que está de acuerdo con ellos, y esas respuestas no están marcadas.
Si está diciendo que no tengo absolutamente ninguna fe en el análisis sin referencia realizado por un azar en Internet: ¡Sí! ¡Exactamente! Idealmente, quiero un análisis revisado por pares y, en su defecto, al menos realizado por alguien con los antecedentes y la experiencia adecuados que podamos verificar. No estás siendo señalado. La respuesta a esta pregunta ha atraído muchas banderas. Muchas otras malas respuestas ya han sido eliminadas. Sospecho que habrá más.
@Oddthinking ¿Un análisis revisado por pares de qué específicamente? ¿Los datos de Chicago? la ley de benford? Por favor, dame alguna pista de lo que necesito agregar para evitar que mi respuesta sea eliminada. Tengo la impresión de que no tiene conocimiento de estadísticas y lo que está buscando es esencialmente un tutorial sobre distribuciones e histogramas que pueda leer para tener una mejor idea de cómo evaluar las afirmaciones; ¿Es eso correcto?

TL; DR: No, no lo hacen; Para empezar, la Ley de Benford no se aplica así y el análisis se hizo mal.

En Twitter , la Dra. Jen Golbeck finalmente perdió los estribos después de demasiados gráficos con fuentes deficientes y lanzó una perorata breve pero informativa al respecto.

Un hilo de tweet es difícil de citar correctamente y, afortunadamente, después de darse cuenta de cuánta atención estaba recibiendo, lo transpuso a un medio algo más confiable . Citaré algunas de las partes más relevantes a continuación.

Primero, un poco sobre el autor: según su biografía, Jennifer Golbeck es profesora asociada en la Universidad de Maryland en College Park y es directora del Laboratorio de interacción humano-computadora. Más pertinente, posiblemente, es que cuando el documental de Netflix ' Connected ' hizo un episodio sobre la Ley de Benford, ella es a quien consultaron.

Primero, una introducción básica a la Ley de Benford y cómo es útil:

La ley de Benford básicamente dice que el primer dígito de los números en algunos sistemas naturales sigue un patrón. Puede pensar intuitivamente que los números que comienzan con 1 son tan comunes como los números que comienzan con 9, pero en muchos sistemas, alrededor del 30 % de los números comienzan con 1 y la frecuencia disminuye hasta que solo el 5 % de los números comienzan con 9. ¡Esto se ve por TODOS LADOS! Mostré que se aplicaba en las redes sociales al conteo de amigos y que podía usarse para detectar bots. Se utiliza en investigaciones financieras y contables e incluso se puede utilizar en los tribunales como prueba de fraude. La longitud de todos los ríos de la tierra sigue este patrón. Pesos atómicos. Coeficientes JPEG. ¡Es alucinante!

Si desea saber más al respecto, Netflix tiene una serie llamada Connected y el episodio 4 (Digits) trata sobre eso. Estoy en ese documental, así que saluda cuando me encuentre con tu pantalla.

Luego pasa a explicar por qué realmente no funciona en los resultados electorales de la forma en que la gente piensa:

En primer lugar, no hay una gran variedad de órdenes de magnitud en el tamaño de los recintos. En la mayoría de los lugares donde se aplica Benford, tiene números de 10, 100, 1,000, 10,000, etc. Los recintos no tienen tanta variación porque no queremos que sean tan gigantes que podamos No cuentes todos los votos. Ese es un golpe contra el trabajo de Benford.

Luego, y esto es realmente importante, los votos en un precinto se dividen (básicamente) entre 2 candidatos en esta elección. (Los candidatos de terceros partidos constituyen un porcentaje tan pequeño que no importan para este punto). Si Trump obtiene X votos, Biden obtiene (básicamente) TOTAL-X.

Digamos que cada recinto tiene 1,000 personas. Si Trump sigue a Benford, Biden NO PODRÍA seguirlo.

Esto no es, de hecho, un desarrollo ni remotamente nuevo:

Tercero, hemos estudiado esto. Sabemos que no funciona. Las personas pueden compartir algunos datos de elecciones pasadas, pero hay décadas de investigación que analizan las elecciones en todo el mundo y está muy bien establecido que el análisis de Benford del primer dígito significativo no funciona aquí. Punto final.

De hecho, ella afirma que las personas que afirman que sí están tratando activamente de engañar:

Todas las personas que leen un artículo de Wikipedia y ponen algunos números en Excel están haciendo lo que describí anteriormente. Sabemos que esto no funciona. Están mintiendo, no solo mal informados. Muchos de nosotros hemos estado corrigiendo incansablemente sus métodos durante los últimos 5 días, pero siguen llegando. Saben que no funciona. Los documentos son todos públicos y están disponibles. A ellos no les importa. Se ve bien para su argumento y están tratando de engañarte.

Como buena investigadora, continúa citando sus fuentes:

Aquí hay una cita de un artículo sobre el tema:

“La Ley de Benford es problemática, en el mejor de los casos, como herramienta forense cuando se aplica a las elecciones… Su 'tasa de éxito' de cualquier manera es esencialmente equivalente a lanzar una moneda al aire, lo que la vuelve problemática en el mejor de los casos como herramienta forense y totalmente engañosa en el peor”.

fuente: Deckert, Joseph, Mikhail Myagkov, Peter C. Ordeshook. "La Ley de Benford y la detección del fraude electoral". Análisis Político 19.3 (2011)

Ella cita algunas fuentes más y reitera la afirmación de que las personas que afirman que se aplica la ley de Benford y prueban el fraude electoral están actuando de mala fe, pero ya he citado demasiado del artículo tal como está.

Yo no tengo los conocimientos matemáticos para comprobar su análisis, pero suena persuasivo.

El profesor Walter Mebane de la Universidad de Michigan ha escrito un artículo (sin revisión por pares) sobre este análisis, Aplicaciones inadecuadas de las regularidades de la ley de Benford a algunos datos de las elecciones presidenciales de 2020 en los Estados Unidos.

Hasta la fecha, no he oído hablar de ninguna irregularidad sustancial que haya ocurrido en ninguna parte, y los conjuntos de datos particulares examinados en este documento esencialmente no brindan evidencia de que ocurrieron fraudes electorales.

Mi interpretación: "Buen intento, pero no".

Mebane enseña análisis forense electoral en la Universidad de Michigan y ha publicado un artículo sobre la Ley de Benford y el fraude electoral.

Podría decirse que Mebane es la principal autoridad en este tema. Él es quien lo aplicó a las elecciones iraníes para probar el fraude.

Su trabajo ha sido criticado en la literatura , pero Mebane ha respondido a esto y todo el mundo parece extrañarlo. Admite que la utilidad de usar la ley de Benford es una "pregunta abierta".

¿He entendido esto correctamente? La mayoría de los comentaristas, y mucho más importante, la mayoría de los expertos citados en las respuestas, han dicho que "la Ley de Benford es inútil para detectar anomalías en las votaciones". Está citando a un experto que es un poco inconformista porque dice que "la Ley de Benford a veces es útil para detectar anomalías en la votación", pero también dice que "en las elecciones estadounidenses de 2020, no hay anomalías basadas en la Ley de Benford".
El punto es que incluso el tipo que usó el análisis de la Ley de Benford para identificar el fraude electoral dice que, en este caso, las aplicaciones adecuadas del análisis BL no indican ningún fraude electoral en 2020. Esto es muy diferente a alguien que dice "La Ley de Benford no se puede usar". para identificar el fraude" a la luz del hecho de que, de hecho, se ha utilizado para identificar el fraude en el pasado.
Fresco. Así que lo he entendido. Estaba bastante confundido por el giro repentino en el último párrafo.

Como ya se señaló, hay 2 gráficos claramente falsos y fácilmente refutables (eje x manipulado) que se han agregado al final de los gráficos de Benford en el sitio web "Red Elephant". Nunca antes había oído hablar de ese sitio, pero creo que es más constructivo referirme a la fuente original del análisis de Biden Benford.

La investigación original está aquí y muestra que los conteos violan la ley de Benford para Biden en varios recintos y distritos electorales grandes en Michigan y Pensylvannia- https://github.com/cjph8914/2020_benfords

y luego reproducido aquí: https://www.youtube.com/watch?v=1VBK2BU0K6k

La ley de Benford muestra que el 30 % de las veces, los números naturales comenzarán con un 1. Solo el 18 % de las veces será un 2 y así sucesivamente hasta llegar a un 9 inicial, que sucede menos del 5 % de las veces.

Hay una escena clave en la película "El Contador" cuando finalmente se descubre el fraude con esta técnica (debido a la frecuencia del número 3, en el segundo dígito de los totales). Esta es una aplicación de la ley de Benford . En una entrevista, un agente del FBI dijo que usan esta técnica todo el tiempo para detectar fraudes ( https://www.thewrap.com/accountant-adds-up-real-review-ben-affleck ) y este es el mismo análisis que la gente ha estado haciendo en los últimos días para investigar el conteo de votos en los estados indecisos.

Escena de “El Contador” donde Ben Affleck prueba el fraude con la ley de Benford: https://youtu.be/qdMo4ZnTyNs?t=66

Esta respuesta sería mejor si no citara una película ficticia. Y el hecho de que la Ley de Benford sea aplicable para encontrar un posible fraude contable no significa que sea aplicable al fraude electoral.
Cité la película ficticia porque eso es sobre lo que se entrevistó al agente del FBI en el enlace anterior. El agente del FBI Cooper dijo sobre la técnica: "Wolff también identificó una serie de transacciones sospechosas por la frecuencia inusual del número 3 en sus valores en dólares. Cooper dijo que era un uso de la ley de Benford, que establece la distribución prevista de números en un conjunto de datos que ocurren naturalmente, y algo que los contadores usan todo el tiempo, a través de programas de computadora que analizan datos, para detectar posibles puntos problemáticos e identifica patrones que van en contra de lo normal.
Si consulta las otras respuestas, y de hecho las referencias a la Ley de Benford en la pregunta, verá que, incluso si es aplicable a algunas áreas (limitadas) de la contabilidad, no se espera que la Ley de Benford sea fuertemente aplicable a los votos electorales, debido a la falta de una escala ampliamente variable. Su respuesta elude este error fatal en el análisis.