Introducción de pruebas A/B en la política

¿Existen casos en los que un gobierno utilizó leyes de "prueba" para determinar el efecto de una política antes de promulgar esa política en toda la población? Por ejemplo, antes de implementar un plan en todo el país, ¿dar algo de dinero a una región que quiera probarlo o hacer una prueba A/B con dos regiones? ¿Cuáles fueron las justificaciones utilizadas para este tipo de pruebas?

¿Cómo propone igualar otras condiciones en dos regiones para hacer pruebas A/B adecuadas?
"¿Tiene sentido?" es una pregunta basada en la opinión. Dependiendo de la ley, las regiones en las que desea probarlo y su umbral personal para "tener sentido", puede llegar a conclusiones completamente diferentes, ya sea que "tenga sentido" o no. Lo que podría preguntar en cambio es si es constitucional hacer esto en su distrito electoral favorito o si existen tales experimentos en su área de interés político favorita. Por ejemplo, de hecho hubo experimentos regionales para probar qué sucede si todos reciben ingresos básicos o si todos deben tener un arma de fuego en su hogar.
@Philipp "tiene sentido" seguro que no es la redacción adecuada, ya que me refiero a aumentar el índice de desarrollo humano
@ J.Doe Dependiendo de cómo desee que se interprete la "ley", es discutible que esto ya suceda. En múltiples jurisdicciones, las regulaciones y los procedimientos se prueban con frecuencia en regiones geográficas más pequeñas antes de introducirse a nivel nacional. Por supuesto, la legislación primaria es un asunto diferente.
@origimbo genial, no sabía eso; ¿Hay ejemplos recientes?
No es precisamente geográfica, pero Finlandia tuvo una prueba aleatoria de la Renta Básica Universal como un plan de bienestar. Al final optaron por no adoptarlo. theguardian.com/world/2018/apr/23/…
@origimbo sí: ¿y hay ejemplos geográficos?
Sí. De hecho, he encontrado algunos UBI. wired.co.uk/article/…
@origimbo hubo otro en una ciudad de Cailfornia, salió en la prensa hace unas semanas. Y hay proyectos de prueba que reciben exenciones de algunas leyes (por ejemplo, hubo una prueba de tratamiento de drogadictos con heroína en lugar de metadona).
A menudo escuché que se hace referencia a los EE. UU. como el Laboratorio de la Democracia. La naturaleza federal de los EE. UU. significa que cualquier estado puede aprobar una ley y solo afectar a un subconjunto de la población y luego los otros estados o los federales pueden ver los resultados y promulgarla. dar cuenta de alguna implementación errónea, o incluso rechazarla directamente. La ley de atención médica de Obama se basó en gran medida en la Ley de Massachusetts y la Ley Federal del Sueño propuesta se basó en la Ley del Sueño completamente implementada de Maryland.

Respuestas (3)

Estos se denominan pilotos de políticas. El gobierno del Reino Unido tiene una encuesta de ellos alrededor de 2003 (bastante anticuada), que cubre los EE. UU. y el Reino Unido, pero la mayoría son bastante oscuros, por ejemplo.

Esquema de Retención y Promoción del Empleo (ERA): Objetivo: Una prueba de la eficacia de los nuevos servicios para mejorar la retención del empleo y las perspectivas de promoción para los trabajadores con salarios bajos

o

Órdenes de prueba y tratamiento de drogas (DTTO) – [Ejecutivo escocés] Objetivo: Piloto para informar decisiones sobre si introducir DTTO en Escocia y proporcionar evidencia sobre las implicaciones logísticas, financieras y de reducción del crimen de la política.

También la encuesta señala que

Greenberg y Shroder's Digest of Social Experiments (1997) describen más de 140 ensayos de políticas estadounidenses de un tipo u otro. [...] Algunos de estos ensayos fueron diseñados para medir el impacto, algunos procesos y algunos ambos, pero todos tenían como objetivo evaluar con la mayor precisión posible una opción particular (o conjunto de opciones) contra el contrafactual.

Como se señaló en los comentarios, uno más conocido es el de Finlandia sobre la renta básica .

También la encuesta del Reino Unido señala esta interesante distinción entre EE. UU. y el Reino Unido.

Por alguna razón, la mayoría de los ensayos de políticas que habitualmente emplearían ensayos aleatorios de individuos en los EE. UU. tienden a realizarse con métodos algo menos rigurosos en Gran Bretaña. Esto es en parte una función de los diferentes sistemas políticos. Muchas políticas en los EE. UU. se implementan y evalúan dentro de un estado antes de una implementación nacional y sin ningún compromiso de hacerlo. Ya sea que estén respaldados por fondos federales o no, estos son realmente planes piloto que se abandonarán si resultan ineficaces. La estructura más centralizada de Gran Bretaña hace que este tipo de experimentación e innovación sea más complicado. Como se señaló, muchas más políticas aquí se basan en compromisos manifiestos u otros anuncios previos bien amplificados, lo que significa que existe un compromiso más fuerte del partido con su éxito.

Básicamente, una mayor descentralización parece conducir mejor a la realización de dichas políticas piloto... solo porque una región puede decidir por sí misma (ya que puede) implementar un cambio, actuando así efectivamente como piloto para el resto del país; pero tales pilotos no están muy bien controlados en términos de alternativas, factores de confusión, etc. Probablemente "experimento natural" sea un mejor término para los pilotos regionales, pero esa es solo mi opinión.

Cuasi-experimento podría ser un término útil para piloto regional. Un experimento natural es otra cosa: es esencialmente un estudio observacional en el que los investigadores descubren alguna variable peculiar que asigna a los sujetos a un tratamiento después del hecho, sin que necesariamente se den cuenta.

En los Estados Unidos, existe la noción de que los estados son "bancos de prueba" para nuevas políticas. En este sentido, cada estado prueba las políticas antes de que el gobierno federal las promulgue (o no las promulgue) para toda la población nacional.

Esto se enseña comúnmente en los cursos de introducción al gobierno estadounidense en las discusiones sobre el federalismo, pero fue articulado de manera más formal por el juez de la Corte Suprema Brandeis en 1932.

A modo de ejemplo, las leyes sobre el uso de la marihuana varían entre los estados: ingrese la descripción de la imagen aquí[Fuente - Revista Gobernante]

En cierto sentido, los estados están probando diferentes políticas que pueden ser adoptadas posteriormente a nivel federal.

Es interesante ver que la terminología de las pruebas A/B aparece en muchos lugares, desde la política hasta la cocina, donde de hecho es la forma en que la comunidad de desarrollo de software/web llama a los buenos experimentos científicos antiguos. El método básico existe desde al menos el siglo XVI y ha sido muy refinado y utilizado de forma rutinaria en entornos aplicados durante el siglo pasado, por ejemplo, en agronomía, medicina o psicoterapia. Otros campos no han esperado a que las pruebas A/B basadas en la web evalúen empíricamente las intervenciones, ya sea que lo llame "ensayos clínicos", "experimentos" o cualquier otra cosa. Por lo tanto, tiene sentido y se ha hecho durante décadas: muchos países implementan políticas regularmente en un "piloto" o "prueba" limitado, a menudo en un estado, provincia, ciudad, oficina, carretera, estación de tren, etc.

En política y economía, una dificultad es que es prácticamente imposible tener un enfoque puramente experimental, en el que se asigna aleatoriamente un tratamiento a un gran número de unidades de prueba. A lo sumo, puede introducir una política tentativa para un país o un par de regiones y compararla con otros países, pero ese es solo un dato y es difícil descifrar el efecto de su intervención (el cambio de política) de una miríada de otros factores (una idea relacionada es la de un “ cuasi-experimento ”). Tampoco puedes analizar esto correctamente a nivel individual (como lo harías con las visitas en un sitio web) porque los habitantes de un área específica tienen mucho en común que podría distorsionar los resultados.

Otro tema espinoso es la definición y medición del resultado. El índice de desarrollo humano es un índice compuesto que trata de resumir varias variables, presumiblemente independientes (aunque en este caso particular, este punto en particular está en disputa). Como tal, el peso que le da a estas variables o factores está abierto a debate. Traducir un concepto complejo como el desarrollo en una cantidad medible (“operacionalizar”) no es trivial, ni práctica ni teóricamente. Y una vez que una medida se reconoce como algo deseable o se usa para evaluar el desempeño, las personas tenderán a cambiar su comportamiento para apuntar a la medida en sí misma o jugar con el sistema (esto se conoce, entre otros, como la ley de Goodhart o la ley de Campbell).

La implementación de una política también implica costos significativos. No puede simplemente probar cualquier intervención que se le ocurra y obtener resultados rápidos mediante la implementación de una nueva versión en un servidor durante unas horas sin que nadie se dé cuenta. Debe desarrollar la política, crear una base legal para el juicio, obtener la aceptación de varias partes interesadas, capacitar a los funcionarios públicos, etc. Para justificar todo esto, también necesita un caso sólido de que la política podría funcionar y después de tanto inversión en el juicio, es difícil obtener una evaluación imparcial. Para cuando se lleve a cabo el juicio, habrá muchas personas con un interés emocional, político o financiero en su éxito.

Debido a estas dificultades técnicas, la evaluación del efecto siempre es complicada e implica mucho modelado y difícilmente se pueden esperar “resolver” los desacuerdos políticos de esa manera.