¿Por qué los taquígrafos todavía están empleados y presentes en muchas cámaras gubernamentales?

Ayer salió a la luz una noticia sobre el desmayo de una taquígrafa en el Senado de los EE. UU., lo que provocó un breve receso mientras la atendían médicamente.

Al escuchar esto, comencé a preguntarme por qué se siguen empleando taquígrafos para este puesto, trabajando desde el piso de la cámara, cuando vivimos en una época en la que la tecnología podría hacer un mejor trabajo que tener a alguien escuchando y tecleando a mano lo que son. audiencia. Además, ya existen numerosos dispositivos de grabación en todo el piso de la cámara del Senado, la Cámara de Representantes y probablemente en la mayoría de las otras cámaras gubernamentales estatales e internacionales.

Específicamente en el caso del Senado de los EE. UU., hay más de unos pocos micrófonos y también tiene múltiples transmisiones de video que graban lo que está sucediendo. La tecnología moderna puede convertir fácilmente el audio hablado en texto y, aunque el proceso no es perfecto, probablemente sería más preciso si se convirtiera automáticamente en texto y luego lo revisara un taquígrafo que compara las grabaciones de cada sesión con las generadas por computadora. transcripción.

Entiendo la importancia de mantener registros completos y actas de las reuniones gubernamentales, pero en un lugar como Capital Hill, me parece que un enfoque mejor y más preciso para mantener dichos registros sería implementar una tecnología efectiva.

¿Hay alguna buena razón por la que todavía se empleen taquígrafos para generar manualmente las transcripciones de las reuniones?

ACTUALIZAR

Lancé esta pregunta con la suposición muy básica de que las transcripciones generadas por humanos no son necesarias cuando la tecnología ya está grabando todo este material y el software de autodictado ciertamente podría transcribir lo que se dice con una precisión moderada.

Después de leer los comentarios a continuación, recordé además que los taquígrafos en realidad NO registran las palabras que escuchan, en el sentido típico. ¡En cambio, un taquígrafo está capacitado para escribir fonéticamente lo que escucha para que pueda escribir a velocidades de más de 200 palabras por minuto!

Creo que esto hace que mi pregunta sea aún más relevante. Es cierto que el software de reconocimiento de voz aún es imperfecto, pero si el sistema está diseñado para diseccionar sonidos, en lugar de palabras, ¡la computadora podría hacer un trabajo mucho mejor en la transcripción que un humano! Esto se debe a que los sonidos simples, incluso a gran velocidad, serían más fáciles de reconocer que las palabras completas.

¿Puede aclarar "revisado por un taquígrafo que revisa las transcripciones de cada sesión contra la transcripción generada por computadora"? ¿A qué transcripción no informática te refieres?
Una de las razones es que muchas jurisdicciones prohíben la grabación de video o audio de las sesiones de la corte... Espero que eso lo haga sentir más seguro de que su gobierno no le está ocultando nada.
@Bobson Lo que quiero decir es que el software podría generar la transcripción y luego alguien podría revisar rápidamente la salida. Además, si alguna vez surgieron preguntas sobre lo que se dijo, siempre se puede volver atrás y escuchar directamente el audio o incluso ver el video (lo que sería útil si un político estuviera hablando activamente sobre un gráfico frente a él). Simplemente parece para mí que incluso si se emplearan otras técnicas, alguien sentado allí tecleando a mano todo ese diálogo simplemente no es el mejor enfoque para mantener registros completos.
@SoylentGray Aunque es posible que no entienda una ley tan arcana, en un caso tan extraño tendría sentido por qué habría un taquígrafo. Sin embargo, donde no es ilegal tener dispositivos de grabación, a menudo hay muchos dispositivos de grabación. Entonces, ¿cuál es el punto de introducir el error humano?
Los taquígrafos no operan puramente fonéticamente. Su mecanismo de grabación puede estar basado en la fonética, pero procesan el habla de las personas como si fuera un lenguaje, por lo que saben el significado de las palabras que están transcribiendo fonéticamente. Y el producto final del trabajo de un taquígrafo es, de hecho, una transcripción que casi invariablemente usa la ortografía correcta para las palabras que tienen homófonos, como they're, their y there. Además, el software no elimina el error humano; simplemente lo cambia al programador.
¿Quizás se han introducido leyes para reemplazarlos? Simplemente no podemos encontrar un registro en la transcripción... Más en serio, tener un ser humano con quien interactuar puede ser útil en situaciones en las que la transcripción debe recuperarse o modificarse. Generalmente este tipo de cosas no son un registro de los hechos de lo que se dijo, sino más bien la narración.
Lo difícil de esta pregunta es que está pidiendo explicar un no evento.
@RLH: todo lo grabado se puede revisar. Cualquier cosa que pueda ser revisada puede usarse contra un juez o consejo. Esa es realmente la única razón por la que veo que permanece en el 99,99% de los casos. Entiendo que hay algunos casos en los que el tema es muy delicado, pero esos son definitivamente una minoría.
@origimbo tiene un buen punto. Es muy fácil que se elimine algo del registro (o se modifique de otro modo) si el registro se genera a mano. Si su único registro es digital, no puede estar seguro de que realmente se eliminó y no hay una copia de seguridad en alguna parte, además, necesitaría a alguien que vigile el registro en tiempo real para poder realizar cambios como ese sobre la marcha, por lo que todavía necesita a alguien allí mismo escuchando y siguiendo.
Aquí hay una respuesta de un taquígrafo real (no un taquígrafo legal, sino un taquígrafo para personas sordas o con problemas de audición). stenoknight.com/FAQ.html#cartspeech (como nota al margen, esta es la misma mujer que desarrolló su propio teclado estenográfico de código abierto, para el cual existe una comunidad entera detrás. Soy un gran admirador de su trabajo).
@bobson: creo que la capacitación para usar ese tipo de sistema sería mucho más fácil que aprender a usar una máquina de estenografía. Y no creo que realmente tenga que ser en tiempo real en la mayoría de los casos. Actualmente, la mayoría de los casos ni siquiera son registrados por un taquígrafo a menos que sean juicios con jurado.
Esto se debe a que los sonidos simples, incluso a gran velocidad, serían más fáciles de reconocer que las palabras completas. ¿Qué te hace pensar que? Hasta donde yo sé, exactamente lo contrario es cierto. Los otros sonidos en una palabra (y la otra palabra en una oración) son una pieza de contexto muy útil, que se puede aprovechar para resolver ambigüedades y mitigar problemas con la clasificación de sonidos sin procesar.
Estoy de acuerdo con Relajado. Los humanos son mejores que las máquinas en esta tarea.
Me interesó mucho este tema en general a raíz de la "transcripción" de la conversación telefónica de Trump con Zalensky. Lo que se explicó (por ex directores de Situation Room) fue que las palabras de Pres no se graban, sino que un "operador" repite todo lo que se dice en un micrófono que se ingresa al software de reconocimiento de voz. La razón de este proceso de "repetición" es que el software ha sido "entrenado" para reconocer las características del habla del repetidor. Dado que el texto aparece prácticamente instantáneamente, otros "oyentes" toman notas para sugerir correcciones.
(continuación) Un contratista comercial en DC que afirma prestar servicios en las audiencias del Senado y la Cámara de Representantes también explicó por qué se podrían usar "escritores de voz" en lugar de estenotipo estándar. COSTO. "Los escritores de voz (usuarios de Speech-Rec) son mucho más caros que las estenotipias (esta empresa ofrece ambos tipos). El motivo del costo adicional es que los escritores de voz tienen una capacitación y certificación más extensas (y tienen una mayor demanda).
Buena suerte tratando de darle malware a un taquígrafo.

Respuestas (5)

No pude encontrar una respuesta en línea, así que llamé a la Oficina del Secretario de la Cámara para preguntar por qué usan taquígrafos en lugar de dispositivos de grabación electrónicos. Me dieron una lista de razones:

  1. Para preservar el decoro de la Casa.
  2. A los miembros de la Cámara les gusta tener un taquígrafo con el que puedan hablar sobre el registro (para que vuelvan a leer algo o para que lo ayuden a ubicar materiales en el registro).
  3. El uso de dispositivos electrónicos está limitado en el Congreso. Esto se debe tanto a preocupaciones de seguridad como de infraestructura.
  4. Con taquígrafos tienen acceso instantáneo al registro. Con los dispositivos de grabación, este puede no ser el caso.

Algunas de estas razones parecen mejores que otras, pero ahí están "de boca de caballo".

@Bobson - ¡Gracias! Para ser honesto, era la única forma de obtener una respuesta que no fueran solo conjeturas (que pude encontrar).
Esta es la respuesta. Yo también me hago eco de los sentimientos de Bobson: +1 por llamar a la Oficina del Secretario y preguntar.

La respuesta es simple.

  1. Porque la máquina no puede adivinar quién está hablando. El taquígrafo ve quién habla y escribe el nombre. (esto debería ser suficiente)
  2. Porque, muchas veces, los oradores hablan sin micro (sobre todo durante una discrepancia) y la máquina no graba nada. El taquígrafo está allí y escucha y escribe.
  3. Porque el taquígrafo tiene que dar la imagen de conjunto de lo que pasa en el parlamento (voces, objeciones, aplausos, etc.). La máquina no puede hacer eso.
  4. Porque las actas tienen algún formato estándar en algunos casos. Por ejemplo para la votación no se escribe lo que se dice, sino que se utiliza un formulario específico para dejar claro lo que vota cada partido.
  5. Porque el hablante no siempre habla a la perfección ya veces comete graves errores. Alguien tiene que revisar los errores gramaticales u otros errores para proteger al orador, etc.

Pero estoy de acuerdo en que no hay razón para que los taquígrafos lleven las actas taquigráficas ya que hay registradores. La taquigrafía debe usarse solo para intervenciones sin micrófono.

¡Es una respuesta tardía pero realmente buena! Bienvenido al sitio.
¿Tiene alguna evidencia de que esta es realmente la razón por la que se utilizan taquígrafos? ¿O es esto una especulación?
Gracias, Talha Irfan por su bienvenida. Ayer vi el post por casualidad.
indigochild Trabajo como taquígrafo en el parlamento griego y lo sé por experiencia.

Si entiendo correctamente, está preguntando por qué no se usa el software de reconocimiento de voz en lugar de escribir manualmente lo que uno escucha.

Aunque el reconocimiento de voz es muy avanzado hoy en día (y está disponible para varios tipos de dispositivos), todavía existen algunos problemas técnicos relacionados con la identificación correcta de todas las palabras.

Este artículo nos habla de algunos de estos temas:

  • Dificultad para identificar la palabra correcta en el contexto de la oración en la que se usa cuando hay otra palabra que suena similar (p. ej., si el usuario quiere decir "usar" o "dónde")
  • Variables ambientales como niveles de ruido de fondo, maquinaria y otros ruidos presentes en el lugar de trabajo
  • Variables del hablante que incluyen estrés, emoción, calidad del habla y salud
  • Diferencias como acentos y dialectos.

Por supuesto, algunos de estos problemas se pueden abordar mediante el uso de técnicas de inteligencia artificial/aprendizaje automático (p. ej., identificación adecuada de palabras según el contexto), pero aún existen algunas dudas.

Otro enfoque es configurar una tolerancia muy baja (no hacer suposiciones cuando la palabra no es muy clara) y permitir que la computadora interrumpa el discurso y pida repetir una frase. Aunque esto puede proporcionar una confianza muy alta en el reconocimiento de voz, puede resultar confuso para algunas personas.

Este artículo también menciona algunas dificultades para reconocer correctamente el habla rápida, cuando las palabras tienden a estar unidas (habla continua en lugar de habla discreta):

El reconocimiento de voz continuo opera en el habla en la que las palabras están conectadas entre sí, es decir, no separadas por pausas. Reconoce el habla analizando las palabras y las relaciones entre las palabras (contexto). Esto contrasta con el reconocimiento de voz discreto en el que cada palabra debe identificarse como una entidad, es decir, como una unidad identificable individualmente sin tener en cuenta las relaciones entre las palabras. Debido a que este último requiere que el hablante haga una pausa entre cada palabra, la producción de palabras por minuto (aproximadamente 150 por minuto) es demasiado baja para usar en muchos entornos .

También puede haber un problema jurídico si la transcripción es incorrecta de una manera que distorsiona claramente el mensaje. No se puede echar la culpa a la máquina.

Un posible enfoque es hacer que el reconocimiento de voz funcione con muy pocas interrupciones y que una persona revise el texto después. Aunque un ser humano puede revisar el texto, hay una falta de retroalimentación (no se puede pedir una aclaración en tiempo real).

Conclusión: Las posibles razones para no utilizar el reconocimiento de voz en reuniones oficiales son: limitaciones técnicas y/o cuestiones jurídicas.

Coincidentemente, este bar de Toronto, globalnews.ca/news/3308523/… , recibe llamadas cuando Siri de Apple confunde eSport y escolta ...
@DJohnM - Esa es buena :)

Sé que esta es una publicación algo antigua, y leí esta pregunta hace un tiempo, con respecto a por qué los stenos todavía se usan en las cámaras gubernamentales (así como en las salas de audiencias, las deposiciones, los subtítulos y en las aulas universitarias, en vivo o de forma remota, para el personas con discapacidad auditiva) y lo encontré de nuevo hoy y solo tuve que responder.

Es fácil suponer, cuando uno no "informa" o "trabaja con" la palabra hablada, que el reconocimiento de voz/grabación de audio son una mejor alternativa a los reporteros en vivo (taquígrafos). Sin embargo, nada podría estar más lejos de la verdad.

Escribir (así es como lo llamamos, no "escribir a máquina") la palabra hablada, en vivo, es un ejercicio de inmensas capacidades cognitivas, así como de habilidad física. No se trata simplemente de "poner las palabras en papel", por así decirlo. Capturar voz en vivo puede parecer una tarea fácil y rutinaria, pero es todo lo contrario.

Un taquígrafo ha pasado por años de capacitación para llegar al punto de producir texto en tiempo real (y años de experiencia laboral para obtener un empleo en este alto nivel gubernamental). Este entrenamiento consiste en años de práctica (como un instrumento musical) para poder mantener la velocidad del habla. La mayoría de los taquígrafos altamente calificados pueden "escribir" a una velocidad de más de 300 palabras por minuto o spm (golpes por minuto) con una precisión cercana al 99 por ciento.

Los taquígrafos aprenden a escribir fonéticamente en un taquígrafo o teclado de 22 teclas en blanco (algunos tienen un par de teclas más si se desea), y existen varias "teorías de escritura" disponibles. También usan resúmenes y pulsaciones rápidas de teclas para palabras y frases comunes, y su diccionario personalizado traduce el código de taquigrafía al inglés inmediatamente. Construyen "diccionarios de trabajo" (además de su diccionario principal) relacionados con el tema en el que están trabajando, lo que significa una traducción posterior más limpia, especialmente cuando se trata de temas obtusos y difíciles.

NO ESTÁN tecleando letras individuales, a menos que esa "letra" deba traducirse como una letra alfabética real o esa tecla individual se traduzca a una palabra real (dependiendo de cómo el taquígrafo programe el software). Pueden escribir segmentos completos de voz con una sola pulsación de tecla. Si bien hay un puñado de teorías en las que un taquígrafo puede embarcarse, una vez que todo está dicho y hecho, TODOS Y CADA taquígrafo tiene su propio estilo de escritura, su propio "código" que crean y construyen, después de graduarse de la escuela. Incluso dos reporteros que aprendieron la misma teoría básica tendrán un estilo de escritura completamente diferente. Es una forma de arte.

Y, por cierto, solo alrededor del 3 por ciento de cada clase inicial se convierte en taquígrafo de pleno derecho. Hay una tasa de abandono dramática porque la habilidad es extremadamente difícil de aprender: el equivalente a aprender un nuevo idioma y un instrumento musical al mismo tiempo... y aprenderlo RÁPIDAMENTE y CON PRECISIÓN.

Los taquígrafos pueden discernir quién está hablando (colocar el nombre del orador en el registro), así como ignorar ruidos extraños, lidiar con acentos, habla poco clara, puntuar mientras escriben, etc., etc. No es poca cosa. Además, un taquígrafo debe tener una gran comprensión del idioma inglés (vocabulario y conocimiento en prácticamente todos los campos/temas) para poder capturar el registro.

También está el tema muy importante de la puntuación. Puede parecer simple, pero, al escribir en vivo, puede volverse complejo. Los oradores cambian de pensamiento a la mitad de la oración, se cortan entre sí a la mitad de la oración, hablan entre ellos, usan una gramática incorrecta (incluso personas con un alto nivel educativo) y, por supuesto, divagan e inventan palabras, por nombrar solo algunos problemas. El steno está "en él" y puede puntuar adecuadamente para asegurarse de que lo que aparece en el texto final es realmente lo que estaba transmitiendo el orador. Como todos sabemos, la puntuación incorrecta puede tener resultados desastrosos.

Stenos también aclarará inmediatamente cualquier discurso poco claro, en el acto. Esto no puede ser hecho por una máquina o una grabación. ¿En cuanto a tener los procedimientos grabados y luego mecanografiados? Ahora que ES arcaico. Stenos produce la transcripción/texto segundo a segundo, generalmente con una pequeña cantidad de tiempo, después de que se completan los procedimientos, revisando el texto, verificando pequeños errores, corrigiendo la puntuación errada, o tal vez posiblemente una palabra que no se tradujo (apareció como código de taquigrafía) antes de enviar la versión final, si es necesario.

Los stenos pueden imbuir el registro con su experiencia de vida además de los temas aprendidos. Esto es crucial y a menudo se pasa por alto. El taquígrafo está comprendiendo, siguiendo, mientras escribe, utilizando su base de conocimientos y habilidades para crear el registro. DEBE haber un "cerebro" educado involucrado en el proceso, en el momento del procedimiento, no después del hecho.

El software que usan los stenos también graba automáticamente el audio a medida que lo escriben. Está sincronizado con la palabra. Por lo tanto, si alguien quiere escuchar algo reproducido, no es necesario retroceder/avanzar/etc. ya que el steno puede hacer clic en el lugar exacto y reproducir el audio si es necesario.

Quería dar una idea de los antecedentes y la formación de un taquígrafo para que la siguiente afirmación tenga más sentido: en la actualidad, los taquígrafos son la ÚNICA forma de traducción de voz a texto fiable, rápida y precisa. La IA no es capaz de procesar procedimientos intensos (o incluso procedimientos no intensos) y probablemente nunca lo será, al menos no en nuestra vida. Funciona muy bien para comandos simples o preparación de correo electrónico de un orador (más o menos), pero ese es un entorno MUY diferente del trabajo de un stenos, que comúnmente consiste en múltiples oradores, argumentos acalorados, mucha emoción, temas densos de máxima importancia.

Hacer que alguien escriba a partir de una grabación de audio generalmente genera numerosos errores debido a un audio deficiente, falta de educación por parte del transcriptor, fallas en el equipo Y toma hasta cuatro veces más tiempo, y eso es con una grabación de "buena calidad". ¿Por qué escribir cuando un steno puede tener la palabra escrita en la pantalla en un segundo?

La idea de que alguien revise una transcripción preparada por AI para corregir los NUMEROSAS errores es, nuevamente, rayana en lo arcaico (en comparación con lo que ofrecen los stenos) y consume mucho tiempo y conduce a errores (nadie a quien pedir una aclaración después de el hecho - posiblemente una baja base de conocimientos, siendo incapaz incluso de saber qué palabra falta, el significado de las oraciones, etc.). Todo taquígrafo sabe que si no escuchó/entendió algo en vivo, es muy poco probable que su sincronización de audio (grabación digital en SW) represente las palabras/términos más claros. Entonces, explique cómo este escenario sería diferente para alguien que "verifica" un "intento" de IA de analizar el habla. Una vez más, toma MUCHO más tiempo ya que básicamente tiene que escuchar todo el procedimiento OTRA VEZ para poder hacer las correcciones tediosas/abrumadoras.

Stenos toca un "piano verbal" y ha pasado años obteniendo la habilidad y el conocimiento necesarios para tener éxito en el campo. Stenos actualiza constantemente su base de conocimientos, diccionarios (los archivos que traducen el código) y software/hardware. Stenos utiliza tecnología extremadamente sofisticada.

Y, finalmente, los stenos NO ESTÁN creando "minutos". Están creando un relato textual de todo lo que se dijo. Gran diferencia.

Muchos tribunales han cometido el error de creer que tener los procedimientos grabados en audio y luego mecanografiados si es necesario sería excelente y ahorraría toneladas de dinero. La mayoría de esos tribunales han vuelto a traer los stenos en vivo, una vez que se dieron cuenta del error de sus formas en cuanto a transcripciones incompletas, transcripciones llenas de "inaudible" y grandes retrasos en la recepción de dichas transcripciones.

Los taquígrafos desempeñan un papel vital en la administración de justicia, registrando eventos para la posteridad y siendo los "oídos" de las personas sordas y con discapacidad auditiva. Es un campo muy mal entendido que contribuye a que se hagan afirmaciones/preguntas como la que estoy respondiendo. Y solo he esbozado brevemente la formación y los beneficios de un taquígrafo.

Espero que esto arroje más luz sobre por qué los stenos son el ESTÁNDAR DE ORO en la captura de voz en vivo.

También recomiendo encarecidamente leer esto:

https://clereporting.com/court-reporters-v-digital-recording-and-voice-recognition-a-comprehensive-breakdown/

Ofrece un análisis muy detallado de los beneficios de los stenos sobre la IA y la grabación digital, así como un poco más de información sobre cómo se usa la máquina steno (miles de posibles combinaciones de teclas) y realmente aclara estos puntos mucho mejor que yo.

Gracias por su respuesta y es una información invaluable. Curioso, ¿cuáles son tus antecedentes personales y por qué estás tan familiarizado con estos detalles? ¿Eres taquígrafo o trabajas con uno? Agradezco el fascinante nivel de detalle de su respuesta.

Si bien la pregunta se refiere al Senado de los EE. UU., visité tanto el parlamento bávaro como el Bundestag alemán y recibí una breve introducción de por qué estos todavía dependen de taquígrafos.

  1. No solo captan quién habla (es decir, en el micrófono principal), sino que también captan cosas como risas en el SPD, burlas en la CDU, diversión en el Partido Verde, disconformidad expresada en AfD y aplausos en el FDP en directo como suceda, transfiéralo rápidamente a notas estenográficas y agréguelo al registro.

    • Como complemento, también pueden saber de inmediato quién está interrumpiendo.
  2. Especialmente en los parlamentos de habla alemana e inglesa, los acentos y dialectos son un problema importante para el software de reconocimiento de voz, no tanto para el taquígrafo.

    • Nuevamente, como complemento, los taquígrafos capacitados podrían incluso captar de inmediato un idioma hablado diferente, como bajo alemán, un par de palabras en español, maorí en el parlamento de Nueva Zelanda u otros. El reconocimiento de voz probablemente requiera entrenamiento adicional.
  3. Redundancia. En todo momento hay al menos dos taquígrafos registrando lo que se dice en el Bundestag. Se apagan fuera de fase para mejorar la consistencia de la grabación. Traducido a software, eso significaría dos piezas de software independientes que realizan la misma tarea.

  4. Gramática y fact-checking. Después de grabar la taquigrafía básica, se retiran a una sala de transcripciones y convierten la taquigrafía en un texto legible. Mientras lo hacen, corrigen errores obvios y pueden realizar verificaciones rápidas de hechos para confirmar los números. Esto no es algo que el software de reconocimiento de voz pueda hacer.

Las ventajas que han mencionado otras respuestas aún se aplican; estos son los puntos que recuerdo explícitamente de los recorridos por los parlamentos.