Ayer salió a la luz una noticia sobre el desmayo de una taquígrafa en el Senado de los EE. UU., lo que provocó un breve receso mientras la atendían médicamente.
Al escuchar esto, comencé a preguntarme por qué se siguen empleando taquígrafos para este puesto, trabajando desde el piso de la cámara, cuando vivimos en una época en la que la tecnología podría hacer un mejor trabajo que tener a alguien escuchando y tecleando a mano lo que son. audiencia. Además, ya existen numerosos dispositivos de grabación en todo el piso de la cámara del Senado, la Cámara de Representantes y probablemente en la mayoría de las otras cámaras gubernamentales estatales e internacionales.
Específicamente en el caso del Senado de los EE. UU., hay más de unos pocos micrófonos y también tiene múltiples transmisiones de video que graban lo que está sucediendo. La tecnología moderna puede convertir fácilmente el audio hablado en texto y, aunque el proceso no es perfecto, probablemente sería más preciso si se convirtiera automáticamente en texto y luego lo revisara un taquígrafo que compara las grabaciones de cada sesión con las generadas por computadora. transcripción.
Entiendo la importancia de mantener registros completos y actas de las reuniones gubernamentales, pero en un lugar como Capital Hill, me parece que un enfoque mejor y más preciso para mantener dichos registros sería implementar una tecnología efectiva.
¿Hay alguna buena razón por la que todavía se empleen taquígrafos para generar manualmente las transcripciones de las reuniones?
ACTUALIZAR
Lancé esta pregunta con la suposición muy básica de que las transcripciones generadas por humanos no son necesarias cuando la tecnología ya está grabando todo este material y el software de autodictado ciertamente podría transcribir lo que se dice con una precisión moderada.
Después de leer los comentarios a continuación, recordé además que los taquígrafos en realidad NO registran las palabras que escuchan, en el sentido típico. ¡En cambio, un taquígrafo está capacitado para escribir fonéticamente lo que escucha para que pueda escribir a velocidades de más de 200 palabras por minuto!
Creo que esto hace que mi pregunta sea aún más relevante. Es cierto que el software de reconocimiento de voz aún es imperfecto, pero si el sistema está diseñado para diseccionar sonidos, en lugar de palabras, ¡la computadora podría hacer un trabajo mucho mejor en la transcripción que un humano! Esto se debe a que los sonidos simples, incluso a gran velocidad, serían más fáciles de reconocer que las palabras completas.
No pude encontrar una respuesta en línea, así que llamé a la Oficina del Secretario de la Cámara para preguntar por qué usan taquígrafos en lugar de dispositivos de grabación electrónicos. Me dieron una lista de razones:
Algunas de estas razones parecen mejores que otras, pero ahí están "de boca de caballo".
La respuesta es simple.
Pero estoy de acuerdo en que no hay razón para que los taquígrafos lleven las actas taquigráficas ya que hay registradores. La taquigrafía debe usarse solo para intervenciones sin micrófono.
Si entiendo correctamente, está preguntando por qué no se usa el software de reconocimiento de voz en lugar de escribir manualmente lo que uno escucha.
Aunque el reconocimiento de voz es muy avanzado hoy en día (y está disponible para varios tipos de dispositivos), todavía existen algunos problemas técnicos relacionados con la identificación correcta de todas las palabras.
Este artículo nos habla de algunos de estos temas:
Por supuesto, algunos de estos problemas se pueden abordar mediante el uso de técnicas de inteligencia artificial/aprendizaje automático (p. ej., identificación adecuada de palabras según el contexto), pero aún existen algunas dudas.
Otro enfoque es configurar una tolerancia muy baja (no hacer suposiciones cuando la palabra no es muy clara) y permitir que la computadora interrumpa el discurso y pida repetir una frase. Aunque esto puede proporcionar una confianza muy alta en el reconocimiento de voz, puede resultar confuso para algunas personas.
Este artículo también menciona algunas dificultades para reconocer correctamente el habla rápida, cuando las palabras tienden a estar unidas (habla continua en lugar de habla discreta):
El reconocimiento de voz continuo opera en el habla en la que las palabras están conectadas entre sí, es decir, no separadas por pausas. Reconoce el habla analizando las palabras y las relaciones entre las palabras (contexto). Esto contrasta con el reconocimiento de voz discreto en el que cada palabra debe identificarse como una entidad, es decir, como una unidad identificable individualmente sin tener en cuenta las relaciones entre las palabras. Debido a que este último requiere que el hablante haga una pausa entre cada palabra, la producción de palabras por minuto (aproximadamente 150 por minuto) es demasiado baja para usar en muchos entornos .
También puede haber un problema jurídico si la transcripción es incorrecta de una manera que distorsiona claramente el mensaje. No se puede echar la culpa a la máquina.
Un posible enfoque es hacer que el reconocimiento de voz funcione con muy pocas interrupciones y que una persona revise el texto después. Aunque un ser humano puede revisar el texto, hay una falta de retroalimentación (no se puede pedir una aclaración en tiempo real).
Conclusión: Las posibles razones para no utilizar el reconocimiento de voz en reuniones oficiales son: limitaciones técnicas y/o cuestiones jurídicas.
Sé que esta es una publicación algo antigua, y leí esta pregunta hace un tiempo, con respecto a por qué los stenos todavía se usan en las cámaras gubernamentales (así como en las salas de audiencias, las deposiciones, los subtítulos y en las aulas universitarias, en vivo o de forma remota, para el personas con discapacidad auditiva) y lo encontré de nuevo hoy y solo tuve que responder.
Es fácil suponer, cuando uno no "informa" o "trabaja con" la palabra hablada, que el reconocimiento de voz/grabación de audio son una mejor alternativa a los reporteros en vivo (taquígrafos). Sin embargo, nada podría estar más lejos de la verdad.
Escribir (así es como lo llamamos, no "escribir a máquina") la palabra hablada, en vivo, es un ejercicio de inmensas capacidades cognitivas, así como de habilidad física. No se trata simplemente de "poner las palabras en papel", por así decirlo. Capturar voz en vivo puede parecer una tarea fácil y rutinaria, pero es todo lo contrario.
Un taquígrafo ha pasado por años de capacitación para llegar al punto de producir texto en tiempo real (y años de experiencia laboral para obtener un empleo en este alto nivel gubernamental). Este entrenamiento consiste en años de práctica (como un instrumento musical) para poder mantener la velocidad del habla. La mayoría de los taquígrafos altamente calificados pueden "escribir" a una velocidad de más de 300 palabras por minuto o spm (golpes por minuto) con una precisión cercana al 99 por ciento.
Los taquígrafos aprenden a escribir fonéticamente en un taquígrafo o teclado de 22 teclas en blanco (algunos tienen un par de teclas más si se desea), y existen varias "teorías de escritura" disponibles. También usan resúmenes y pulsaciones rápidas de teclas para palabras y frases comunes, y su diccionario personalizado traduce el código de taquigrafía al inglés inmediatamente. Construyen "diccionarios de trabajo" (además de su diccionario principal) relacionados con el tema en el que están trabajando, lo que significa una traducción posterior más limpia, especialmente cuando se trata de temas obtusos y difíciles.
NO ESTÁN tecleando letras individuales, a menos que esa "letra" deba traducirse como una letra alfabética real o esa tecla individual se traduzca a una palabra real (dependiendo de cómo el taquígrafo programe el software). Pueden escribir segmentos completos de voz con una sola pulsación de tecla. Si bien hay un puñado de teorías en las que un taquígrafo puede embarcarse, una vez que todo está dicho y hecho, TODOS Y CADA taquígrafo tiene su propio estilo de escritura, su propio "código" que crean y construyen, después de graduarse de la escuela. Incluso dos reporteros que aprendieron la misma teoría básica tendrán un estilo de escritura completamente diferente. Es una forma de arte.
Y, por cierto, solo alrededor del 3 por ciento de cada clase inicial se convierte en taquígrafo de pleno derecho. Hay una tasa de abandono dramática porque la habilidad es extremadamente difícil de aprender: el equivalente a aprender un nuevo idioma y un instrumento musical al mismo tiempo... y aprenderlo RÁPIDAMENTE y CON PRECISIÓN.
Los taquígrafos pueden discernir quién está hablando (colocar el nombre del orador en el registro), así como ignorar ruidos extraños, lidiar con acentos, habla poco clara, puntuar mientras escriben, etc., etc. No es poca cosa. Además, un taquígrafo debe tener una gran comprensión del idioma inglés (vocabulario y conocimiento en prácticamente todos los campos/temas) para poder capturar el registro.
También está el tema muy importante de la puntuación. Puede parecer simple, pero, al escribir en vivo, puede volverse complejo. Los oradores cambian de pensamiento a la mitad de la oración, se cortan entre sí a la mitad de la oración, hablan entre ellos, usan una gramática incorrecta (incluso personas con un alto nivel educativo) y, por supuesto, divagan e inventan palabras, por nombrar solo algunos problemas. El steno está "en él" y puede puntuar adecuadamente para asegurarse de que lo que aparece en el texto final es realmente lo que estaba transmitiendo el orador. Como todos sabemos, la puntuación incorrecta puede tener resultados desastrosos.
Stenos también aclarará inmediatamente cualquier discurso poco claro, en el acto. Esto no puede ser hecho por una máquina o una grabación. ¿En cuanto a tener los procedimientos grabados y luego mecanografiados? Ahora que ES arcaico. Stenos produce la transcripción/texto segundo a segundo, generalmente con una pequeña cantidad de tiempo, después de que se completan los procedimientos, revisando el texto, verificando pequeños errores, corrigiendo la puntuación errada, o tal vez posiblemente una palabra que no se tradujo (apareció como código de taquigrafía) antes de enviar la versión final, si es necesario.
Los stenos pueden imbuir el registro con su experiencia de vida además de los temas aprendidos. Esto es crucial y a menudo se pasa por alto. El taquígrafo está comprendiendo, siguiendo, mientras escribe, utilizando su base de conocimientos y habilidades para crear el registro. DEBE haber un "cerebro" educado involucrado en el proceso, en el momento del procedimiento, no después del hecho.
El software que usan los stenos también graba automáticamente el audio a medida que lo escriben. Está sincronizado con la palabra. Por lo tanto, si alguien quiere escuchar algo reproducido, no es necesario retroceder/avanzar/etc. ya que el steno puede hacer clic en el lugar exacto y reproducir el audio si es necesario.
Quería dar una idea de los antecedentes y la formación de un taquígrafo para que la siguiente afirmación tenga más sentido: en la actualidad, los taquígrafos son la ÚNICA forma de traducción de voz a texto fiable, rápida y precisa. La IA no es capaz de procesar procedimientos intensos (o incluso procedimientos no intensos) y probablemente nunca lo será, al menos no en nuestra vida. Funciona muy bien para comandos simples o preparación de correo electrónico de un orador (más o menos), pero ese es un entorno MUY diferente del trabajo de un stenos, que comúnmente consiste en múltiples oradores, argumentos acalorados, mucha emoción, temas densos de máxima importancia.
Hacer que alguien escriba a partir de una grabación de audio generalmente genera numerosos errores debido a un audio deficiente, falta de educación por parte del transcriptor, fallas en el equipo Y toma hasta cuatro veces más tiempo, y eso es con una grabación de "buena calidad". ¿Por qué escribir cuando un steno puede tener la palabra escrita en la pantalla en un segundo?
La idea de que alguien revise una transcripción preparada por AI para corregir los NUMEROSAS errores es, nuevamente, rayana en lo arcaico (en comparación con lo que ofrecen los stenos) y consume mucho tiempo y conduce a errores (nadie a quien pedir una aclaración después de el hecho - posiblemente una baja base de conocimientos, siendo incapaz incluso de saber qué palabra falta, el significado de las oraciones, etc.). Todo taquígrafo sabe que si no escuchó/entendió algo en vivo, es muy poco probable que su sincronización de audio (grabación digital en SW) represente las palabras/términos más claros. Entonces, explique cómo este escenario sería diferente para alguien que "verifica" un "intento" de IA de analizar el habla. Una vez más, toma MUCHO más tiempo ya que básicamente tiene que escuchar todo el procedimiento OTRA VEZ para poder hacer las correcciones tediosas/abrumadoras.
Stenos toca un "piano verbal" y ha pasado años obteniendo la habilidad y el conocimiento necesarios para tener éxito en el campo. Stenos actualiza constantemente su base de conocimientos, diccionarios (los archivos que traducen el código) y software/hardware. Stenos utiliza tecnología extremadamente sofisticada.
Y, finalmente, los stenos NO ESTÁN creando "minutos". Están creando un relato textual de todo lo que se dijo. Gran diferencia.
Muchos tribunales han cometido el error de creer que tener los procedimientos grabados en audio y luego mecanografiados si es necesario sería excelente y ahorraría toneladas de dinero. La mayoría de esos tribunales han vuelto a traer los stenos en vivo, una vez que se dieron cuenta del error de sus formas en cuanto a transcripciones incompletas, transcripciones llenas de "inaudible" y grandes retrasos en la recepción de dichas transcripciones.
Los taquígrafos desempeñan un papel vital en la administración de justicia, registrando eventos para la posteridad y siendo los "oídos" de las personas sordas y con discapacidad auditiva. Es un campo muy mal entendido que contribuye a que se hagan afirmaciones/preguntas como la que estoy respondiendo. Y solo he esbozado brevemente la formación y los beneficios de un taquígrafo.
Espero que esto arroje más luz sobre por qué los stenos son el ESTÁNDAR DE ORO en la captura de voz en vivo.
También recomiendo encarecidamente leer esto:
Ofrece un análisis muy detallado de los beneficios de los stenos sobre la IA y la grabación digital, así como un poco más de información sobre cómo se usa la máquina steno (miles de posibles combinaciones de teclas) y realmente aclara estos puntos mucho mejor que yo.
Si bien la pregunta se refiere al Senado de los EE. UU., visité tanto el parlamento bávaro como el Bundestag alemán y recibí una breve introducción de por qué estos todavía dependen de taquígrafos.
No solo captan quién habla (es decir, en el micrófono principal), sino que también captan cosas como risas en el SPD, burlas en la CDU, diversión en el Partido Verde, disconformidad expresada en AfD y aplausos en el FDP en directo como suceda, transfiéralo rápidamente a notas estenográficas y agréguelo al registro.
Especialmente en los parlamentos de habla alemana e inglesa, los acentos y dialectos son un problema importante para el software de reconocimiento de voz, no tanto para el taquígrafo.
Redundancia. En todo momento hay al menos dos taquígrafos registrando lo que se dice en el Bundestag. Se apagan fuera de fase para mejorar la consistencia de la grabación. Traducido a software, eso significaría dos piezas de software independientes que realizan la misma tarea.
Gramática y fact-checking. Después de grabar la taquigrafía básica, se retiran a una sala de transcripciones y convierten la taquigrafía en un texto legible. Mientras lo hacen, corrigen errores obvios y pueden realizar verificaciones rápidas de hechos para confirmar los números. Esto no es algo que el software de reconocimiento de voz pueda hacer.
Las ventajas que han mencionado otras respuestas aún se aplican; estos son los puntos que recuerdo explícitamente de los recorridos por los parlamentos.
Bobson
SoylentGray
RLH
RLH
phoog
original
niño índigo
SoylentGray
Bobson
Stephan Branczyk
SoylentGray
Relajado
ohwilleke
BobE
BobE
Vikki