¿Qué causó el llamado "fallo de 40 años" de New Horizon?

El artículo de la revista Discover Cómo New Horizons sobrevivió a la falla de 40 años y llegó a Plutón es un poco confuso. Envuelve la historia de la NASA junto con varias misiones espaciales diferentes para obtener el valor de "40 años", ya que New Horizons se lanzó hace solo unos once años.

Los ingenieros se han vuelto tan buenos solucionando problemas que la mayoría de las veces el público no tiene idea de a qué se enfrentan, hasta que algo sale mal, como le sucedió a New Horizons el fin de semana pasado, cuando una falla de software hizo que la sonda se apagara en " modo seguro. Por un momento, esto fue una noticia. Luego, una vez más, los ingenieros dieron un paso al frente y resolvieron el problema (causado por un oscuro error de sincronización en una secuencia de comandos enviada a la sonda en preparación para el sobrevuelo). En tres días, todo volvió a la normalidad.

En el artículo de noticias de la NASA vinculado, NASA's New Horizons Plans 7 July Return to Normal Science Operations , también se menciona el problema:

La investigación sobre la anomalía que provocó que New Horizons entrara en "modo seguro" el 4 de julio ha concluido que no se produjo ningún fallo de hardware o software en la nave espacial. La causa subyacente del incidente fue una falla de tiempo difícil de detectar en la secuencia de comando de la nave espacial que ocurrió durante una operación para prepararse para el sobrevuelo cercano. No se planean operaciones similares para el resto del encuentro con Plutón.

P: ¿ Se describe la falla con más detalle en alguna parte? ¿Fue puramente un problema de tiempo de software/computación o el tiempo involucró comunicaciones o algo mecánico también?

Respuestas (1)

Encontré un poco más de detalles buscando en Google "Informe de la Junta de Revisión de Anomalías de New Horizons". La mejor reseña fue de aquí .

A las 4 p. m., la Junta de Revisión de Anomalías de la misión se había reunido para recibir información sobre lo que había ocurrido y discutir la mejor manera de avanzar. A mitad de la recuperación de la nave espacial, determinaron que no había fallas en el hardware o el software. Pero hubo un conflicto cuando la nave espacial trató de enviar a la memoria flash la secuencia de comando completa para los nueve días del sobrevuelo, que acababa de recibir de la Tierra, mientras que al mismo tiempo comprimía los datos científicos que habían sido recopilados por sus instrumentos. . Toda esa actividad simultánea había provocado una sobrecarga de la computadora principal, lo que provocó que el software de autonomía cambiara al procesador de respaldo, apuntara New Horizons hacia la Tierra y pusiera la nave en modo seguro.

Parece que el suelo envió una larga secuencia de comandos mientras el sistema ya tenía una gran carga de trabajo comprimiendo datos científicos, y la computadora principal se bloqueó debido a una sobrecarga.

Entonces, el llamado "fallo de sincronización" suena como si fuera, básicamente, solo una mala elección del momento en el que enviar esa secuencia de comandos.

Muy bien, esta es una descripción muy clara y concisa de lo que sucedió. Supongo que "no es culpa del hardware o del software" significa que no mostró un comportamiento inesperado o erróneo, pero ¿tal vez podría llamarse un escenario no anticipado, no probado o no modelado? ¡Gracias por encontrar esto!
Sí, parece que el sistema operativo podría haber sido mejor diseñado para manejar sobrecargas, como lo fue la computadora Apollo LEM, durante las famosas alarmas '1202' durante el aterrizaje del Apollo 11.