Al menos en los aviones comerciales, las computadoras verdaderamente críticas son redundantes. Por lo general, tres copias idénticas de las computadoras del piloto automático se ejecutan en paralelo y comparan los resultados; si una computadora no está de acuerdo con las otras dos, se ignora su salida. El sistema permite que algunos procesadores estén defectuosos mientras mantiene el funcionamiento del sistema en general.
¿Pero por qué? Nunca he oído hablar de microprocesadores que fallan repentinamente. Claro, podría haber errores de fabricación, pero esos se habrían detectado en la fábrica. Tal vez el programa (y su prueba) esté mal, pero lo estaría de la misma manera en todos los procesadores. Del mismo modo, una mala entrada provocaría una mala salida en las tres computadoras. ¿Contra qué tipo de errores protege esta redundancia? ¿Los microprocesadores a veces simplemente hacen mal las matemáticas?
Si un microprocesador se sobrecalienta o sobrecarga y falla espontáneamente, espero que deje de hacer cualquier cosa y no produzca ningún resultado. Para lidiar con este tipo de falla, le gustaría tener un procesador de respaldo, pero no necesitaría comparar las salidas de tres computadoras; cualquier salida producida se asumiría correcta, por lo que estaría feliz de usar directamente el salida de cualquier procesador que estaba produciendo salida.
Relacionado: La respuesta a ¿Cuál es el propósito de varios pilotos automáticos? simplemente dice "redundancia" antes de entrar en cómo se logra esto.
Modos de falla a considerar:
Es importante reconocer que en los sistemas digitales de alta velocidad no se obtiene un "uno" y un "cero" limpios y agradables, se obtiene una serie de flancos ascendentes y descendentes que están manchados por la capacitancia parásita y la inductancia del cableado. Esto es inherentemente vulnerable a ser malinterpretado en condiciones eléctricas marginales.
Como señaló otra respuesta: una CPU puede fallar. Ya sea parcialmente (dando respuestas erróneas), o totalmente.
Además, todas las computadoras están sujetas a radiaciones cósmicas que pueden cambiar de vez en cuando un poco en la memoria (además de otras fuentes de error como cortocircuito, ...). Es por eso que los experimentos científicos y los servidores de larga duración usan memoria ECC . Las naves espaciales también usan CPU reforzadas específicas para limitar este efecto, ya que están menos protegidas de tales interferencias. Los aviones vuelan a gran altura y están sujetos a más de estas interferencias que su computadora terrestre.
Incluso si el evento de que esto suceda es muy poco común (pero no desconocido), DEBE asegurarse de que los resultados sean 100% precisos. Un bit volteado podría cambiar el comportamiento de su avión de manera impredecible, como invertir los controles, invertir la ley de protección de la envolvente de vuelo, ...
¿Por qué las computadoras de vuelo críticas son redundantes?
Un punto que se ha pasado por alto es que los sistemas redundantes suelen ser diseños independientes, especialmente el software. Esto protege contra fallas de diseño (o errores de software) que de otro modo podrían causar problemas en combinaciones de circunstancias que rara vez ocurren.
Incluso si un microprocesador es altamente confiable, hay una serie de factores que pueden ser relevantes
Nunca he oído hablar de microprocesadores que fallan repentinamente.
- Muchos accidentes ocurren sin que ningún componente “falle”
- Causado por la operación del equipo fuera de los parámetros y límites de tiempo en los que se basan los análisis de confiabilidad.
- Causado por las interacciones de los componentes, todos funcionando de acuerdo con las especificaciones.
- Los componentes altamente confiables no son necesariamente seguros
Sé que esta pregunta ya ha recibido un puñado de respuestas, pero ninguna de ellas parece abordar el problema de por qué hay tres sistemas en el conjunto redundante, en lugar de solo dos.
En primer lugar, como señalaron Simon , Jan Hudec y RedGrittyBrick , los diseños no son idénticos en absoluto. De hecho, a menudo son completamente diferentes por una muy buena razón: la probabilidad de que un problema dado afecte a todos los sistemas redundantes, y especialmente a todos los sistemas redundantes de la misma manera, va de "pequeño" a "absolutamente minúsculo al borde de la inexistencia". Comparar ¿Qué tan diferentes son las computadoras de control de vuelo redundantes?
En segundo lugar, en cuanto a por qué hay tressistemas en cada configuración redundante. Cuando todo funciona bien y la aeronave está en vuelo constante, para algún valor y algún conjunto dado de entradas, todos los sistemas informan que se necesita una corrección de 0 (de cualquier unidad). En este punto no hay problema, y las computadoras solo sirven para mantener el estado actual. Ahora, uno de los componentes del sistema no logra hacer su trabajo correctamente por cualquier motivo y comienza a informar que se requiere una corrección de +50 unidades. Es decir, el conjunto de respuestas cambia de [0,0,0] a [0,0,+50]. Dos sistemas están de acuerdo y el tercero informa algo más, por lo que probablemente podamos ignorar el valor atípico de manera segura e ir con los dos sistemas que informan lo mismo: tratar el resultado como [0,0, incorrecto] e ignore el resultado incorrecto mientras registra los detalles técnicos y muestra algún tipo de advertencia destacada de que los sistemas deben revisarse lo antes posible. Pero, ¿y si tuviéramos solo dos sistemas para empezar y uno de los dos falla de la misma manera? La corrección necesaria determinada va de [0,0] a [0,+50]. Rápido ahora: ¿qué valor es correcto? ¿Debería mantener el estado o corregirlo en +50?
En ese punto, no hay forma de saber si corregir por 0 o por +50 es el curso de acción adecuado. Podría tomar un promedio, pero usar un promedio de dos números (uno de los cuales probablemente sea incorrecto) en realidad podría ser peor que cualquier valor por sí mismo.
Al agregar un tercer sistema al conjunto redundante, agrega un desempate para la situación en la que hay un sistema que no funciona correctamente. Solo si dos de los tres sistemas comienzan a funcionar mal al mismo tiempo, tiene un problema real, y si la aeronave tiene tales problemas que dos de los tres sistemas redundantes están dando resultados erróneos, entonces es probable que tenga problemas serios para empezar. .
La mayoría de las respuestas han girado en torno a la posibilidad de errores de hardware informático y cosas de esa naturaleza. Si bien todo eso es cierto, nadie ha mencionado lo que las computadoras realmente están mirando.
Supongamos que se está aproximando, preparándose para hacer un aterrizaje automático CAT III y solo tiene dos sistemas informáticos. Ambos sistemas informáticos comparan los sistemas de radioaltímetro n.° 1 y n.° 2. Solo hay un mal funcionamiento con uno de los sistemas de radioaltímetro que provoca una discrepancia de algún valor arbitrario que no está dentro de los límites.
¿Cómo sabe la computadora cuál está mal? Una computadora mira el sistema de radioaltímetro #1 y ve 500 pies. La otra mira el sistema #2 y ve 1000 pies. ¿Cuál está bien y cuál está mal? ¿Cómo es posible que la computadora tome esa decisión?
Introduzca la tercera computadora. Si el valor de lo que ve es comparable con el de cualquiera de las otras dos computadoras, puede "votar" efectivamente la lectura inválida "fuera de la isla".
Debo señalar que la mayoría de estas computadoras tienen entre dos y cuatro procesadores, todos comparando sus propios resultados. Esa es la redundancia INTERNA para evitar fallas de hardware, pero tener numerosas comparaciones cruzadas de sistemas externos es en gran parte la razón por la que existe un tercer sistema.
Nota: Como mecánico de A&P, 9 de cada 10 veces es uno de los sistemas externos que ha fallado (altímetro de radio, falta de comparación de MMR/ILS, etc.) lo que causa una degradación en las capacidades, NO la computadora en sí.
Las computadoras fallan, espontáneamente, todo el tiempo. No estás acostumbrado a eso porque no has usado muchas computadoras. Pero considere a alguien como Google, que administra centros de datos masivos que contienen miles de computadoras. El software que ejecuta Google está diseñado en torno a la suposición explícita de que las computadoras fallan porque sucede varias veces al día. Ahora, un avión no contiene muchas computadoras, pero las que contiene son críticas para la seguridad. Por lo tanto, se duplican para asegurarse de que su falla no cause un problema.
Si miramos esto desde un punto de vista estrictamente de ingeniería, los microprocesadores tienen un ciclo de vida. En términos generales, es muy largo, y la PC desde la que está publicando esto probablemente estará desactualizada mucho antes de que llegue a su ciclo de vida. Aunque un microprocesador no tiene partes móviles, recibe información de varios sensores. Solo puedo suponer que las entradas están fusionadas de alguna manera, pero eso no significa que los picos estén completamente eliminados y aislados si ocurren. Por lo que vale, incluso las sobretensiones relativamente pequeñas freirán un microprocesador. Teniendo eso en cuenta, para errar por el lado de la precaución, se utilizan múltiples sistemas. Con el tamaño cada vez más reducido de la tecnología, se ha vuelto más fácil y económico llevar un repuesto, por lo que, desde el punto de vista de las ventas, la tranquilidad está ahí. otra vez
Para abordar directamente su pregunta, he estado usando microprocesadores, microcontroladores y similares durante mucho tiempo. En ese tiempo he tenido tal vez dos o tres fallas espontáneas, generalmente relacionadas con el calor. En un avión, esto puede no parecer un problema, pero en realidad el frío extremo puede causar problemas, así como el calor extremo cuando se trata de componentes electrónicos. Dicho esto, he brindado por innumerables unidades golpeándolas con entradas sobrecargadas. Digamos que su avión fue golpeado por un rayo (sé que las aerolíneas modernas están protegidas contra esto), pero por el bien de los argumentos, digamos que una tierra estaba mal: esto fácilmente tostaría una unidad.
Nota al margen: es más común que los chips/unidades de memoria fallen en estos días. Esto es algo que quizás nunca sepa, ya que la mayoría de las computadoras modernas pueden lidiar con la memoria muerta, ya sea en el disco o en la memoria del sistema.
En cuanto a la redundancia específica, el entorno de instalación de estos sistemas es probablemente el factor más importante. No solo hay muchos sistemas amontonados en espacios reducidos, sino que el flujo de aire a menudo es muy limitado allí. El calor es un gran destructor de muchos microprocesadores. Los aviones también vibran mucho debido al giro de los motores, la turbulencia en vuelo y el simple aterrizaje. Uniones de soldadura deficientes y trabajos de crimpado por debajo del par o una carcasa trasera de conector suelta, y obtuvo una mala conexión, o peor aún, una intermitente .
Sobre la redundancia en general, si experimenta un BSOD en el trabajo, comparativamente no es gran cosa. Es posible que haya perdido el documento en el que estaba trabajando, pero eso es todo. Si los sistemas de la aeronave fallan, tiene un problema real. Es difícil de lograr, pero la redundancia está ahí porque la vida de cientos de personas depende de ella .
La posibilidad de que falle el procesador es muy baja, pero no cero. Ante la falla del procesador, ¿qué sucede durante el tiempo de transición entre la falla y la funcionalidad completa después de reiniciar? Con un evento raro como este, ¿podríamos acumular suficiente experiencia para estar seguros de que hemos probado en todas las circunstancias? Estamos hablando de < números aquí.
Las copias de seguridad son propensas a fallas ocultas. La copia de seguridad normalmente no se usa y solo se enciende cuando es necesario, pero ¿se ha oxidado algo o tiene un molde funky ubicado en un lugar cálido y cómodo que causa un cortocircuito al activarse? Murphy todavía frecuenta las aplicaciones aeroespaciales. La copia de seguridad se puede probar antes del despegue, pero ¿qué pasa si se suelta y el procesador principal falla? Las posibilidades son escasas, pero todos los accidentes importantes en la actualidad son causados por una serie de eventos improbables como este.
La redundancia es útil porque demuestra continuamente que los dispositivos principales funcionan correctamente y se utiliza para circunstancias críticas de vuelo. Los sistemas de respaldo pueden usarse si puede prescindir del dispositivo principal, o si se garantiza que el respaldo siempre funcionará, como la activación manual de los controles de vuelo.
Un piloto automático en crucero no es crítico para el vuelo y puede desconectarse sin consecuencias graves. En un aterrizaje CAT III en el que la pista solo se puede observar una vez que estás conduciendo por ella, son absolutamente vitales. No desea que el piloto automático se desconecte 10 metros por encima de la pista, sin visibilidad, ráfagas de viento lateral: no hay tiempo para activar el respaldo.
Si un microprocesador se sobrecalienta o sobrecarga y falla espontáneamente, espero que deje de hacer cualquier cosa y no produzca ningún resultado.
¿Alguna vez has overclockeado una CPU o has visto morir una vieja pieza de hardware? Puede obtener todo tipo de artefactos extraños mientras la CPU aún está funcionando.
En un avión, la seguridad es más importante que cualquier otro factor (luego viene el peso óptimo para la eficiencia del combustible y el costo total es el tercero). Si el avión no fuera seguro, no volaría suficiente gente y la industria de las aerolíneas colapsaría. Por eso existen las regulaciones de la FAA, y por eso hay tantas reglas para las aerolíneas. (el control de seguridad del aeropuerto es otro tema, relacionado con la seguridad nacional/política con inmigración, etc., así que cuando decimos 'seguridad' del avión, me refiero a la ingeniería)
Los sistemas críticos a bordo (es decir, los sistemas que se requieren para volar el avión) necesitarán redundancia. Al igual que el quemador en el motor a reacción, tiene 2 encendedores, aunque uno es suficiente. Además, si un motor falla, el otro motor puede hacer volar el avión y la computadora compensará el desequilibrio de fuerzas izquierda/derecha. Muchos sistemas en el avión dependen de la computadora, por lo que debe tener un 'plan b' (la redundancia es uno de los 'plan b')
Porque, a pesar de que la teoría es buena, la realidad es que no todos los componentes del ordenador son iguales.
Un ejemplo específico de principios de los 90: Intel produjo la CPU 486/33 (era bastante innovadora y extremadamente rápida para la época). La mayoría salió bien de fábrica, pero algunos tenían un error esotérico en la FPU que generaba respuestas incorrectas. Las revistas del día estaban llenas de cálculos que podía poner en su hoja de cálculo que producirían X si su CPU funcionaba bien, o Y si tenía el error.
Si sucede que su avión está funcionando con una de las CPU defectuosas, y se recopila el conjunto correcto de datos y se alimenta a cualquiera de los programas de control de vuelo y se encuentra con este error de FPU, se alegrará de que el otras dos CPU calcularon el valor correcto y expulsaron al errante del bucle.
Simón
raptortech97
Simón
raptortech97
raptortech97
Simón
Jan Hudec
raptortech97
kasperd
raptortech97
kasperd
raptortech97
kasperd
raptortech97
Hanky Panky
Anything that can go wrong will go wrong
AE
minutos
Ed999