¿Por qué exactamente los chips comienzan a funcionar mal una vez que se sobrecalientan?

Una vez que un chip se sobrecalienta, puede comenzar a funcionar mal; por ejemplo, muchos programas pueden comenzar a fallar una vez que algunas o todas las partes de una computadora se sobrecalientan.

¿Qué sucede exactamente que hace que los chips funcionen mal cuando se sobrecalientan?

Respuestas (6)

Para ampliar otras respuestas.

  1. Corrientes de fuga más altas: esto puede generar más problemas de calentamiento y puede resultar fácilmente en una fuga térmica.
  2. La relación señal/ruido disminuirá a medida que aumente el ruido térmico : Esto puede resultar en una mayor tasa de error de bit, esto hará que un programa se lea mal y los comandos se malinterpreten. Esto puede causar una operación "aleatoria".
  3. Los dopantes se vuelven más móviles con el calor. Cuando tiene un chip completamente sobrecalentado, el transistor puede dejar de ser transistores. Esto es irreversible.
  4. Un calentamiento desigual puede hacer que la estructura cristalina del Si se rompa. Una persona normal puede experimentar al someter un vidrio a un choque de temperatura. Se romperá, un poco extremo, pero ilustra el punto. Esto es irreversible.
  5. Las memorias ROM que dependen de una placa aislada cargada podrán perder memoria a medida que aumenta la temperatura. La energía térmica, si es lo suficientemente alta, puede permitir que la electrónica escape del conductor cargado. Esto puede dañar la memoria del programa. Esto me sucede regularmente durante la soldadura de circuitos integrados que ya están programados cuando alguien sobrecalienta el chip.
  6. Pérdida de control del transistor: con suficiente energía térmica, sus electrones pueden saltar la banda prohibida. Un semiconductor es un material que tiene una banda prohibida pequeña para que se pueda puentear fácilmente con dopantes pero lo suficientemente grande como para que la temperatura de operación requerida no lo convierta en un conductor donde la brecha es más pequeña que la energía térmica del material. Esto es una simplificación excesiva y es la base de otra publicación, pero quería agregarlo y ponerlo en mis propias palabras.

Hay más razones, pero estas son algunas importantes.

Parece probable que las fallas de temporización sean una de las "más razones" (la resistencia del cable tiende a aumentar con la temperatura, por lo que las rutas de temporización limitadas de resistencia-capacitancia podrían violar el tiempo garantizado en el peor de los casos). Por supuesto, la DRAM también pierde carga (como la memoria flash) más rápido a temperaturas más altas; sin una compensación en la frecuencia de actualización, se pueden perder datos.

El principal problema con el funcionamiento de los circuitos integrados a altas temperaturas es el gran aumento de la corriente de fuga de los transistores individuales. La corriente de fuga puede aumentar hasta tal punto que los niveles de voltaje de conmutación de los dispositivos se ven afectados, por lo que las señales no pueden propagarse correctamente dentro del chip y deja de funcionar. Por lo general, se recuperan cuando se dejan enfriar, pero no siempre es así.

Los procesos de fabricación para el funcionamiento a alta temperatura (hasta 300 °C) emplean tecnología CMOS de silicio sobre aislante debido a la baja fuga en un rango de temperatura muy amplio.

Solo una adición a algunas respuestas excelentes: técnicamente, no son los dopantes los que se vuelven más móviles, es un aumento en la concentración intrínseca del operador. En todo caso, los dopantes / portadores se vuelven menos móviles a medida que la red cristalina de silicio comienza a "vibrar" debido al aumento de la energía térmica, lo que dificulta que los electrones y los agujeros fluyan a través del dispositivo: creo que la física lo llama dispersión de fonones ópticos, pero puedo estar equivocado.

Cuando la concentración intrínseca del portador aumenta más allá del nivel de dopaje, se pierde el control eléctrico del dispositivo. Los portadores intrínsecos son los que están ahí antes de dopar el silicio, la idea de los semiconductores es que agregamos nuestros propios portadores para generar uniones pn y otras cosas interesantes que hacen los transistores. El silicio alcanza un máximo de 150 °C, por lo que la disipación de calor de RF y los procesadores de alta velocidad son muy importantes, ya que 150 °C no es demasiado difícil de lograr en la práctica. Existe un vínculo directo entre la concentración intrínseca de portadores y la corriente de fuga de un dispositivo.

Como han demostrado los otros muchachos, esta es solo una de las razones por las que fallan los chips: incluso puede reducirse a algo tan simple como que un enlace de alambre se caliente demasiado y se salga de su almohadilla, hay una gran lista de cosas.

Cuando digo que los dopantes se vuelven más móviles, me refiero a los átomos físicos, no a los portadores. La unión PN puede derivar y dejar de ser un diodo con el tiempo y el calor. En segundo lugar, cuando obtiene una temperatura lo suficientemente alta, su energía térmica, que crea fonones de alta energía que interactúan con los electrones y niveles de IR mucho más altos dentro de la estructura, puede dar a los electrones energía lo suficientemente alta como para saltar la brecha de banda entre las capas de conducción y valencia. . El Si alcanza su punto máximo porque su banda prohibida es tal que 150 °C les dará a los electrones la capacidad de saltar.
Sí, creo que estamos diciendo lo mismo solo que desde un punto de partida diferente.
La forma en que lo explica suena exactamente como lo haría después de tomar física de dispositivos, después de tomar algunos dispositivos cuánticos y de estado sólido aplicados, lo digo de manera un poco diferente, pero ambos sabemos cuán simplificadas son estas explicaciones. Agregué un poco sobre este efecto a mi respuesta porque creo que es muy importante, te di tu primer +1, que te lo merecías. Este es un efecto importante ya que conduce a una fuga térmica muy rápidamente.

Aunque las corrientes de fuga aumentan, esperaría que un problema mayor para muchos dispositivos basados ​​en MOS es que la cantidad de corriente que pasa a través de un transistor MOS en el estado "encendido" disminuirá a medida que el dispositivo se caliente. Para que un dispositivo funcione correctamente, un transistor que está conmutando un nodo debe poder cargar o descargar cualquier capacitancia latente en esa parte del circuito antes de que cualquier otra cosa dependa de que ese nodo haya sido conmutado. Reducir la capacidad de paso de corriente de los transistores reducirá la velocidad a la que pueden cargar o descargar nodos. Si un transistor no puede cargar o descargar un nodo lo suficiente antes de que otra parte del circuito dependa de que ese nodo haya sido conmutado, el circuito no funcionará correctamente.

Tenga en cuenta que para los dispositivos NMOS, hubo una compensación de diseño al dimensionar los transistores pull-up pasivos; cuanto más grande sea un pull-up pasivo, más rápidamente el nodo podría cambiar de bajo a alto, pero se desperdiciará más energía cuando el nodo esté bajo. Por lo tanto, muchos de estos dispositivos se operaron un poco cerca del borde de la operación correcta y las fallas de funcionamiento basadas en el calor eran (y para la electrónica antigua, siguen siendo) bastante comunes. Para la electrónica CMOS común, tales problemas son generalmente menos graves; En la práctica, no tengo idea de hasta qué punto juegan un papel en cosas como los procesadores multi-GHZ.

Este es un efecto muy importante, estaba a punto de pedirle a Kortuk que lo agregara a su respuesta. Uno de los factores detrás de la especificación máxima de Tj para un procesador es que, por encima de esa Tj, es posible que el procesador no funcione a la velocidad nominal. Esta es también la razón por la cual una mejor refrigeración ayuda en el overclocking.
El primer párrafo es por qué su computadora deja de funcionar cuando se calienta: se ralentiza demasiado para mantener el ritmo de la frecuencia del reloj.
En realidad, hay otro factor que posiblemente haya influido en los dispositivos NMOS, aunque no lo esperaría en la mayoría de los diseños típicos: muchos dispositivos NMOS tenían velocidades de reloj mínimas , impuestas por el requisito de usar o actualizar los datos en nodos de almacenamiento dinámico. antes de que se drenara por fugas. Si las corrientes de fuga aumentan con la temperatura, la velocidad mínima del reloj también aumentaría. Sospecho que la mayoría de los dispositivos funcionaron lo suficientemente por encima de la velocidad mínima del reloj como para que un aumento en la velocidad mínima no fuera un problema, pero no estoy seguro.
@Andy, @W5VO, estaba escribiendo mi respuesta anoche y lo olvidé a mitad de camino. El turno de noche daña tu cerebro.

Para complementar las respuestas existentes, los circuitos actuales son sensibles a los siguientes dos efectos de envejecimiento (no solo estos, sino que son los principales en procesos <150nm):

Debido a que la temperatura aumenta la movilidad de los portadores, aumenta los efectos de HCI y NBTI, pero la temperatura no es la causa principal de NBTI y HCI:

  • HCI es causado por una alta frecuencia
  • NBTI por un alto voltaje

Estos dos efectos de envejecimiento del silicio provocan daños tanto reversibles como irreversibles en los transistores (al afectar/deteriorar los sustratos del aislador) que aumentan el umbral de voltaje del transistor (Vt). Como resultado, la pieza requerirá un voltaje más alto para mantener el mismo nivel de rendimiento, lo que implica un aumento en la temperatura de operación y, como se dijo en otras publicaciones, seguirá un aumento de la fuga de la puerta del transistor.

En resumen, la temperatura realmente no hará que la pieza envejezca más rápido, es una frecuencia y voltaje más altos (es decir, overclocking) lo que hará que una pieza envejezca. Pero el envejecimiento de los transistores requerirá un voltaje operativo más alto, lo que hará que la pieza se caliente más.

Corolario: la consecuencia del overclocking es un aumento de temperatura y voltaje requerido.

La razón general por la que los circuitos integrados fallan de manera irreversible es porque el metal de aluminio en su interior que se utiliza para crear interconexiones entre los diversos elementos se derrite y abre o pone en cortocircuito los dispositivos.

Sí, las corrientes de fuga aumentarán, pero generalmente no es la corriente de fuga en sí misma lo que es un problema, sino el calor que esto causa y el consiguiente daño al metal dentro del IC.

Los circuitos de alimentación (p. ej., fuentes de alimentación, controladores de alta corriente, etc.) pueden dañarse debido a los altos voltajes, cuando los controladores del transistor se apagan rápidamente, se generan corrientes internas que provocan el bloqueo del dispositivo o una distribución de energía desigual en su interior, lo que provoca problemas locales. calentamiento y posterior falla del metal.

Una gran cantidad (miles) de ciclos térmicos repetidos puede causar fallas debido a la falta de coincidencia entre la expansión mecánica del IC y el paquete, lo que eventualmente provoca que los cables de unión se rompan o la delimitación del material plástico del paquete y la falla mecánica posterior.

Por supuesto, una gran cantidad de especificaciones paramétricas de IC solo se especifican en un rango de temperatura dado, y es posible que no estén dentro de las especificaciones fuera de este. Dependiendo del diseño, esto puede causar una falla o un cambio paramétrico inaceptable (mientras el IC está fuera del rango de temperatura); esto puede ocurrir para temperaturas extremadamente altas o bajas.

El aluminio se funde a 660°C (​1220°F). Los circuitos integrados mueren mucho antes de que se alcance esta temperatura.
Fundamentalmente no. A temperaturas por debajo de esto, ciertamente puede tener un comportamiento eléctrico no deseado; calentamiento excesivo y fuga térmica, pero esto en realidad no causa una falla permanente hasta que una parte del circuito alcanza una temperatura en la que el Al (u otro metal) se difunde en el silicio. Este (punto eutéctico) es alrededor de 500-600 C. La mayoría de las otras fallas son recuperables. Las fallas adicionales pueden ser causadas por fallas eléctricas que permiten aplicar un voltaje excesivo a las puertas del transistor o ciclos térmicos (que causan fallas mecánicas).
Aún tengo mis dudas. Por ejemplo, los circuitos integrados suelen especificar una temperatura máxima de soldadura de alrededor de 300 °C, por lo que parece que sobrepasar ese límite es suficiente para causar un daño permanente.