¿Por qué 5 iMacs diferentes desarrollaron particiones corruptas de OS X cuando las unidades físicas están bien?

Soy técnico en mi distrito escolar local y tenemos algunos problemas con nuestro laboratorio multimedia iMac. Durante los últimos nueve meses, 5 de los 22 iMacs han sufrido daños en el sistema de archivos. El único recurso para estas máquinas ha sido borrar por completo la partición OS X y comenzar de nuevo (con la restauración adecuada desde Time Machine).

Aquí está la lista de por qué sé que es corrupción del sistema de archivos:

  • El iMac no arranca OS X. He visto que se detiene en el "pulsador", la barra de progreso o simplemente en el logotipo de Apple.

  • Montar el disco iMac a través del modo de disco de destino (me encanta esa característica) tiene éxito, pero solo para la partición Bootcamp. La partición OS X no se puede montar.

  • Una verificación del disco revela que la partición OS X debe repararse (he visto entradas de hermanos no válidas, niños huérfanos, etc.). El intento de reparar el disco falla. Este último intento (justo ayer) decía que los árboles del catálogo B no se podían reconstruir. Debí haber tomado notas más completas sobre lo que se dijo cada vez, pero cada vez hasta esta última asumí que era un evento extraño de uno en un millón. una casualidad

  • Intentar reparar o reconstruir las unidades con Drive Genius 3 también falla Hasta ahora, el 98 % de los archivos del usuario se han podido recuperar a través de Data Rescue 3. El disco duro físico no parece estar fallando (la recuperación de archivos de la unidad no se bloquea ni se "reproduce como una bola de playa"). ", la unidad no aparece y desaparece en la Utilidad de Discos, el Finder sigue respondiendo, etc.)

  • Normalmente lo atribuiría a una serie de discos defectuosos. Dio la casualidad de que era el tipo desafortunado que compró una mala racha de iMacs, ¿verdad? Aquí es donde las cosas empiezan a ponerse interesantes. Les presento, la lista de rarezas:

  • Las unidades se verifican como buenas a través de SMART

  • La memoria RAM se comprueba
  • Después de eliminar y volver a crear la partición (y reinstalar OS X), todos los problemas desaparecen.
  • La corrupción no le ha pasado a la misma Mac dos veces
  • Bootcamp está instalado en la misma unidad y funciona antes, después y durante la corrupción en el lado de Mac.
  • La partición Bootcamp no ha tenido este problema en NINGUNO de los iMac

Además, para descartar lo obvio:

  • No ha habido apagones ni sobretensiones

  • Dudamos seriamente de que se trate de un virus, ya que las fallas aparecen de forma simultánea (dos máquinas fallaron al mismo tiempo hace aproximadamente un mes) o con meses de diferencia. Además, los documentos del usuario se restauran después de formatear, por lo que uno podría suponer que si se tratara de un programa malicioso, la Mac seguiría fallando una y otra vez.

  • Las máquinas han estado en un área climatizada

  • No ha sido el mismo usuario afectado

  • A veces, el problema ocurre después de un apagado forzoso inevitable (que ocurre con poca frecuencia. Estas máquinas no se apagan excesivamente de manera incorrecta. Solo lo que esperaría con un Mac Lab que ejecuta multimedia cinco días a la semana), otras veces está completamente fuera de servicio. -el azul

El software de uso frecuente incluye:

  • iFoto
  • iDVD
  • iMovie
  • Safari

Las máquinas también se cargan con Parallels 5, que carga la partición Bootcamp en una VM. Parallels se configuró a través del asistente estándar, sin configuraciones extrañas ni trucos.

Y por último, pero no menos importante, las especificaciones:

  • iMac 10,1 (21,5 pulgadas)
  • Unidades de stock
  • OS X Snow Leopard (últimas actualizaciones)
  • Memoria de stock
  • Unido a nuestra infraestructura de Active Directory
  • Sistema de archivos HFS+ (no distingue entre mayúsculas y minúsculas, el predeterminado para OS X Snow Leopard)
  • Sin mantenimiento de disco fuera de lo común. programas Drive Genius se cargó ayer por la tarde (DESPUÉS de recuperarse de la última falla) para ejecutar una verificación en todos los iMac, pero no se instaló antes. Todos los Mac, tanto los que fallaron en el pasado como los que nunca fallaron, pasaron con gran éxito.

TL;DR: La partición OS X se corrompió en cinco iMac diferentes, pero las unidades físicas están bien. ¡¿¡¿¡POR QUÉ!?!?!

Fuera de tema: 8¼b: puede utilizar Mayús+Intro para introducir saltos de línea en los cuadros de comentarios. También escuché que existen complementos de navegador (¿guiones de usuario?) que invierten el rol de enter y shift-enter, por lo que enter insertará un salto de línea y shift-enter enviará el comentario.
+1 pregunta bien documentada. ¿Alguna vez has pensado que podría ser un acto de los estudiantes?
¿Cómo se asigna iMac 10,1 a iMac {temprano|mediado|tardío} 20YX para facilitar la búsqueda del lado del hardware? Si reemplaza las #computadoras de escritorio con uno de los números de serie, support.apple.com/manuals/#desktopcomputers obtendrá el nombre descriptivo de sus iMac.

Respuestas (4)

HFS Plus (HFS+) es un sistema de archivos frágil y un poco desactualizado. Si lo busca en Google, encontrará muchos informes de corrupción del sistema de archivos.

Reiniciar sin desmontar el sistema de archivos es la mejor manera de corromperlo. Esto sucede cuando la mac se congela por alguna razón (en mi caso es la tarjeta de video nvidia) o fallas de energía.

Aquí hay algunos consejos, que en mi humilde opinión deberían reducir la posibilidad de corrupción del sistema de archivos:

  1. Cuando el sistema se congela, intente reiniciar desde ssh. Cuando el subsistema de gráficos de mi mac se congela, aún se puede acceder a él a través de SSH: intente abrir la conexión ssh desde su red y reiníciela. Podrías usar Apple Remote Desktop (62 €) para esta tarea. Primero debe habilitar el acceso ssh.

  2. Hazlo diskutil verifyVolume /periódicamente. Sí, incluso si HFS+ es un sistema de archivos registrado, la corrupción es posible. Puede usar Apple Remote Desktop para ejecutar esto en todas las computadoras del aula a la vez.

  3. Utilice varios volúmenes. El uso de varios volúmenes debería reducir la posibilidad de corrupción. Dividir /desde /Users/debería facilitar la restauración (ya sea / o /Users se corromperán). Tenga en cuenta que esto probablemente podría complicar las cosas con Bootcamp.

  4. Monte particiones con opciones, que reducen la escritura. El montaje de particiones con noatimeopción debería reducir la escritura en él. De forma predeterminada, cada vez que se accede a un archivo, se "toca" la marca de tiempo de acceso.

  5. Asegúrese de que no haya intentos de montar la partición HFS+ desde otros sistemas operativos. ¿Es posible que alguien esté iniciando una distribución de Linux desde usb/dvd y montando /en modo rw o jugando con la configuración del diario?

Espero que mi respuesta sea útil.

PD: la corrupción suele ser gradual, no repentina. Existe la posibilidad de que algo específico esté causando esto, software o flujo de trabajo. Mi mente está en Parallels 5, pero debería corromper el volumen de bootcamp, no el de MacOS. Buscar su KB no revela nada útil.

PPS: es frágil porque no tiene un sistema real para corregir la corrupción dentro de un archivo. Un diario registra las transferencias y los intentos de volver a copiar los datos para devolver el sistema de archivos a un estado consistente, pero si el archivo perdido es vital (como los datos reales de la estructura del sistema de archivos), entonces no hay recurso. De hecho, debido a que el archivo de catálogo (que enumera toda la información de datos lógicos) se almacena como un archivo, si se corrompe en ciertos lugares, todo su sistema de archivos se convierte en datos inútiles inútiles, o se desecha parcialmente como basura en caso de que esté dañado y se produce una reproducción del diario que hace que se reestructure el sistema de archivos de una manera que no es coherente con los datos (por ejemplo, el archivo a y b tienen 1 MB y 2 MB respectivamente, pero la reproducción los cambia a 2 MB y 1 MB, lo que da como resultado la mitad del contenido de B estando dentro de A).

Cualquier sistema de archivos tendrá problemas considerando las circunstancias. ¿Pero "Frágil" y "Un poco anticuado"? ¿En serio? Un poco anticuado en mi mente es no llevar un diario. Y ese no es el caso de HFS+.
Si el sistema de archivos fuera frágil, ¿no tendrían problemas todas las Mac? Las instalaciones con cientos de Mac que auditan las desconexiones de energía abruptas y un programa continuo de arranques seguros, las reparaciones del sistema de archivos cortarán este tipo de cosas de raíz.
+1 para HFS Plus (HFS+) es un sistema de archivos frágil. He experimentado este escenario exacto con dos discos duros. Windows no se ve afectado, hfs+ no se puede reparar. Volver a crear la partición y reinstalar os x funciona bien

Cosas que podrían hacerlo fuera de mi cabeza...

usted dijo que no ha tenido subidas de tensión o apagones. ¿Cómo lo estás confirmando? Teníamos un salón de clases donde las fuentes de alimentación de las PC soplaban aparentemente al azar. Tuvimos que hacer que el personal de mantenimiento conectara un medidor de monitoreo al circuito y descubrimos que el tomacorriente tenía picos de voltaje enormes.

La memoria no está colocada correctamente y corrompe los datos.

Cables de transmisión sueltos.

discos duros marginales que tienen un conjunto de sectores defectuoso, pero no lo suficientemente malo como para activar alertas o escaneos en busca de sectores defectuosos.

Algo en el lado de Windows a través de bootcamp está modificando la unidad de una manera que no le gusta a la unidad. ¿Protección contra copias? ¿Utilidades de la unidad?

Dijiste que está en un laboratorio. ¿Qué corren los estudiantes? ¿Está monitoreando o bloqueando lo que se puede ejecutar que podría estar haciéndolo?

Usted ha dicho que esto parece ser aleatorio, no hay dos máquinas que sucedan en una fila. Esto me llevaría a sospechar que un estudiante o un grupo de estudiantes lo están causando o que hay un problema de energía aleatorio en el laboratorio que lo está causando. ¿Hay alguna forma de rastrear quién usó las máquinas por última vez para ver si este problema parece seguir mágicamente a uno de sus usuarios?

No hemos estado usando ningún equipo de monitoreo de energía, no. Simplemente desviarse del informe de los maestros de la escuela secundaria sobre eso. editar GAH! Nota personal: la tecla Intro no crea una nueva línea en modo comentario.
Podría querer probar eso. Tampoco había indicios de tal problema en el salón de clases, pero el director de TI era un estudiante de ingeniería eléctrica en la universidad y les pidió que lo revisaran. Hizo los cálculos y descubrió que tenían picos periódicos de miles de voltios...
Hicimos una prueba de RAM en cada máquina que tuvo este problema, todas pasaron. Uno pensaría que si los cables de la unidad estuvieran sueltos, el problema se habría manifestado en la misma máquina varias veces en el mismo iMac, en lugar de en varios iMac. Además, si se tratara de un cable de unidad suelto, es extraño que no haya ocurrido en las particiones de Bootcamp.
Es posible que las unidades sean realmente marginales, pero me cuesta mucho comprar esa. Revisé, volví a verificar y revisé tres veces estas unidades. He usado la Utilidad de disco de Apple, así como Drive Genius 3 para escanear los mocos de los discos. Además, nunca he visto una unidad marginal sin tener al menos algunos indicadores en SMART. He visto discos duros "malos" que pasaron SMART, pero aún tenían un alto número de sectores reubicados y otras cosas cuando usaban una utilidad SMART. estas unidades? Nada.
He pensado en que Windows joda con la partición de Mac, y aún no lo descarto. Sin embargo, el hecho de que el controlador bootcamp de Apple SOLO montará particiones HFS+ como de solo lectura parece impedirlo. No estamos utilizando ninguna herramienta de disco o utilidades de tipo "deep freeze" en el lado de Windows.
No eres... pero ¿qué pasa con tus usuarios? ¿Está bloqueando lo que pueden o no pueden ejecutar? ¿Es posible que tenga un copo de nieve único que encontró un juguete divertido en línea o está ejecutando algo que intenta modificar el disco directamente?
LOL @ "copo de nieve único". En cuanto al bloqueo, todos los estudiantes (y el 95 % de los profesores) se ejecutan como cuentas de usuario limitadas tanto en Windows como en Mac. Además, el maestro y los estudiantes de la clase de Multimedia son algunos de los mejores en esta escuela en particular. No quiere decir que no tengamos un inadaptado, porque es muy posible. A los estudiantes también se les asignan máquinas específicas, por lo que la probabilidad de que un alborotador obtenga acceso a cada una de estas cinco máquinas sin llamar la atención sería difícil. Estoy trabajando en cada una de sus preguntas, pero no tome mis respuestas como desdeñosas.
Los 133t autodenominados hackers no se limitan a los niños que pasan muchos días en la oficina del director...
O podría haber un malware transmitido por Windows que esté tratando de hacer algo en la tabla de particiones durante el bootcamp.
Estoy de acuerdo en que los estudiantes pueden ser silenciosamente maliciosos, pero esto no me parece un fracaso inducido deliberadamente. Conozco a mi clientela, y en nuestro caso los estudiantes son abiertamente (y torpemente) maliciosos, o simplemente usuarios de computadoras "normales". Además, el usuario de cada máquina ha tenido inconvenientes al perder el acceso a sus documentos durante días seguidos (aún tenemos que asignar los documentos de usuario de estas Mac a recursos compartidos de red).
En cuanto al software malicioso de Windows, también es una posibilidad. Ejecutamos antivirus en todas las máquinas con Windows (incluidas las Mac con Bootcamp) en el distrito (Avast, administradas por red) y no ha habido advertencias en ninguna de las Mac con Bootcamp. Además, debido a que los profesores y los usuarios se ejecutan con privilegios limitados, los peores "virus" que vemos son programas antivirus falsos que se ejecutan solo con los privilegios limitados del usuario que fue engañado para instalar el programa. Todo lo que tenemos que hacer para eliminar dicho malware rouge es eliminar la cuenta local del usuario y dejar que se reconstruya en el próximo inicio de sesión.

¿Ha considerado una revisión periódica de las máquinas? Puede programar fácilmente pases de verificación semanales de fsck (hasta que descubra por qué está ocurriendo la corrupción) y luego mensualmente para controlar las cosas.

Con un sistema de archivos registrado, se necesita un mal trato repetido para que las Mac se degraden hasta el punto de no arrancar. Incluso el software malo no escribe en el lado del sistema de arranque, por lo que sospecho que algo está claramente mal. En las Mac que se apagan limpiamente y llaman la atención cada vez que se reparan errores menores del sistema de archivos (cada vez que una Mac se reinicia y fsck no se ejecuta en modo preen es una señal de problemas en el horizonte).

Con una implementación de 25 Mac, puede dedicar un tiempo a ser proactivo con respecto a las comprobaciones del sistema de archivos y ver cuáles no se apagan limpiamente mediante la configuración de un servidor syslog u otro sistema de auditoría centralizado.

Yo consideraría la actividad de los estudiantes. Si está ejecutando bootcamp y OS X, apuesto a que los estudiantes están bloqueando el lado de Mac para ejecutar bootcamp, porque no son pacientes. Este también puede ser el caso si hay un bloqueador de pantalla presente.

Yo sugiero:

  1. Eliminar campo de entrenamiento. En su lugar, ejecute una máquina virtual en Parallels o Virtual Box. (Descubrí que Windows XP en VirtualBox funciona bastante bien). Configure esto para que la máquina virtual sea inmutable, almacenada localmente en la antigua partición de bootcamp. Esto evitará que los niños jueguen con la instalación de Windows. Redirija su directorio de inicio para leer su directorio de inicio de Mac en su servidor. (Este es un PITA para configurar la primera vez, ya que abarca alrededor de un trillón de regedits)

  2. Establezca alguna forma de monitoreo de inicio de sesión para que sepa qué estudiantes han usado qué máquinas. Esto tiene la ventaja de que puede detectar al mismo niño iniciando sesión en varias máquinas, generalmente como un favor para alguien que está prohibido. Configuré que cuando el mismo inicio de sesión estaba en dos máquinas, ambas máquinas se reiniciaron.