¿Es posible recuperar datos en un disco duro puesto a cero?

Supongamos que tengo un disco duro magnético (no SSD) moderno, fabricado en los últimos diez años, y el disco duro está repleto de las únicas copias de un artículo inédito sobre fusión fría barata escrito por un científico que murió en el incendio que quemó el único laboratorio de fusión fría del mundo.

dd if=/dev/cero de=/dev/sdx

¡Vaya!

Escuché a personas decir que si desea asegurarse de que los datos se borren por completo, debe:

  1. Utilice datos aleatorios, no ceros.

  2. Ponga a cero el disco duro con varias pasadas, ya sea 7 (práctica "estándar") o 35 (para los verdaderamente paranoicos).

  3. Borre usando pases que tienen patrones alternos especiales. Supuestamente, esto desmagnetiza la señal original o agrega suficiente ruido adicional para que no pueda detectarlo.

  4. Realice algún tipo de borrado de "bajo nivel" que haga que las cabezas se muevan en patrones diferentes, o que los patrones de bits difieran. Esto requiere soporte de hardware.

  5. Levantar los platos por encima de su temperatura de Curie

Mi pregunta es: ¿es realmente posible recuperar datos de una unidad puesta a cero? En otras palabras, ¿es justificable usar datos aleatorios, pases múltiples, etc. para enterrar sus secretos digitales?

Entiendo que " The Great Zero Challenge " (premio de 40 USD) no se ganó, pero hipotéticamente, si el costo de dicha recuperación es lo suficientemente grande o secreto, entonces es un punto discutible.

no estoy claro La afirmación que quiere que analicemos es que "Para borrar datos de manera segura, es necesario escribir datos aleatorios O escribir cero varias veces O usar técnicas especiales de hardware". Cree que podría ser suficiente hacer un solo paso para poner a cero los datos. ¿Es eso correcto?

Respuestas (1)

TL;DR: Parece que las densidades de datos en HD han aumentado hasta el punto en que no es factible recuperar datos de unidades puestas a cero.

El proceso de recuperación de datos de un disco duro "a cero" gira en torno al concepto de magnetismo residual. Esencialmente, la idea es que si examina la unidad con un microscopio de fuerza magnética, hay una pequeña diferencia entre los bits que eran '1' antes de sobrescribirse y los bits que eran '0'. El wiki de ArchLinux tiene algunos antecedentes interesantes para aquellos interesados. Habiendo dicho esto, este proceso requiere un desmontaje de la unidad en una sala limpia e incluso un equipo costoso para intentarlo.

En realidad, la situación es aún peor, considere las Directrices del NIST para la desinfección de medios [PDF], que establece (énfasis mío):

El avance de la tecnología ha creado una situación que ha alterado las mejores prácticas que se tenían anteriormente con respecto a los medios de almacenamiento de tipo disco magnético. Básicamente, el cambio en la densidad de pistas y los cambios relacionados en el medio de almacenamiento han creado una situación en la que han convergido los actos de limpiar y purgar los medios. Es decir, para las unidades de disco ATA fabricadas después de 2001 (más de 15 GB), la limpieza mediante la sobrescritura de los medios una vez es adecuada para proteger los medios de ataques tanto del teclado como del laboratorio.

EDITAR: Otro estudio que respalda lo anterior es Sobrescribir datos del disco duro: la gran controversia de limpieza (lamentablemente detrás de un muro de pago), que concluye (énfasis mío):

Este estudio ha demostrado que los datos borrados correctamente no pueden recuperarse razonablemente incluso si son de un tamaño pequeño o se encuentran solo en pequeñas partes del disco duro. Ni siquiera con el uso de un MFM u otros métodos conocidos. La creencia de que se puede desarrollar una herramienta para recuperar gigabytes o terabytes de información de un disco borrado es un error. Aunque existe una buena posibilidad de recuperación de cualquier bit individual de una unidad, las posibilidades de recuperación de cualquier cantidad de datos de una unidad utilizando un microscopio electrónico son insignificantes .

EDICIÓN 2: en realidad, no está claro si el resumen anterior se refería a una "unidad prístina y 1 limpieza", o una "unidad prístina y 3 limpiezas". Me inclinaría por "no importa", ya que dan la posibilidad de recuperar un solo número de 32 bits en torno al 1,16 %, incluso con una sola pasada. Los autores también afirman que no se puede recuperar una cantidad significativa de datos con niveles de confianza "más allá de toda duda razonable", normalmente un requisito legal en los EE. UU.

En resumen, parece que una sola pasada es suficiente para desinfectar la unidad hasta el punto en que no se puede recuperar con la tecnología actual.

Y "posibilidades insignificantes" es un eufemismo. Recuperar correctamente una sola palabra de 32 bits tiene una probabilidad del 1,6 %. En consecuencia, las posibilidades de recuperar una contraseña de 8 caracteres serían del 0,0265 % (¡si supieras dónde está exactamente!). Recuperar un archivo de 1kb (una carta de amor , por ejemplo) tiene una probabilidad de exactamente 0 (según la calculadora de Google ). O, si quieres ser exacto, 0,0…256%, donde “…” corresponde a casi 2000 ceros.
@KonradRudolph De hecho, y la contraseña también tendría que estar en texto sin formato para que funcione. Sin embargo, para ser 100% correcto, creo que esas probabilidades representan recuperar una versión completamente libre de errores; por lo que es posible que la información se pueda usar para limitar un ataque de manera probabilística. Todavía es un escenario ridículamente improbable, especialmente si considera que los números que he citado son para una unidad "prístina" y, según los autores: una unidad "usada" tiene solo una probabilidad ligeramente mayor de recuperación que lanzar una moneda .
Me gusta esta respuesta, pero la wiki de Arch Linux parece una cita fuera de lugar, ya que no ofrece ningún razonamiento para respaldar su afirmación ni proporciona referencias para leer más sobre el tema.
@DietrichEpp buen punto, fue pensado como un enlace de fondo, pero en realidad no agregó mucho. Eliminé la cita, pero dejé el enlace para obtener información de fondo.
@KonradRudolph Considero que el 1,16% para una palabra de 32 bits es enorme, no despreciable. Esa es una probabilidad del 87% de recuperar un solo bit (suponiendo independencia), por lo que incluso pequeñas redundancias en el mensaje pueden llevar a una recuperación completa.
@CodesInChaos No, eso no sigue en absoluto. Para explotar tal redundancia en la recuperación, necesita tener alguna información sobre su estructura. Además, si asume la independencia, entonces no puede asumir al mismo tiempo una estructura (incluso a través de las palabras en lugar de dentro de ellas). Entonces, esencialmente, lo único que posiblemente podría recuperar son las redundancias que poseía antes de la recuperación; en otras palabras, la redundancia sin información.
El documento NIST ha sido reemplazado por nvlpubs.nist.gov/nistpubs/SpecialPublications/… que ya no tiene el párrafo citado. Por cierto, usted dice que " no se puede recuperar con la tecnología actual ", pero una mayor densidad solo requiere herramientas más precisas, una carrera armamentista que una agencia gubernamental definitivamente puede ganar.
@nic gracias por la actualización. El nuevo documento es un poco más vago en este punto, pero no descarta que una sola pasada sea lo suficientemente buena, por ejemplo, "Para... medios magnéticos, una única pasada de sobrescritura con... ceros binarios normalmente dificulta la si se utilizan técnicas de laboratorio de última generación... intente recuperar los datos" y "El patrón Clear debe ser al menos una única pasada de escritura con un valor de datos fijo". Tampoco usaría la palabra "definitivamente"; los documentos anteriores parecían implicar exactamente lo contrario (como en el caso de que la "carrera armamentista" tendía a la irrecuperabilidad).
Me pregunto cómo llegan a esta conclusión. ¿Es realmente muy difícil construir un lector de magnetismo más preciso que el que se usa comúnmente ahora? Porque teóricamente, si supieras la revista exacta. nivel, probablemente tendría una idea bastante clara de cuál era el valor. Según tengo entendido, el costo y el trabajo implican que, hasta donde sabemos, nunca se ha intentado, pero es difícil imaginar por qué sería tan difícil de lograr si tuviera la mente puesta en esa tarea.
En realidad, la cifra del "1,6 % por palabra" parece estar hecha asumiendo una tasa de corrupción de bits aleatorios del 12 % por bit, lo que simplemente requiere que los datos originales tengan 1/8 bits de paridad (idénticos a la RAM ECC) para reconstruir los datos. .