Monitoreo de procesos en detalle a lo largo del tiempo - no resumido

Quiero monitorear los procesos en ejecución de una máquina Linux a lo largo del tiempo.

Mi solución de bricolaje sería:

Volcar ps aux --forestcada minuto a un archivo.

Antecedentes: si recibo un mensaje "algo salió mal, ayer alrededor de las 8 en punto" quiero ver qué estaba pasando.

Hay muchas herramientas que resumen los valores de carga e io, pero necesito más detalles.

Puedo hacer plomería improvisada como el vertedero anterior de ps, pero supongo que hay mejores soluciones.

¿Qué herramienta podría ayudarme?

+0. Su pregunta en sí es buena, pero edite y mejore su título.
@unforgettableid el título fue actualizado. ¿Todavía necesita mejorar?
Todavía es quizás un título bastante ambiguo. No hace un gran trabajo al resumir de qué se trata la pregunta. Dicho esto, gracias por haber arreglado su capitalización.

Respuestas (2)

Podrías darle una oportunidad. Tiene licencia GPL.

Tiene capacidad de registro de datos sin procesar con el -winterruptor (escritura), que crea registros en /var/log/atop/atop_YYYYMMDD.

Más tarde puede analizar con el -r YYYYMMDDinterruptor (leer). Usted especifica el intervalo interesante con -b hh:mm -e hh:mmy puede definir qué información le interesa, por ejemplo

  • -m: memoria
  • -d: disco
  • -n: la red
  • -v: características del proceso
  • -c: líneas de comando
Gracias por su respuesta. Encontré este artículo relacionado: lwn.net/Articles/387202

Monit monitorea los procesos del servidor (y más) y los reinicia si mueren. Puede configurarlo para que le envíe una alerta si falla un proceso. Los detalles se registrarán en un archivo de registro en el que puede ver lo que sucedió en ciertos eventos. Incluso tiene un cliente web.

https://en.wikipedia.org/wiki/Monit

Fuente de la imagen: https://en.wikipedia.org/wiki/Monit

Además, danschultzer creó una herramienta basada en PHP, Monit Graph , para ayudar a graficar los datos de Monit.

¿Cómo puede monit mostrarme el árbol de procesos que se ejecutó ayer a las 12:30? La captura de pantalla muestra valores resumidos solamente.