Cómo hacer un gráfico para un gran conjunto de datos de 5 mil millones de registros

Tengo un archivo CSV con más de 5 mil millones de entradas. Quiero crear un gráfico de líneas o áreas para estos datos (número de fila de datos como x, valor como y). ¿Qué software puedo usar para hacerlo?

El archivo tiene una sola columna y todos los valores son valores flotantes con 3 puntos decimales. El tamaño del archivo es de 34 GB.

Muestra:

23287.323
50982.287
71124.691
[...]
Necesitaremos mucha más información para proporcionar una recomendación sólida. Tómese un tiempo para leer nuestras pautas de calidad de preguntas y edite su pregunta para que coincida con ellas. ¿Qué requisitos tienes? ¿Qué sería bueno tener, pero no es obligatorio? ¿En qué sistema operativo debería correr? Después de editar su pregunta para que contenga más información, podemos volver a abrirla. ¡Gracias!
Nuevamente, como dijo @Undo: ¿Qué sistema operativo? ¿Precio? ¿Tienes un presupuesto? ¿Hay algún requisito adicional?
Estoy en MAC OS X 10.11
Entonces, ¿solo quieres un (cualquier) programa que haga eso en tu Mac? ¿Qué quieres hacer con el gráfico después?

Respuestas (2)

La forma más rápida de generar este gráfico es probablemente con gnuplot .

Digamos que sus datos están en un archivo llamado data.csv. Luego coloque el siguiente script en un archivo llamado graph.gnuplot:

set yrange [0:100000]
set grid
set term png
set output 'graph.png'
plot \
  0.01 with lines lt 1, \
  'data.csv' u 0:1:2 with line lt -1 lw 1

Luego ejecuta este comando:

gnuplot graph.gnuplot

Y el gráfico se generará como graph.png. Probablemente necesitará ajustar yrange(y tal vez otras variables), así que pruébelo primero con solo unos pocos valores.

Es posible que leer el archivo en el Pandas DataFrameobjeto de Python sea mejor que usar solo gnuplot:

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv

La ventaja es que puede rebanar, trocear y mostrar más datos utilizando Pandaslas instalaciones. QtConsolees un shell interactivo muy útil para este tipo de trabajo.