Tengo un archivo CSV con más de 5 mil millones de entradas. Quiero crear un gráfico de líneas o áreas para estos datos (número de fila de datos como x, valor como y). ¿Qué software puedo usar para hacerlo?
El archivo tiene una sola columna y todos los valores son valores flotantes con 3 puntos decimales. El tamaño del archivo es de 34 GB.
Muestra:
23287.323
50982.287
71124.691
[...]
La forma más rápida de generar este gráfico es probablemente con gnuplot .
Digamos que sus datos están en un archivo llamado data.csv
. Luego coloque el siguiente script en un archivo llamado graph.gnuplot
:
set yrange [0:100000]
set grid
set term png
set output 'graph.png'
plot \
0.01 with lines lt 1, \
'data.csv' u 0:1:2 with line lt -1 lw 1
Luego ejecuta este comando:
gnuplot graph.gnuplot
Y el gráfico se generará como graph.png
. Probablemente necesitará ajustar yrange
(y tal vez otras variables), así que pruébelo primero con solo unos pocos valores.
Es posible que leer el archivo en el Pandas
DataFrame
objeto de Python sea mejor que usar solo gnuplot:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv
La ventaja es que puede rebanar, trocear y mostrar más datos utilizando Pandas
las instalaciones. QtConsole
es un shell interactivo muy útil para este tipo de trabajo.
Deshacer
ᔕᖺᘎᕊ
hemen ashodia
usuario416