Analizar los datos contenidos en el archivo de Excel

He estado usando computadoras durante aproximadamente 16 años, nunca usé Excel o un software similar, tal vez una vez. Entonces mi conocimiento de Excel es 0. Tal vez lo que estoy a punto de preguntar sea fácil, tal vez no. La primera parte de la pregunta es:

Tengo un gran archivo de Excel, que estoy editando en Gnumeric, y también tengo Kingsoft Office, que se ve así

ingrese la descripción de la imagen aquí

Estoy interesado en cloumn D, E, F, G, H, I. Cada rango representa una secuencia.

3,4,6,12,16,19es una secuencia. 1,6,21,24,38,42es otra secuencia.

Quiero comparar estas secuencias y ver si hay una secuencia repetida más de una vez. El orden no importa. por ejemplo 3,4,6,12,16,19, es la misma secuencia que 19,4,6,12,16,3, es un duplicado.

Quiero representarlos en un gráfico que resalte los duplicados y, si es posible, las fechas en que se creó la secuencia duplicada. Las fechas están en columna By C.

Estoy ejecutando Xubuntu 14.04 de 64 bits.

  • No me importa la herramienta utilizada, tal vez tenga que descargar otro software o usar un servicio web o tal vez Gnumeric no funcione.
  • Preferiría que el resultado final, incluido el gráfico, se pueda exportar a algo como XML porque todavía tengo que ordenarlo, usando python, es la segunda parte de la pregunta, no preguntaré sobre eso ahora, no quiero hacer la pregunta más complicada. Solo quiero que el resultado esté en un archivo que pueda manipularse fácilmente usando lenguajes de programación.
  • La herramienta utilizada debe ser libre.
  • Prefiero no usar el software de Microsoft que se ejecuta en Wine, ya sea el software de Linux o los servicios web.
Podría preguntar la segunda parte más tarde, aquí o en programmers.SE, ya que se trata más de programación
Estoy confundido. ¿Realmente usa Microsoft-Excel ? Si no es así, elimine la etiqueta.
@moose, no estoy usando Excel, pero el archivo con el que estoy trabajando se creó en Excel
Puede exportarlo a CSV y usar Python para hacer el resto. Consulte docs.python.org/2/library/csv.html

Respuestas (3)

Ya que va a terminar en python de todos modos, ¿por qué no simplemente leer el archivo de Excel directamente usando python en primer lugar y hacer el procesamiento que desee allí? Uso xlrd para python todo el tiempo y funciona muy bien.

http://installion.co.uk/ubuntu/saucy/universe/p/python-xlrd/install.html

No es específico de xubuntu, pero debería acercarse lo suficiente

sí, eso es lo que pensé antes de hacer esta pregunta, pero pregunté de todos modos pensando que la tarea que tengo que hacer podría hacerse desde Excel o lo que sea sin usar python. Y me han dicho que use csv que significa numpy + matplotlib
Ok, me estoy saliendo del tema, pero supongo que es solo un comentario, así que tal vez esté bien. Supongo que no entiendo totalmente los requisitos. Si tiene que terminar con CSV, todavía usaría python para la media docena de líneas de procesamiento que se necesitarían para encontrar los duplicados y luego simplemente escríbalo como CSV. Si necesita terminar con un Excel que está formateado, haría lo mismo, pero crearía el archivo con xlwt o tal vez solo para clasificarlo con python y luego devolvería los datos.

Definitivamente eso es más acerca de la programación
Una vez que necesite del programa, exporte datos (tabla) a CSV (que son solo líneas separadas por comas, en general)
La mayoría de los procesadores de tablas pueden exportar a CSV e importar CSV.

Según los documentos de Gnumeric (la siguiente tabla es una nota adhesiva)

Files in the file formats marked as Save/Open can be opened or saved with the  
Open, Save, and Save As menu items in the File menu. Files in the file formats  
marked as Import/Export can be imported or exported with the items on the Import  
Data and Export Data submenus of the Data menu.

Después de exportar a CSV, los datos se pueden procesar con el script, generando otro archivo CSV, que se puede volver a importar al programa.

Ok, veré cómo funciona cuando llegue a mi computadora portátil. Estoy usando la aplicación de Android ahora

¡Puedes manejar Excel sin conocimientos de programación!

  1. Hacer 6 nuevas columnas, por ejemploAA1...AF1

  2. Ordene los seis valores D, E, F, G, H, I: Haga AA1el mínimo con =SMALL(D1:I1,1), AB1el segundo mínimo con =SMALL(D1:I1,2)y así sucesivamente.

  3. Luego haz AG1la secuencia concatenada con= AA1 & "-" & AB1 & "-" & ...

  4. Después de eso, puede ordenar la hoja de Excel por el valorAG1

  5. Encontrar los duplicados es fácil con la fórmula en la columna AH, por ejemplo. para AH40:=IF(AG39<>AG40;"";"duplicate")

Espero que lo tengas. ¡Divertirse!