Herramienta de código abierto para construir un analizador ETL

Necesito crear un analizador ETL en Java. ¿Hay alguna herramienta o marco de código abierto disponible para construir un analizador ETL para datos no estructurados?

Quiero crear un analizador y necesito definir el formato en el archivo de propiedades y el analizador debe poder analizar según el formato en el archivo de propiedades.

No estoy pidiendo el código completo. Cualquier sugerencia sería apreciada.

¿Qué quieres decir con "ETL". ETL como en "Extraer", "Transferir", "Cargar"?
¡Exactamente, extraiga la carga de transferencia...!

Respuestas (3)

Para construir procesos Etl simples y complejos, recomiendo Kettle. Actualmente se llama Pentaho Data Integration. Escrito en Java con una GUI agradable y fácil de integrar en el software Java. Fuente disponible. Ver sitio web .

Pregunté en código abierto ... ¡parece que el hervidor no es de código abierto ...!
Consulte community.pentaho.com/faq/general.php y oss-watch.ac.uk/resources/apache2 . En mi visión, Apache License v2 es de código abierto. ¿Para qué lo necesita o tiene un formulario de licencia específico requerido para su proyecto, como GPL, LGPL o BSD?

El único marco de código abierto que conozco (y utilizo) para el procesamiento de ETL en Java es Spring-Batch y es la única implementación (AFAIK) de jsr-352.
No estoy seguro de si te conviene porque en una simple búsqueda en Google encontré algunos marcos ETL puros como CloverETL pero aún no los he probado, así que no puedo opinar. Hasta ahora, he estado usando Spring-Batch para ETL y procesamiento por lotes durante casi 6 meses y estoy muy contento con él :) ¡
Espero haber ayudado un poco!

gracias por responder estoy dejando esta pregunta abierta para más sugerencias .. +1 ..
Spring-Batch es un procesador por lotes. Si bien, en teoría, se puede usar para crear una herramienta ETL, no agrega mucho valor y no proporciona componentes para ayudar con ETL. Deberías concentrar tu respuesta en CloverETL, que es mil veces más adecuado como marco ETL :-) ¡Gracias!
@NicolasRaoul, permítame no estar de acuerdo, decir que SB es solo un procesador por lotes es como decir que los vehículos no deben transportar objetos porque están hechos para transportar personas. SB es muy popular para el procesamiento ETL (es por eso que respondí) si el usuario tiene un conocimiento básico de Java y una búsqueda en Google puede demostrarlo :). Por otro lado no puedo enfocarme en CloverETL porque nunca lo use y no pretendo demasiado, hago trabajos ETL con SB. A decir verdad, creo que SB es más apropiado que Clover para esta pregunta porque es un MARCO DE JAVA como sugiere la pregunta.
¡Interesante! Agregar esta información a la respuesta sería genial :-)

Para una transparencia total, trabajo para Talend.

Talend tiene una versión de código abierto de nuestras capacidades de integración de datos, llamada Talend Open Studio. El resultado de los trabajos ETL de Talend son código nativo. Para los sistemas tradicionales, esto sería Java.

Talend Open Studio tiene más de 3 millones de descargas y una gran comunidad de usuarios en https://www.talendforge.org/ .