Repositorio de contenido con control de versiones y capacidades de búsqueda de texto completo

Estoy buscando un buen almacén de documentos para un proyecto en el que tendré que guardar archivos adjuntos de casi cualquier tipo.

Los requisitos son:

  • capacidades de búsqueda de texto completo
  • control de actualizaciones/versiones
  • varios tipos de documentos (búsqueda de texto completo inicialmente solo en documentos basados ​​en texto, podría encargarme de una mayor integración en información de metadatos, integración OCR o lo que sea en pasos posteriores usando Apache Tika o herramientas similares).
  • capacidad multiusuario (supongo que esto también se puede extender en el lado de la aplicación si no es compatible como está)

No estoy seguro de que Jackrabbit y Elasticsearch/SOLR sean directamente comparables, pero me parece que ambos pueden cumplir con mis especificaciones. Por supuesto, estoy abierto a otros productos siempre que cumplan con mis requisitos.

Tenga en cuenta que este sitio no presenta solicitudes de comparaciones de productos: SR se trata de sugerir software específico para necesidades específicas que usted defina. Para obtener más información, consulte: ¿Es la herramienta x frente a la herramienta ya una pregunta justa? He ajustado su pregunta en consecuencia, y espero que le quede bien. En cuanto a las etiquetas utilizadas: ¿El software debe estar escrito en Java? ¿Hay alguna dependencia del sistema operativo (por ejemplo, debe ejecutarse en Windows/Linux/iOS/…)? ¿Debe ser accesible a través de la red? multiusuario capaz?
perfecto, y perdón por el esfuerzo extra.
Siempre encantado de ayudar. Pero, ¿puedes por favor llenar los espacios que he mencionado? Siempre puedes editar tu publicación con información adicional.

Respuestas (1)

Alfresco se ajusta a los requisitos:

  • Incluye Solr, y la búsqueda de texto completo funciona de inmediato.
  • Apache Tika también se incluye listo para usar, por lo que los metadatos se extraen de la mayoría de los formatos de archivo.
  • Por supuesto, Alfresco realiza el control de versiones y es multiusuario. Lo uso todos los días para colaborar con mis colegas.

Puede utilizar Alfresco a través de su interfaz de usuario o de cualquiera de las API que admite: CMIS, JCR, WebDAV, FTP, CIFS.

OCR no está disponible de fábrica, pero lo integré (usando Tesseract) para un cliente, fue relativamente fácil.

Alfresco es gratuito y de código abierto.

¿Se puede utilizar Alfresco mediante API? ¿O es solo una interfaz de usuario sobre Jackrabbit que agrega alguna funcionalidad adicional como la de apache Tika? Necesito usar el repositorio de contenido programáticamente para integrarlo en mi aplicación y vi que Alfresco está construido sobre Jackrabbit, por lo que no sé si debo optar por lo básico en esta oportunidad. Cualquier pista sería genial.
Alfresco no se basa en Jackrabbit. Agregué a mi respuesta un párrafo que enumera todas las API estándar que admite Alfresco.