¿Busca un indexador de documentos fácil de configurar que admita archivos pdf, doc, docx, txt para Windows?

Estamos tratando de configurar un indexador de documentos basado en la web que admita tipos de archivos pdf, doc, docx, txt que no requieran un procedimiento de configuración complicado.

Hemos tratado:

  • swish-e: produce errores en pdf/docs, difícil de configurar/o simplemente no funciona.
  • Apache Solr: No puedo encontrar ningún ejemplo simple/ayuda/soporte.
  • Varios complementos de trac: no funcionan todavía.

En nuestra PC/servidor ya hemos configurado un servidor web apache para SVN y trac y además: python, PHP, mysql.

Idealmente, queremos algo que funcione listo para usar con pdf/docs... ¿existe tal herramienta?

¿Sería una posible solución importar todos los documentos a un sistema de gestión de documentos?
Posiblemente, lo ideal sería que fuera liviano, fácil de configurar/usar y accesible desde la web... ¿tienes otra opción en mente?
Mi idea sería colocar todos los documentos dentro de un sistema ECM como Alfresco o NemakiWare. Dichos sistemas tienen una poderosa función de búsqueda incorporada.
Sí, no es una mala idea :), ¿sabe si son accesibles a través de la web (es decir, el control a través de http)? - Voy a echar un vistazo a estos dos.

Respuestas (2)

Sphider Plus lo hará bastante bien para eso. El SPhider original también podría funcionar, pero IIRC no admite automáticamente la indexación de archivos doc/docx. Los he encontrado geniales a los dos. Son más o menos lo mismo, excepto que Sphider Plus es mil veces mejor: piense en el original como una versión 'lite'. Esto es realmente un rec. para Sphider plus y ese es el conjunto de características del que hablaré principalmente, la única razón por la que menciono el original es que es un artículo gratuito/de donación, mientras que Sphider Plus cuesta 25 EUR.

Como ya tiene una pila WAMP, la configuración será bastante simple. Asegúrese de que la lista de directorios esté habilitada para que pueda completar la indexación de archivos que no tienen enlaces entre ellos y configure Apache para alojar los archivos deseados, con el archivo VirtualHosts (que se ubicará en algún lugar como este: Apache<versionnumber>\conf\extra\httpd-vhosts.conf).

El código que desee dependerá de los archivos que desee que se puedan buscar; Sugeriría algo como esto (solo cambie las rutas según lo desee/requerido): - Me referiré a esto a lo largo de estas instrucciones, pero en realidad son solo ejemplos.

<VirtualHost *:80>
    DocumentRoot "C:/Users/Nick/Desktop"
    ServerName www.desktop.loc
    ServerAlias desktop.loc
    <Directory "C:/Users/Nick/Desktop">
        Options Indexes FollowSymLinks
        AllowOverride All
        Order allow,deny
        Allow from all
    </Directory>
</VirtualHost>
<VirtualHost *:80>
    DocumentRoot "C:/Users/Nick/Pictures"
    ServerName www.pictures.loc
    ServerAlias pictures.loc
    <Directory "C:/Users/Nick/Pictures">
        Options Indexes FollowSymLinks
        AllowOverride All
        Order allow,deny
        Allow from all
    </Directory>
</VirtualHost>

y agréguelo a los archivos de host de su sistema operativo:

127.0.0.1 desktop.loc
127.0.0.1 www.desktop.loc
127.0.0.1 pictures.loc
127.0.0.1 www.pictures.loc

Luego, instalar Sphider - Plus es probablemente mejor, ya que ha configurado fácilmente la reindexación automática y admite más tipos de archivos. Probablemente quiera crear una nueva ubicación de vhost search.loco algo para facilitar el acceso. Es posible que desee tenerlos detrás de un inicio de sesión de htaccess pero accesibles en la web y localmente, o solo dentro de su LAN. Mientras sea localhost solo, básicamente no hay riesgo de seguridad; Tan pronto como esté abierto, deberá considerar los riesgos seguros y tomar medidas (como un requisito de inicio de sesión seguro) para mitigarlos. Por supuesto, para tenerlo más allá de su LAN, deberá acceder a él por IP, que en la mayoría de los ISP cambia regularmente, u obtener un nombre de dominio y configurar DNS dinámico si es necesario.

A continuación, agregue las ubicaciones picture.loc y desktop.loc al índice de Sphider; tomará un tiempo dependiendo de la cantidad de archivos, etc., entonces está listo para comenzar: D

Características:

  • sin número máximo de archivos para indexar
  • Indexa HTML y, a través de convertidores integrados, puede indexar archivos PDF, DOCX, XLSX, ODT, ODS, CSV y XLS; indexará el nombre de archivo solo para imágenes y de las que no puede obtener contenido.
  • A un precio bastante razonable (25 EURO por Plus, donación/gratis por original)
  • potente interfaz de administración
  • bastante automatización (es decir, reindexación automática a través de CRON, etc. solo para Plus)
Muchas gracias por toda la información (+1), me tomaré un tiempo para revisarla y darle una oportunidad :)
Ahora tengo todo esto instalado. Pero aún no funciona del todo (solo indexa títulos, no el cuerpo de los archivos). Creo que me perdí algo de su explicación: ¿Cómo "me aseguro de que la lista de directorios esté habilitada"? ¿Es esa una configuración de Apache? - Gracias :)
@code_fodder Sí, esa es una configuración de Apache, pero si está obteniendo los títulos, probablemente lo sea, si va a un directorio sin ningún índice. [html/php/htm] obtendrá algo como esto . hmm Debería estar indexando contenidos. hmm, de repente estoy pensando que podría haber algo específico que necesite hacer. Revisaré mis notas antiguas de instalarlo yo mismo. Solo para confirmar, ¿estás usando plus o el original?
Además, no estoy seguro de cómo lo hace: "A continuación, agregue las ubicaciones de picture.loc y desktop.loc al índice de Sphider", ¿parece que solo hay una URL del sitio?
¡Sí, estoy usando la versión plus!, gracias por tus consejos :)

Una solución radical es utilizar NemakiWare .

  • Ventaja: no es difícil de configurar, potente búsqueda integrada (nombres de archivo, metadatos, texto completo)
  • Inconveniente: tendrá que mover todos sus archivos A NemakiWare. NemakiWare los almacenará en su base de datos interna. Sus archivos permanecen accesibles a través de una interfaz web y se pueden sincronizar con las computadoras de los empleados usando CmisSync (por lo que termina con una especie de servidor "Dropbox" personal).

Formatos admitidos: pdf, doc, docx, txt, muchos otros.
Gratis, de código abierto.

Descargo de responsabilidad: mi empresa fabrica tanto NemakiWare como CmisSync. Ambos gratuitos y de código abierto.

No es una mala idea... pero creo que todos los documentos deben almacenarse en NemakiWare, lo cual no es (para nosotros) una muy buena opción :)