Software para buscar texto en un GRAN conjunto de archivos (libros electrónicos)

Buscando un programa de Windows (similar a "Everything") que pueda:

  • Escanee un directorio muy grande (2-3TB, 10,000 o incluso 100,000 de archivos en 1,000 de carpetas) recursivamente
  • Para cada archivo de "texto", indexe TODO el texto en él completamente
  • Ofrece la capacidad de encontrar en qué archivos se encuentra una cadena de búsqueda determinada.
  • Los archivos de "texto" como mínimo incluyen .txt, .pdf, .epub, .mobi. Idealmente, otros formatos de libros electrónicos conocidos (.fb2, .doc, .docx)
  • Capacidad de búsqueda avanzada deseada (buscar todos/cualquiera de un conjunto de términos de búsqueda, negar el término de búsqueda. Regex, idealmente. PCRE realmente idealmente).

Características opcionales deseadas:

  • Compatibilidad con texto que no está en inglés, tanto para indexación como para búsqueda, en otros formatos; específicamente texto ruso (KOI-8, Windows-1251)
  • Soporte para Unicode (indexación y búsqueda).
  • Puede buscar archivos (al menos, .zip y .rar)
  • Buena GUI (piense en la aplicación "Todo") para mostrar los resultados de búsqueda. Cuadrícula filtrada rápidamente, menú de acción para cada archivo encontrado, incluida la ubicación de la copia, la apertura de la carpeta contenedora, la copia/corte del archivo como si estuviera en el menú del Explorador de Windows.
  • Mantiene automáticamente el índice actualizado a medida que se agregan/eliminan/cambian archivos en el sistema de archivos, como lo hace Everything.
  • Idealmente, gratis pero no obligatorio, siempre que el precio sea razonable.
  • Se requiere Windows XP. Puntos de bonificación adicionales de Windows8.
¡Buena colección de ciencia ficción!
La próxima vez, etiquete el sistema operativo específico en su pregunta. También dijo que se requiere Windows XP, pero lo puso en sus funciones opcionales. Por favor, aclare. Me perdí ese punto y escribí una respuesta para Windows 7 (que funcionará con Win8, creo), que aún publicaré.
@ Yos233: prefiero tener un buen software que sea solo 8 que ninguno (puedo mover la colección de XP a 8 si es necesario). Pero actualmente está en el sistema XP.
Tenga en cuenta que Regexes/PCRE NO son compatibles con el enfoque de indexación. Los índices de texto completo no pueden ser utilizados por búsquedas de expresiones regulares, no hay suficiente información en ellos para servir una expresión regular. Para un enfoque basado en expresiones regulares, debe realizar una búsqueda clásica.

Respuestas (6)

Hasta donde yo sé, el Explorador de Windows 7 tiene todas las características básicas que necesita, y también algunas de las características opcionales.


Puede indexar un directorio de archivos en Windows (7+) de dos maneras. Indexe directamente el directorio o conviértalo en una biblioteca.

Índice directo: vea aquí: wikiHow: Cómo agregar una carpeta al índice de archivos de Windows 7

Crear biblioteca: en Explorer, vaya a "Bibliotecas" y haga clic en "Nueva biblioteca".


La búsqueda avanzada en Windows es algo que tuve que buscar solo por esto, pero How-To Geek tiene un artículo muy informativo sobre eso. Artículo

También asegúrese de tener habilitada la búsqueda de contenido de archivo: wikiHow: Cómo hacer que Windows 7 busque contenido de archivo


Anexo: Me di cuenta después de escribir esto que el OP solicitó Windows XP. Sigo con esto incluso si no se acepta para alguien más que viene (y así no perdí 30 minutos).

¿Qué tan bien escala? Específicamente, ¿puede manejar de manera efectiva el tamaño indicado en la pregunta sin atascar el sistema tanto en la indexación como en la búsqueda? ¿Puede indexar el contenido de los PDF de texto? ¿EPUB?
No creo que Explorer atasque el sistema (a expensas de una búsqueda posiblemente más lenta). La indexación de PDF es posible a través de Adobe IFilter .dll, adobe.com/support/downloads/detail.jsp?ftpID=4025 . No pude encontrar uno similar para EPUB, así que potencialmente no.
¿No atascaría el sistema? ¡Se atasca al abrir (olvidar la búsqueda) un directorio con varios miles de archivos!
Usted hizo la pregunta y yo le di mi mejor respuesta. Para mí, atascar el sistema se refiere a ralentizar otros procesos (es decir, acapara la CPU). Sí, por supuesto, buscar miles de archivos llevará algo de tiempo. No creo que encuentre un solo programa que pueda buscar en su biblioteca considerable con gran velocidad.
No me refería a la indexación. Me refería a mostrar resultados. Todo puede mostrar miles de resultados rápidamente. El Explorador de Windows se congelará
NB : una de las razones por las que Windows tiende a ralentizarse con el tiempo es que la indexación está activada de forma predeterminada y ralentiza la máquina cada vez más. Como resultado, es probablemente una de las funciones que se apaga con más frecuencia .
Fuente por favor. Hice una búsqueda y no pude encontrar datos cuantificables sobre el índice que ralentiza una computadora.

Recuperar (búsqueda en el escritorio)

 

Puede encontrar una lista de administradores de búsqueda de escritorio en Wikipedia , pero creo que el proyecto de código abierto Regain es una opción sensata, además de que es gratuito (como en libre) y también de código abierto y aún en desarrollo, lo que significa que aparecerán nuevas funciones ( lista completa de funciones aquí ).

Breve descripción

Regain es un motor de búsqueda de Java basado en Jakarta Lucene. Proporciona archivos de indexación y búsqueda para muchos formatos (HTML, XML, doc (x), xls (x), ppt (x), oo, PDF, RTF, mp3, mp4, Java). TagLibrary facilita la integración de resultados de búsqueda en su página web basada en JSP.

Características principales que encuentro muy útiles:

  • servidor web (para que se pueda acceder a él en LAN en todos los dispositivos en su LAN)
  • icono de bandeja (acceso rápido)
  • versión en caché del archivo indexado (a veces cargar un PDF grande no paga)
  • palabras clave de búsqueda (poderoso conjunto de palabras clave de Lucent)
  • puede admitir formatos adicionales (la recuperación admite I-Filter)
  • soporta API

Solo algunas instantáneas:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Me encantaría usar esto, pero falta documentación...

El DocFetcher de código abierto ha indexado más de 10.000 libros epub para mí. El proceso de indexación es rápido y realizar una búsqueda de texto completo en todos esos libros (después de la indexación) lleva solo unos segundos.

Búsqueda de escritorio de Copérnico

Para un enfoque basado en texto completo, elija Windows Search o Copernic Desktop Search ($50 para la versión completa, la versión gratuita (" Lite ") para uso no comercial está limitada a 75,000 archivos).

Especialmente Copernic Desktop Search tiene todas las capacidades que necesita. Lo he probado con 4.000.000 de documentos, la búsqueda sigue siendo muy rápida. Reconoce operadores como AND, OR, NOT, NEAR para respaldar sus búsquedas.

Tal vez DocFetcher podría ayudar.

Desde la página de inicio:

La aplicación se ejecuta en Windows, Linux y Mac OS X, y está disponible bajo la Licencia pública de Eclipse .

Características notables

  • Una versión portátil : hay una versión portátil de DocFetcher que se ejecuta en Windows, Linux y Mac OS X. Cómo es útil se describe con más detalle más adelante en esta página.
  • Compatibilidad con 64 bits : se admiten los sistemas operativos de 32 y 64 bits.
  • Compatibilidad con Unicode : DocFetcher viene con una sólida compatibilidad con Unicode para todos los formatos principales, incluidos Microsoft Office, OpenOffice.org, PDF, HTML, RTF y archivos de texto sin formato. La única excepción es CHM, para el cual aún no tenemos compatibilidad con Unicode.
  • Compatibilidad con archivos : DocFetcher admite los siguientes formatos de archivo: zip, 7z, rar y toda la familia tar.*. Las extensiones de archivo para archivos zip se pueden personalizar, lo que le permite agregar más formatos de archivo basados ​​en zip según sea necesario. Además, DocFetcher puede manejar un anidamiento ilimitado de archivos (por ejemplo, un archivo zip que contiene un archivo 7z que contiene un archivo rar... y así sucesivamente).
  • Buscar en archivos de código fuente : las extensiones de archivo por las que DocFetcher reconoce archivos de texto sin formato se pueden personalizar, por lo que puede usar DocFetcher para buscar en cualquier tipo de código fuente y otros formatos de archivo basados ​​en texto. (Esto funciona bastante bien en combinación con las extensiones zip personalizables, por ejemplo, para buscar en el código fuente de Java dentro de los archivos Jar).
  • Archivos PST de Outlook : DocFetcher permite buscar correos electrónicos de Outlook, que Microsoft Outlook normalmente almacena en archivos PST.
  • Detección de pares HTML : de forma predeterminada, DocFetcher detecta pares de archivos HTML (por ejemplo, un archivo llamado "foo.html" y una carpeta llamada "foo_files") y trata el par como un solo documento. Esta característica puede parecer bastante inútil al principio, pero resultó que esto aumenta drásticamente la calidad de los resultados de búsqueda cuando se trata de archivos HTML, ya que todo el "desorden" dentro de las carpetas HTML desaparece de los resultados.
  • Exclusión de archivos de la indexación basada en expresiones regulares: puede usar expresiones regulares para excluir ciertos archivos de la indexación. Por ejemplo, para excluir archivos de Microsoft Excel, puede usar una expresión regular como esta: .*.xls
  • Detección de tipo MIME: puede usar expresiones regulares para activar la "detección de tipo MIME" para ciertos archivos, lo que significa que DocFetcher intentará detectar sus tipos de archivos reales no solo mirando el nombre del archivo, sino también mirando el contenido del archivo. . Esto es útil para los archivos que tienen la extensión de archivo incorrecta.
  • Potente sintaxis de consulta : además de construcciones básicas como OR, AND y NOT, DocFetcher también admite, entre otras cosas: comodines, búsqueda de frases, búsqueda aproximada ("buscar palabras similares a..."), búsqueda de proximidad ("estos dos las palabras deben estar separadas por 10 palabras como máximo"), aumentar ("aumentar la puntuación de los documentos que contienen...")

Formatos de documentos admitidos

  • Microsoft Office (doc, xls, ppt)
  • Microsoft Office 2007 y posteriores (docx, xlsx, pptx, docm, xlsm, pptm)
  • Microsoft Outlook (pst)
  • OpenOffice.org (odt, ods, odg, odp, ott, ots, otg, otp)
  • Formato de documento portátil (pdf)
  • EPUB (epub)
  • HTML (html, xhtml, ...)
  • TXT y otros formatos de texto sin formato (personalizables)
  • Formato de texto enriquecido (rtf)
  • AbiWord (abw, abw.gz, zabw)
  • Ayuda HTML compilada de Microsoft (chm)
  • Metadatos MP3 (mp3)
  • Metadatos FLAC (flac)
  • Metadatos JPEG Exif (jpg, jpeg)
  • Microsoft Visio (vsd)
  • Gráficos vectoriales escalables (svg)

WinGrep

Puede buscar a pedido palabras dadas incluso en archivos binarios (nota: esto no funcionará bien para algunos archivos PDF, por ejemplo, los de los escáneres). con Wingrep - es gratis y buscará incluso dentro de archivos .zip. No ralentiza la PC todo el tiempo ni usa mucho espacio en el disco, ya que no genera índices, pero como resultado no funciona tan rápido. Es gratuito de Micro$oft, por lo que probablemente funcionará en la mayoría de las versiones de Windows.

Administrador de libros electrónicos Calibre

AFAIK no busca dentro de los archivos, pero busca metadatos de libros electrónicos y puede editar los metadatos, pero calibre tiene las siguientes características:

  • Es específicamente para el mantenimiento de bibliotecas de libros electrónicos,
  • puede convertir entre formatos para usted,
  • incluye visores para muchos formatos,
  • puede administrar libros electrónicos en la mayoría de los dispositivos.

Es gratuito y de código abierto y se ejecutará en casi todas partes.

Recomiendo encarecidamente conseguirlo hagas lo que hagas.