Estoy creando un motor de búsqueda de texto completo para una serie de aproximadamente 10 libros de dominio público. El corpus rara vez se actualizará. La búsqueda de proximidad será la característica principal, por ejemplo, ubicar "hola" dentro de las 5 palabras de "mundo".
Estoy mirando las soluciones Haystack para Django/Python y Ruby. Conozco: Solr, Elasticsearch, Whoosh, Xapian y Sphinx.
Con un corpus tan pequeño, me centro en la facilidad de implementación, y ahora mismo me inclino por Whoosh (Python puro) o Sphinx (con Haystack o tal vez Ruby on Rails). ¿Pensamientos?
Fui con Python, Flask, Whoosh y gunicorn. Fue pan comido, lo puse en marcha casi de inmediato, y la creación de Python de Whoosh ha sido bastante agradable. Búsqueda muy avanzada, adiciones fáciles. Perfecto para mi pequeño corpus.
Completé y publiqué el código de mi motor. Aquí hay una demostración en vivo . Lea mi artículo introductorio para obtener más detalles, y si escribo más artículos para este proyecto, aparecerán en mi sitio .
Aquí hay una referencia a la búsqueda de proximidad con el lenguaje de consulta de Whoosh.
Espadaña
cristobal galpin
unor
cristobal galpin
cristobal galpin