Software para analizar el contenido del sitio web y hacer análisis

Chicos, ¿hay algún software o biblioteca que pueda usar para analizar los contenidos de todo el sitio web y luego realizar un análisis como, por ejemplo, cuál es la palabra que se usa con más frecuencia en el sitio? ¿El usuario más activo? etcétera etcétera.

Quiero analizar todo el sitio, así que si es un foro quiero tener acceso a TODOS los datos en el sitio. Todas las publicaciones realizadas.

¿Tiene control o acceso al servidor web? ¿O está preguntando sobre el análisis de un sitio web desde el exterior?

Respuestas (1)

Necesitará múltiples herramientas para lograr su objetivo.

raspado de pantalla

Primero debe recuperar la página web y analizarla para extraer el contenido significativo eliminado de la paja del marcado HTML.

proyecto jsopa

Para Java, sugiero la biblioteca jsoup . La palabra 'sopa' es una linda referencia a un marcado HTML incorrecto que es "sopa de etiquetas" . Esta biblioteca me ha funcionado bien en algunos proyectos y se usa en software importante como Vaadin .

La biblioteca jsoup maneja las tareas de recuperar una página y analizar el contenido de esa página. Por cierto, este proceso se denomina comúnmente "web scraping" o "screen scraping".

También puede elegir entre muchos otros analizadores de HTML .

Indexación de texto completo

Para realizar un seguimiento del uso de las palabras, necesita la indexación de texto completo.

logotipo del proyecto Apache Lucene

Un producto líder para esto es el proyecto Apache Lucene . Construido en Java, pero también portado a varios otros lenguajes.

Para citar Wikipedia:

Si bien es adecuado para cualquier aplicación que requiera indexación de texto completo y capacidad de búsqueda, Lucene ha sido ampliamente reconocido por su utilidad en la implementación de motores de búsqueda de Internet y búsquedas locales en un solo sitio.

Lucene incluye una función para realizar una búsqueda aproximada basada en la distancia de edición.

logotipo del sistema de gestión de base de datos PostgreSQL

Otro enfoque es usar una base de datos poderosa como Postgres que es capaz de indexar y buscar texto completo.

Análisis de registro

Para determinar los usuarios activos, deberá analizar los registros del servidor web.

Consulte la página de Wikipedia para obtener información sobre el software de análisis de registros web .