Software para realizar una búsqueda inversa: hacer coincidir un cuerpo de texto con una frase conocida

Question

Software para realizar una búsqueda inversa: hacer coincidir un cuerpo de texto con una frase conocida

buscar
Software
búsqueda de texto
buscador

neil p

Tengo una gran lista de frases conocidas. Dado un cuerpo de texto (Diga un tweet), me gustaría ver si contiene una frase conocida de una lista grande. Estoy seguro de que debe existir algo como esto (quizás de los nuevos trajes cognitivos de IBM Watson/Microsoft Cortana o tal vez algo como Apache lucene). Desafortunadamente, no sé el nombre de este problema para identificar un producto que lo resuelva :)

Respuestas (2)

Software para realizar una búsqueda inversa: hacer coincidir un cuerpo de texto con una frase conocida

steve barnes · Answer 1

Lo que está tratando de hacer es parte del procesamiento del lenguaje natural y una de las herramientas importantes para esto es Python Natural Language Toolkit ( nltk ).

Se puede encontrar un buen punto de partida en un artículo y coincidencia de un cuaderno de Jupyter con una frase difusa que coincida con Python que analiza la tokenización, la distinción entre mayúsculas y minúsculas, la eliminación de palabras, la derivación, la lematización y apunta hacia la coincidencia parcial.

El proceso que tendrás que seguir es el siguiente:

Tome sus entradas en la lista y para cada entrada produzca una huella dactilar tokenizada, de caso fijo, con palabra vacía, derivada y lematizada de esa entrada.
Tome su tweet, o lo que sea, y haga lo mismo.
Busque en su lista de huellas dactilares puntuando cada una por el número de coincidencias con la huella dactilar de los tweets.
Cualquiera que puntúe por encima de un umbral determinado puede analizarse más a fondo posiblemente para ver si acortar el tweet da como resultado una coincidencia lo suficientemente cercana como para ser considerado una cita.

Un libro sobre el uso de nltk está disponible en línea, pero es solo uno de los miles de libros y artículos sobre el tema.

Codiólogo · Answer 2

Este es un problema de búsqueda ordinario. Solo necesita combinar todas sus frases conocidas en un solo término de búsqueda primero. Con expresiones regulares, esto se puede lograr de manera más directa con el operador de alternancia |. Para motores de búsqueda con operadores de estilo booleano, utilice OR.

Para recomendar un programa en particular (ya que se trata de Recomendaciones de software), intente grep. Puede construir una expresión regular mediante programación y luego pasarla grepcon xargs.

Software para realizar una búsqueda inversa: hacer coincidir un cuerpo de texto con una frase conocida

neil p

Respuestas (2)

steve barnes

Codiólogo

Extensión de Chrome para resaltar las palabras clave buscadas en un sitio web

Reemplazo de Google Desktop Search para Windows

El software de búsqueda y reemplazo que acepta palabras de reemplazo cuenta con más de 234,206 caracteres

¿Cuál es la mejor manera de indexar un documento PDF o Word para la búsqueda de texto completo?

Software para buscar a través de archivos (principalmente PDF)

Herramienta de búsqueda de imágenes y documentos PDF escaneados

Múltiples archivos PDF que se pueden buscar en el sitio web

El motor de búsqueda de texto completo más fácil para un corpus pequeño con búsqueda de proximidad

¿Software para buscar a través de sus propias bibliotecas de código fuente?

¿Qué es una buena biblioteca de recuperación de información de código abierto (motor de búsqueda)?