¿Cuál es el mejor conjunto de herramientas para analizar una oración en inglés en un árbol sintáctico?

Necesito un kit de herramientas (preferiblemente escrito en Java o Python) que analice una oración en inglés en un árbol sintáctico. Algo así como el analizador Charniak .

¿Están bien los árboles de análisis basados ​​en dependencias o simplemente quiere árboles de análisis basados ​​en distritos electorales?
se necesitan árboles de análisis basados ​​en distritos electorales

Respuestas (6)

Puede utilizar el analizador de Stanford :

  • libre y de código abierto
  • escrito en Java
  • precisión bastante cercana a "lo último en tecnología" (lo que sea que eso signifique, ya que es posible que los conjuntos de datos de referencia estándar no reflejen sus datos)
  • contenedores disponibles en algunos otros lenguajes como Python y Ruby.
  • demostración en línea

Otros paquetes de software.

ingrese la descripción de la imagen aquí

BLLIP Parser es la versión actual de Charniak-Johnson Parser :

Divulgación completa: soy el mantenedor de BLLIP Parser.

El analizador de Berkeley es una opción:

  • libre y de código abierto (licencia GPL 2.0)

  • escrito en Java, tiene enlaces de Python

  • precisión de última generación en muchos idiomas

  • modelos disponibles para muchos idiomas (inglés, búlgaro, árabe, chino, francés, alemán)

SintaxisNet :

  • implementado en TensorFlow
  • fuente abierta
  • basado en http://arxiv.org/abs/1603.06042
  • proporciona un modelo entrenado para inglés
  • rápido: alrededor de 600 palabras/segundo en un escritorio moderno
  • resultados de vanguardia

http://googleresearch.blogspot.com/2016/05/annunciando-syntaxnet-worlds-most.html :

En Google, pasamos mucho tiempo pensando en cómo los sistemas informáticos pueden leer y comprender el lenguaje humano para procesarlo de forma inteligente. Hoy, nos complace compartir los frutos de nuestra investigación con la comunidad en general al lanzar SyntaxNet, un marco de red neuronal de código abierto implementado en TensorFlow que proporciona una base para los sistemas de comprensión del lenguaje natural (NLU). Nuestro lanzamiento incluye todo el código necesario para entrenar nuevos modelos de SyntaxNet con sus propios datos, así como Parsey McParseface, un analizador en inglés que hemos entrenado para usted y que puede usar para analizar texto en inglés.

Del archivo Léame:

ingrese la descripción de la imagen aquí

El analizador de gramática de enlace

  • licencia GPL

  • Enlaces para java, python, perl, clisp, ocaml, autoit, node.js

  • Escrito en C/C++

  • Muy alta precisión para inglés.

  • Soporte bastante completo para el ruso; algo de persa; prototipos para otros lenguajes.

El analizador neuronal de Berkeley ( benepar )

  • Licencia MIT
  • Escrito en Python
  • Se integra con NLTK o spaCy
  • Tiene soporte para CPU y GPU (por tensorflow)
  • Incluye modelos para 11 idiomas (inglés, chino, alemán, vasco, francés, hebreo, húngaro, coreano, polaco, sueco)