Estoy buscando una biblioteca que pueda detectar en qué lenguaje de programación está escrito un fragmento de código. Podemos suponer que el fragmento de código está escrito en un solo idioma.
Por ejemplo, para lenguajes naturales, uso la biblioteca de Python guess_language :
>>> from guess_language import guess_language
>>> guess_language("Ces eaux regorgent de renégats et de voleurs.")
'fr'
>>> guess_language("Tienes que seguir tu corazón.")
'es'
>>> guess_language("いいえ!忍者がいます")
'ja'
>>> not guess_language("??")
True
Si es posible, debe devolver las probabilidades de pertenecer a cada lenguaje de programación (por ejemplo, para un fragmento de código dado como entrada, la salida podría ser 94 % MATLAB, 30 % Python, 5 % Java, etc.). Idealmente, se puede llamar desde Python/Java/C++ (orden descendente de preferencia) y gratis.
Aquí hay un github/lingüista que usó github, una biblioteca de Ruby.
Aquí hay otro blackducksw/ohcount ver la ohcount_detect_language
función, es para C
, también tiene Ruby
y Python
puerto.
Otra biblioteca isagalaev/highlight.js para JavaScript
, vea la highlightAuto
función en la fuente de resaltado.js , da 1 o 2 respuestas posibles.
Neil Slater
steve barnes
franck dernoncourt
franck dernoncourt
Gilles 'SO- deja de ser malvado'
franck dernoncourt
RockPaperLz- Máscara o ataúd
franck dernoncourt
Mawg dice que reincorpore a Monica