Исследовательский проект: LSPL и приложения
Проект реализуется с открытым программным кодом (github), под лицензией MIT. Основной язык программирования – С++, вспомогательный – Python.
Название проекта идет от аббревиатуры LSPL – Lexico-Syntactic Pattern Language (язык лексико-синтаксических шаблонов). Этот язык предназначен для формального описания конструкций (выражений) русского языка в системах извлечения информации из текстов (Information Extraction Systems). Конструкции описываются в виде лексико-синтаксических шаблонов, которые определяют входящие в конструкции слова с учетом их морфологических характеристик.
Проект включает:
- Язык LSPL для описания шаблонов и правил извлечения конструкций из текстов;
- Программные инструменты поддержки языка: LSPL-процессор, утилита и визуальная среда разработчика LSPL-шаблонов и правил;
- Морфологический процессор для русского языка, используемый в LSPL-процессоре;
- Наборы шаблонов и правил, созданных для решения задач автоматического анализа текстов, в том числе извлечения терминологической информации.
В ходе развития проекта была показана применимость языка LSPL и его инструментов для решения разных прикладных задач обработки текстов. Язык и программные инструменты использовались во многих выпускных работах студентов кафедры алгоритмических языков факультета ВМК МГУ имени М.В. Ломоносова.
|