Морфологический процессор текста на русском языке
В рамках проекта LSPL разработан морфологический процессор CrossMorphy с расширенной функциональностью и открытым кодом. Он включает библиотеку и утилиту командной строки, написанные на языке C++ для *nix-подобных ОС.
Возможности CrossMorphy: -
Графематический анализ: токенизация – разбиение входного текста на токены 7 классов (теги: словоформы в кириллице, знаки препинания, разделители, числа, буквенно-цифровые комплексы, иероглифы) и сегментация на предложения (дополнительный тег).
-
Морфологический анализ русскоязычных словоформ на базе встроенного словаря словоформ – определение части речи, леммы (нормальной формы) и всех релевантных морфологических характеристик (тегов) словоформы.
-
Морфологический разбор несловарных словоформ на основе эвристик, учитывающих окончание словоформы, с выдачей ее части речи и набора морфологических тегов.
-
Разрешение морфологической омонимии на основе двух методов: бесконтекстного (на основе статистики окончаний словоформ) и контекстного (с помощью обученной нейросетевой (CNN) модели).
-
Синтез (генерация) нужных словоформ исходя из конкретной словоформы (или леммы) и заданных морфологических характеристик (если последние указаны не полностью, то выводятся все допустимые формы).
-
Морфемный разбор (разбиение) леммы или словоформы на составляющие морфы/морфемы (приставку, корень, суффикс, окончание, постфикс, интерфикс), реализованный на базе встроенного словаря морфемного разбора и обученных нейросетевых моделей для слов, отсутствующих в этом словаре.
Встроенный морфологический словарь процессора реализован в виде DAFSA-автомата с опорой на словарные данные системы Open Corpora.
Публикации по морфологическому процессору
|