Главная |История |Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты

Морфологический процессор текста на русском языке



В рамках проекта LSPL разработан морфологический процессор CrossMorphy с расширенной функциональностью и открытым кодом. Он включает библиотеку и утилиту командной строки, написанные на языке C++ для *nix-подобных ОС.

Возможности CrossMorphy:

  • Графематический анализ: токенизация – разбиение входного текста на токены 7 классов (теги: словоформы в кириллице, знаки препинания, разделители, числа, буквенно-цифровые комплексы, иероглифы) и сегментация на предложения (дополнительный тег).

  • Морфологический анализ русскоязычных словоформ на базе встроенного словаря словоформ – определение части речи, леммы (нормальной формы) и всех релевантных морфологических характеристик (тегов) словоформы.

  • Морфологический разбор несловарных словоформ на основе эвристик, учитывающих окончание словоформы, с выдачей ее части речи и набора морфологических тегов.

  • Разрешение морфологической омонимии на основе двух методов: бесконтекстного (на основе статистики окончаний словоформ) и контекстного (с помощью обученной нейросетевой (CNN) модели).

  • Синтез (генерация) нужных словоформ исходя из конкретной словоформы (или леммы) и заданных морфологических характеристик (если последние указаны не полностью, то выводятся все допустимые формы).

  • Морфемный разбор (разбиение) леммы или словоформы на составляющие морфы/морфемы (приставку, корень, суффикс, окончание, постфикс, интерфикс), реализованный на базе встроенного словаря морфемного разбора и обученных нейросетевых моделей для слов, отсутствующих в этом словаре.

Встроенный морфологический словарь процессора реализован в виде DAFSA-автомата с опорой на словарные данные системы Open Corpora.

Публикации по морфологическому процессору


    Главная |История|Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты