Главная |История |Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты

Язык LSPL и шаблоны для анализа русскоязычных текстов



Язык LSPL предназначен для декларативного описания конструкций русского языка (в частности, именных словосочетаний), в виде их лексико-синтаксических шаблонов. Шаблон можно рассматривать как структурный образец языковой конструкции, он состоит из последовательности элементов, описывающих ее фрагменты – в том порядке, в каком они встречаются в этой конструкции.

Средства языка позволяют задавать входящие в конструкцию словоформы, леммы, их морфологические характеристики, например, шаблон именного словосочетания из существительного и зависимого от него существительного в родительном падеже (диаграмма жесткости, план побега и т.п.) выглядит следующим образом: N1 N2 <c=gen>

Для описания именных словосочетаний русского языка, которые обычно являются грамматически согласованными, в языке LSPL предусмотрены средства указания согласования, к примеру, шаблон A N <A=N> задает всевозможные грамматически согласованные словосочетания из прилагательного и существительного (линейное уравнение, нового планшета и т.п.).

Подобные шаблоны, называемые шаблонами распознавания, могут быть использованы для распознавания конструкции в тексте (на базе поверхностного синтаксического анализа) и последующего её извлечения.

Описание шаблонов распознавания конструкций.

Важная особенность языка LSPL – возможность использовать при задании шаблона распознавания другие (уже определенные, вспомогательные) шаблоны. При формализации сложной языковой конструкции выделить ее составные части и описывать их по очереди в виде шаблонов, давая этим шаблонам имена и используя эти имена в других шаблонах.

Язык позволяет также записывать правила извлечения, согласно которым из распознанной конструкции выделяются нужные части, при этом над ними могут быть выполнены некоторые преобразования (например, лемматизация слов). Правило извлечения включает шаблон распознавания и шаблон извлечения. Пример правила для распознавания словосочетания (вида серый маленький кот) и извлечения из него существительного (его леммы): A1 A2 N <A1=A2=N> =text> #N

Описание шаблонов извлечения и правил {ссылка на: LSPL_Refguide_22_ExtractTemplates-Rules, позже}

Публикации по языку шаблонов LSPL.

Для создания и редактирования файлов с шаблонами можно применять текстовый редактора Notepad++ с подсветкой синтаксиса LSPL.

Notepad++ это бесплатный редактор текстовых файлов (замена стандартного Блокнота) с поддержкой синтаксиса большого количества языков программирования, ориентирован для работы в операционной системе MS Windows.


    Главная |История|Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты