Главная |История |Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты

Программные инструменты для LSPL - Утилита анализа текста по шаблонам



Утилита представляет собой исполняемый модуль lspl-find, реализующий функции LSPL-процессора с выводом результатов работы в XML-файл. Из входного файла утилита последовательно считывает LSPL-шаблоны и правила, обрабатывает входной текст (считываемый из другого файла) и выводит в третий файл информацию, извлеченную из текста согласно заданным шаблонам и правилам (дополнительно для каждого извлеченного элемента-слова текста выводится его часть речи).

При обработке шаблона распознавания утилита помещает в выходной файл найденные текстовые фрагменты (распознанные конструкции) с сопутствующей информацией (морфологическими характеристиками слов и др.). В случае правила извлечения (если оно указано как целевое), кроме найденных фрагментов утилита дополнительно записывает в выходной файл результаты их преобразования согласно шаблону извлечения из обрабатываемого правила.

Код утилиты выложен в общий репозиторий.

Для сборки утилиты под *nix-платформу необходимо выполнить команды из README.md – при этом произойдет сборка LSPL-процессора и всех утилит.

Для ОС Windows-32bit архив с результатом сборки библиотеки LSPL и исполняемым файлом утилиты lspl-find можно скачать с github. В архиве есть подробное его описание в файле README.md.

Утилита запускается со следующими ключами:
-i – имя файла с обрабатываемым текстом на русском языке;
-p – имя файла (путь к файлу) со всеми LSPL-шаблонами и правилами для обработки текста;
-s – файл с именами целевых шаблонов/правил – тех, которые следует применить для извлечения, каждое имя записывается на отдельной строке;
-o – имя выходного файла, в который записываются результаты обработки текста (в случае его отсутствия вывод производится в stdout);
-c – (опционально) указание кодировки текста (обязательно для кодировки utf-8, а по умолчанию – кодировка CP1251);
-h – (опционально) показ поясняющеего сообщения о ключах утилиты.

Команда запуска утилиты может выглядеть так:
./lspl-find -p patternfile.pat -s patternnamefile -i text.txt

Если нужны все шаблоны извлечения, то можно вместо файла с их именами передать последним аргументом звёздочку:
./lspl-find -i text.txt -c utf-8 -p patternfile.pat '*'
или сами имена целевых шаблонов/правил
./lspl-find -i text.txt -c utf-8 -p patternfile.pat SYN NPSYN в этом случае выдаст результаты для шаблонов/правил с именами SYN и NPSYN.

Прежние реализации утилиты для ОС Windows-32bit:
Скачать утилиту-2016 {ссылка на скачивание }
Скачать утилиту-2013. Эта реализация утилиты не выводит данные о части речи слов в извлекаемом тексте.


    Главная |История|Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты