Главная |История |Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты

Терминологический анализ текста



Методы автоматического терминологического анализа разрабатываются для текстов специализированных проблемных областей (ПО): научно-технических, естественнонаучных, медицинских и др., изобилующих специальной терминологией, которая охватывает как однословные (импликация, миопатия и др.), так и многословных термины (геометрическая прогрессия, пароксизм аритмии, рекурсия высшего порядка и т.п.). В подавляющем большинстве термины являются именными словосочетаниями, т.е. состоят преимущественно из существительных и прилагательных.

Терминологический анализ подразумевает в первую очередь распознавание в текстах терминов для их извлечения из текста, а также, возможно, фиксации мест их употреблений в тексте (терминоупотреблений). Другой задачей является выявление семантических связей терминов (родовидовых, атрибутивных, синонимии и др.), а точнее – связей понятий, которые обозначаются этими терминами.

Терминологический анализ применяется к коллекциям текстов специализированных ПО для создания тезаурусов и онтологий этих ПО, а также к отдельным текстам – для построения глоссариев используемых терминов, предметных указателей и др.

В рамках проекта LSPL созданы несколько наборов шаблонов для терминологического анализа русскоязычных научно-технических текстов (математических, физических и посвященных компьютерных наукам):

  • Шаблоны, описывающие грамматическую структуру именных терминологических словосочетаний (геометрическая прогрессия – шаблон A N <A=N>).
    Набор шаблонов грамматических образцов терминов: Скачать
    Набор LSPL-правил их извлечения: Скачать

  • Шаблоны, учитывающие типичные контексты введения терминологических синонимов и сокращений (например: …информационная система или просто ИС).
    Набор LSPL-правил извлечения терминологических синонимов: Скачать

  • Шаблоны, описывающие характерные конструкции введения в текст новых терминов. Например: Плоской триангуляцией мы называем связный плоский граф, каждая грань которого.... – термин плоская триангуляция распознается и извлекается таким LSPL-правилом: Term <c = ins> "мы" "называем" => #Term (Term – имя шаблона, описывающего языковую конструкцию, которая может являться термином, причем она должна быть в творительном падеже: c = ins)
    Набор LSPL-шаблонов фраз-определений терминов и правил их извлечения для автоматизированного построения глоссария: Скачать


Набор шаблонов и правил извлечения терминов для автоматизированного построения предметного указателя (структурированного перечня основных терминов текста): Скачать. Подробнее см. на github

Коллекция шаблонов словарных терминов по информатике и вычислительной технике: Скачать

Публикации по применению LSPL для извлечения терминов.


    Главная |История|Язык LSPL|Инструменты LSPL|Терминологический анализ|Морфопроцессор|Развитие|Контакты