Терминологический анализ текста
Методы автоматического терминологического анализа разрабатываются для текстов специализированных проблемных областей (ПО): научно-технических, естественнонаучных, медицинских и др., изобилующих специальной терминологией, которая охватывает как однословные (импликация, миопатия и др.), так и многословных термины (геометрическая прогрессия, пароксизм аритмии, рекурсия высшего порядка и т.п.). В подавляющем большинстве термины являются именными словосочетаниями, т.е. состоят преимущественно из существительных и прилагательных.
Терминологический анализ подразумевает в первую очередь распознавание в текстах терминов для их извлечения из текста, а также, возможно, фиксации мест их употреблений в тексте (терминоупотреблений). Другой задачей является выявление семантических связей терминов (родовидовых, атрибутивных, синонимии и др.), а точнее – связей понятий, которые обозначаются этими терминами.
Терминологический анализ применяется к коллекциям текстов специализированных ПО для создания тезаурусов и онтологий этих ПО, а также к отдельным текстам – для построения глоссариев используемых терминов, предметных указателей и др.
В рамках проекта LSPL созданы несколько наборов шаблонов для терминологического анализа русскоязычных научно-технических текстов (математических, физических и посвященных компьютерных наукам):
- Шаблоны, описывающие грамматическую структуру именных терминологических словосочетаний (геометрическая прогрессия – шаблон A N <A=N>).
Набор шаблонов грамматических образцов терминов: Скачать
Набор LSPL-правил их извлечения: Скачать
- Шаблоны, учитывающие типичные контексты введения терминологических синонимов и сокращений (например: …информационная система или просто ИС).
Набор LSPL-правил извлечения терминологических синонимов: Скачать
- Шаблоны, описывающие характерные конструкции введения в текст новых терминов. Например: Плоской триангуляцией мы называем связный плоский граф, каждая грань которого.... – термин плоская триангуляция распознается и извлекается таким LSPL-правилом: Term <c = ins> "мы" "называем" => #Term
(Term – имя шаблона, описывающего языковую конструкцию, которая может являться термином, причем она должна быть в творительном падеже: c = ins)
Набор LSPL-шаблонов фраз-определений терминов и правил их извлечения для автоматизированного построения глоссария: Скачать
Набор шаблонов и правил извлечения терминов для автоматизированного построения предметного указателя (структурированного перечня основных терминов текста): Скачать. Подробнее см. на github
Коллекция шаблонов словарных терминов по информатике и вычислительной технике: Скачать
Публикации по применению LSPL для извлечения терминов.
|