О.Г. Чанышев
Институт информационных технологий и
прикладной математики СО РАН, г. Омск
Работа посвящена вопросам, связанным с автоматической генерацией
гипертекстовой базы знаний о связях (БЗС) в документе. Показывается, что
любой связный текст по сути представляет из себя лингвосемантическую сеть, и
это есть явление природы, обусловленное механизмом образования ассоциаций; и
что эта сеть должна быть положена в основу гипертекстового отражения
документа в полнотекстовых БД.
МЕХАНИЗМ ФОРМИРОВАНИЯ АССОЦИАЦИЙ и ТЕКСТ.
В основе формирования условных рефлексов и вообще ассоциаций, по данным
академика М.Н. Ливанова, лежит процесс затягивания ритмов активности
отдельных нейронов в единый ритм.
Ассоциации, не поддерживаемые повторными сочетаниями, саморазрушаются
сначала быстро, а потом все медленнее, по экспоненте с отрицательным
показателем степени.
Связность текста, выраженная в повторении слов, определена
психофизиологической необходимостью поддержания ассоциаций в процессе их
образования и закрепления.
Поскольку всякое восприятие протекает во времени, а неподкрепленные
ассоциации саморазрушаются, то для образования устойчивой связи между
словами и словосочетаниями (которые говорящий или пишущий считает
семантически близкими) их необходимо группировать (структурировать).
Центрами группирования понятий служат слова-глюоны, связывающие текст и
одновременно несущие основную семантическую нагрузку.
ГИПЕРТЕКСТОВОЕ ОТРАЖЕНИЕ ДОКУМЕНТА.
По мнению автора, автогенерацию гипертекстовой БЗС следует начинать с
составления глобального словаря и локальных словарей связи - естественной
лингвосемантической сети на основе предопределения тематических фрагментов
текста (ТФ - разделы, главы, пункты и т.п.). После чего к лексемам этих
словарей могут быть применены стандартные процедуры нормализации и выявления
устойчивых словосочетаний на основании всей информации о близости лексем,
имеющейся в построенной сети. Для доступа в системе-прототипе полнотекстовой
гипертекстовой БД используется иерархическая схема "каталог - наименование
документа - оглавление документа - ключевые слова (пока только лексемы)".
Наименования ТФ, представляемые в оглавлении, определяются на этапе
предопознания ТФ.
Определение минимаксной частоты связи позволяет управлять объемом
предоставляемой информации от минимального словаря связи до ТФ.
ГЛОБАЛЬНАЯ И ЛОКАЛИЗОВАННАЯ ИНФОРМАЦИОННЫЕ ПЛОТНОСТИ.
Классификация лексем текста на "глобальные", "локализованные" и
"локальные" позволяет ввести ряд структурных (или "макросемантических")
числовых характеристик, анализ распределения которых по ТФ при дальнейшей
доработке методики может быть использован для классификации текстов и их
фрагментов, а также в "редакторах стиля".