О.Г. Чанышев
Институт информационных технологий и прикладной математики СО РАН, г. Омск

СТРУКТУРНО-ЧАСТОТНЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА И ГИПЕРТЕКСТОВОЕ ОТРАЖЕНИЕ

     Работа посвящена   вопросам,   связанным  с  автоматической  генерацией
гипертекстовой базы знаний о связях (БЗС)  в  документе.  Показывается,  что
любой связный текст по сути представляет из себя лингвосемантическую сеть, и
это есть явление природы, обусловленное механизмом образования ассоциаций; и
что  эта  сеть  должна  быть  положена  в  основу  гипертекстового отражения
документа в полнотекстовых БД.
     МЕХАНИЗМ ФОРМИРОВАНИЯ АССОЦИАЦИЙ и ТЕКСТ.
     В основе формирования условных рефлексов и вообще ассоциаций, по данным
академика   М.Н.  Ливанова,  лежит  процесс  затягивания  ритмов  активности
отдельных нейронов в единый ритм.
     Ассоциации, не  поддерживаемые повторными сочетаниями,  саморазрушаются
сначала быстро,  а  потом  все  медленнее,  по  экспоненте  с  отрицательным
показателем степени.
     Связность текста,   выраженная   в    повторении    слов,    определена
психофизиологической  необходимостью  поддержания  ассоциаций  в процессе их
образования и закрепления.
     Поскольку всякое  восприятие  протекает  во времени,  а неподкрепленные
ассоциации  саморазрушаются,  то  для  образования  устойчивой  связи  между
словами   и   словосочетаниями   (которые   говорящий  или  пишущий  считает
семантически  близкими)  их   необходимо   группировать   (структурировать).
Центрами  группирования  понятий  служат  слова-глюоны,  связывающие текст и
одновременно несущие основную семантическую нагрузку.
     ГИПЕРТЕКСТОВОЕ ОТРАЖЕНИЕ  ДОКУМЕНТА.
     По мнению автора,  автогенерацию гипертекстовой БЗС следует начинать  с
составления  глобального  словаря  и локальных словарей связи - естественной
лингвосемантической сети на основе предопределения  тематических  фрагментов
текста  (ТФ  - разделы,  главы,  пункты и т.п.).  После чего к лексемам этих
словарей могут быть применены стандартные процедуры нормализации и выявления
устойчивых  словосочетаний  на  основании всей информации о близости лексем,
имеющейся в построенной сети. Для доступа в системе-прототипе полнотекстовой
гипертекстовой  БД  используется иерархическая схема "каталог - наименование
документа - оглавление документа - ключевые слова  (пока  только  лексемы)".
Наименования   ТФ,   представляемые  в  оглавлении,  определяются  на  этапе
предопознания ТФ.
     Определение минимаксной   частоты  связи  позволяет  управлять  объемом
предоставляемой информации от минимального словаря связи до ТФ.
     ГЛОБАЛЬНАЯ И  ЛОКАЛИЗОВАННАЯ  ИНФОРМАЦИОННЫЕ  ПЛОТНОСТИ.
     Классификация лексем  текста  на   "глобальные",   "локализованные"   и
"локальные"  позволяет  ввести  ряд  структурных  (или "макросемантических")
числовых характеристик,  анализ распределения которых по ТФ  при  дальнейшей
доработке  методики  может  быть  использован для классификации текстов и их
фрагментов, а также в "редакторах стиля".