О.Г. Чанышев
Институт информационных технологий и
прикладной математики СО РАН, г. Омск
Работа посвящена вопросам, связанным с автоматической генерацией гипертекстовой базы знаний о связях (БЗС) в документе. Показывается, что любой связный текст по сути представляет из себя лингвосемантическую сеть, и это есть явление природы, обусловленное механизмом образования ассоциаций; и что эта сеть должна быть положена в основу гипертекстового отражения документа в полнотекстовых БД. МЕХАНИЗМ ФОРМИРОВАНИЯ АССОЦИАЦИЙ и ТЕКСТ. В основе формирования условных рефлексов и вообще ассоциаций, по данным академика М.Н. Ливанова, лежит процесс затягивания ритмов активности отдельных нейронов в единый ритм. Ассоциации, не поддерживаемые повторными сочетаниями, саморазрушаются сначала быстро, а потом все медленнее, по экспоненте с отрицательным показателем степени. Связность текста, выраженная в повторении слов, определена психофизиологической необходимостью поддержания ассоциаций в процессе их образования и закрепления. Поскольку всякое восприятие протекает во времени, а неподкрепленные ассоциации саморазрушаются, то для образования устойчивой связи между словами и словосочетаниями (которые говорящий или пишущий считает семантически близкими) их необходимо группировать (структурировать). Центрами группирования понятий служат слова-глюоны, связывающие текст и одновременно несущие основную семантическую нагрузку. ГИПЕРТЕКСТОВОЕ ОТРАЖЕНИЕ ДОКУМЕНТА. По мнению автора, автогенерацию гипертекстовой БЗС следует начинать с составления глобального словаря и локальных словарей связи - естественной лингвосемантической сети на основе предопределения тематических фрагментов текста (ТФ - разделы, главы, пункты и т.п.). После чего к лексемам этих словарей могут быть применены стандартные процедуры нормализации и выявления устойчивых словосочетаний на основании всей информации о близости лексем, имеющейся в построенной сети. Для доступа в системе-прототипе полнотекстовой гипертекстовой БД используется иерархическая схема "каталог - наименование документа - оглавление документа - ключевые слова (пока только лексемы)". Наименования ТФ, представляемые в оглавлении, определяются на этапе предопознания ТФ. Определение минимаксной частоты связи позволяет управлять объемом предоставляемой информации от минимального словаря связи до ТФ. ГЛОБАЛЬНАЯ И ЛОКАЛИЗОВАННАЯ ИНФОРМАЦИОННЫЕ ПЛОТНОСТИ. Классификация лексем текста на "глобальные", "локализованные" и "локальные" позволяет ввести ряд структурных (или "макросемантических") числовых характеристик, анализ распределения которых по ТФ при дальнейшей доработке методики может быть использован для классификации текстов и их фрагментов, а также в "редакторах стиля".