А.А. Сметанников
ГНЦ ВБ "Вектор" НИИ молекулярной биологии, г. Новосибирск
Abstract The paper presents an original software product intended for information retrieval by strictly sequential search in the database. Its query language is based on the boolean predicates with weight coefficients. Terms query contains occurrence frequency in relevance or unrelevance documents for calculation term weight coefficients. The ranked output is defining the document classification. The software allows to perform the search in the databases with text documents showing high efficiency of retrieval system. Во многих автоматизированных информационно-поисковых системах (АИПС) в базы данных (БД) включены документы со свободным индексированием, а для формулирования логических условий (ЛУ) поисковых предписаний (ПП) запросов используются булевые операторы. Настройка ПП запросов на поиск в БД, содержащих документы со свободным индексированием (заглавия, рефераты, ключевые слова) требует применения в логике запросов контекстных отношений, логического отрицания, увеличения сложности логических условий, а также расширения словарного состава за счет разнообразия грамматических форм "свободного текста". Поэтому эффективности использования АИПС с булевой логикой можно добиться лишь в том случае, если выполняются следующие условия: пользователи способны полностью и точно выразить свою информационную потребность в терминах информационно-поискового языка (ИПЯ); ПП запроса пользователя представляются в виде логических условий, которые удовлетворяют правилам булевой логики и совместимы с принципами индексирования документов в БД. При составлении запроса абонент АИПС обычно выражает свою информационную потребность через термины, являющиеся ядром словаря, описывающего данную предметную область, списка которых бывает порой недостаточно для получения высоких характеристик информационного поиска в БД со свободным индексированием. Использование в ПП булевых логических операторов (И,НЕ,ИЛИ) приводит к резкому сужению или расширению результатов поиска, при этом увеличение точности поиска приводит к снижению полноты извлечения релевантных документов из БД. Одним из путей решения данной проблемы может стать автоматическая классификация результатов первичного поиска, осуществляющая ранжирование выдаваемых ИПС документов по степени их предполагаемой полезности для пользователя, с использованием обратной связи по релевантности. Раскрытие сферы интересов абонента в этом случае может быть основано на итерационном процессе, который включает следующие этапы: - экспертная оценка релевантности документов, выданных при поиске по исходной форме ПП запроса; - выделение из документов терминов и определение их частот вхождения в релевантные и нерелевантные документы и вычисления их весовых коэффициентов; - определение наиболее информативных терминов; - выбор порогового значения веса документа для классификации; - автоматическая классификация полученных по первичному запросу документов. В процессе вторичного поиска происходит сравнение слов документов с терминами из словаря, сформированного из слов и словосочетаний, выделенных из текстов релевантных и нерелевантных документов, выданных по первичному запросу. При их совпадении вес документа изменяется на значение весового коэффициента термина из словаря. После просмотра текста документа производится сравнение вычисленного веса с заданным пороговым значением. Релевантными считаются документы, у которых вес превышает заданное пороговое значение. Первоначально с применением булевых операторов был составлен запрос, обеспечивающий полноту выдачи документов в режиме избирательного распределения информации (ИРИ) системы "Current Contents" на ПЭВМ PC/AT. Из результата поиска по первоначальному запросу экспертом было выделено 493 релевантных (класс 1) и 1494 нерелевантных документов (класс 2). Из выбранных документов были сгенерированы термины, состоящие из отдельных слов и словосочетаний (пар и троек слов), входящих в заглавия работ, а также последовательностей ключевых слов. Каждому термину в зависимости от частот его встречаемости в документах, отнесенных к 1 или 2 классу, рассчитывался весовой коэффициент. После выявления терминов, наиболее значимых для классификации документов, был сформирован поисковый словарь объемом около 2200 терминов, не содержащий в своем составе терминов первоначального запроса. В процессе повторного поиска после сканирования текста каждого документа и выявления наличия в нем терминов из поискового словаря, вычислялся весовой ранг документа в виде суммы весовых коэффициентов встретившихся в нем терминов. Если ранг документа превышал заданный порог, то документ выдавался в файл, определяющий первый класс, иначе - во второй. Документы, в тексте которых отсутствовали термины из поискового словаря, относились к первому классу. Величина порогового значения ранга документов определялась по обучающей выборке, для обеспечения 95% полноты в релевантной выдаче. Применение программного комплекса позволило сократить число выдаваемых документов на 30-40 %. После автоматической классификации документов точность поиска увеличилась с 26 до 47%. Ко 2 классу было ошибочно отнесено 4% релевантных документов. В классификации документов распознающими признаками могут быть не только термины из текста документа, но и данные из библиографических полей. Поэтому дополнительно кроме предметного словаря абонента могут определяться группы авторов, ядро профильных журналов, список информационных рубрик, динамика публикаций работ по годам и т.п.