IV рабочее совещание по электронным публикациям - EL-PUB-99

Новосибирск, Академгородок, ИВТ СО РАН, 21 - 23 апреля 1999 года.

Тезисы докладов

Пути повышения эффективности поиска научной информации в Internet

Браславский П.И.

Уральский государственный технический университет (Екатеринбург)

Некоторое время c момента своего появления сеть Internet объединяла весьма ограниченное и замкнутое сообщество пользователей. Подавляющее большинство этого сообщества составляли сотрудники университетов и крупных вычислительных центров. В силу ограниченности числа пользователей, обозримости и однородности информационных ресурсов, поиск научной информации в Internet того врмени не был большой проблемой.

В 1990 году был разработан язык разметки гипертекстов (HTML) и протокол передачи гипертекстов (HTTP), которые стали основой новой службы Internet - WWW (WorldWide Web). Новый способ представления информации обеспечивал не только удобный доступ, но и простой способ комбинирования информационных блоков друг с другом, а использование графики сделало внешний вид документов более привлекательным. В 1993 году появились первые графические программы просмотра (browsers) для платформ Windows и Macintosh. С этого момента сеть Internet привлекла внимание миллионов потенциальных пользователей. В последующие годы можно было наблюдать стремительный рост Мировой паутины (WWW), которая к настоящему моменту стала по существу синонимом Internet.

В ситуации, когда наполнение сети очень разнородно, громадно по объему, быстро и нерегулярно обновляется, плохо поддается структуризации и управлению, особенно остро встают задачи поиска информации, в частности - научной. В Сети "точки появления" научных работ не ограничиваются научными издательствами т организациями (как в традиционном бумажном варинте). Практически любой ученый (или считающий себя таковым) может сам стать "издателем" своих научных трудов в Internet.

В настоящее время в Сети существует три основных средства поиска: списки ссылок, рубрикаторы и машины поиска по ключевым словам.

Тематические списки ссылок выглядят сегодня несколько старомодно и отвечает скорее начальному этапу развития сети Internet (хотя и сегодня могут удовлетворить ученых, занимающихся очень узкой научной проблемой).

Рубрикация - развитие идеи тематического списка. Однако сам процесс тематической классификации является достаточно ресурсоемким. Заметим, что во многих универсальных классификаторах раздел "Наука" вообще отсуствует, а если он и есть, то наполнение его не очень богатое.

Машины поиска по ключевым словам становятся все более популярным (они часто совмещены с рубрикаторами). Однако для поиска научной информации они часто оказываются недостаточно эффективными. Причина - большой уровень шума (нерелевантных документов). Особенно это ощущается в новых областях исследований, где не сложилась устойчивая терминология; а также при поиске научной информации по общим темам (особенно это касается гуманитарных наук).

Наше предложение состоит в том, чтобы в массиве документов, найденных по ключевым словам, автоматически выделять научные тексты. При этом "научность" понимается исключительно как стилевая черта документа, касается только плана выражения текста. Т.е. научность - не оценка содержания текста, его истинности, или сложности восприятия.

Для процедуры такого разделения можно использовать формальные параметры документов: как касающиеся оформления, так и лингвистические. К первой группе параметров можно отнести наличие формул, таблиц, графики. Вторая группа - языковые параметры, - более обширна. Примерами могут быть: средняя длина слова, доля именных частей речи, доля глагольных форм, количество личных местоимений и т.д. Можно добавить еще один - формально-семантический параметр, - наличие в тексте специфических слов, относящихся к т.н. "общенаучной лексике". Можно предложить по меньшей мере два механизма реализации такой процедуры: метод нечеткой логики на основе экспертных оценок или статистический кластер-анализ.

Следующим инструментом повышения эффективности поиска научной информации в Сети может быть информационно-поисковый тезаурус. Тезаурус - семантическая сеть терминов, - может использоваться для расширения, уточнения и перевода запроса по ключевым словам. Кроме того, на основе тезауруса можно реализовать автоматическую классификацию отобранных документов по темам и направлениям.

Мы полагаем, что предложенные методы могут существенно улучшить качество поиска научной информации в Internet.

Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
А.М.Федотов

[Головная страница]
[Конференции]
[СО РАН]