V рабочее совещание по электронным публикациям - EL-PUB-2000

Новосибирск, Академгородок, ИВТ СО РАН, 21 - 23 июня 2000 г.

Тезисы докладов


Виртуальные доклады

Автоматическая классификация докуметов Intrenet по стилям: реализация макета

Браславский П.И.

Уральский государственный технический университет (Екатеринбург)

В связи с бурным развитием глобальной сети Internet задачи информационного поиска приобретают особенно большое значение.

Наше предложение состоит в использовании автоматической классификации документов Internet по стилям. Такое решение можно рассматривать либо как расширение языка запросов ("найти документы одного стиля"), либо как дополнительный способ ранжирования найденных документов ("сгруппировать найденные документы по стилям").

За основу мы взяли функционально-стилевую концепцию, как наиболее разработанную в отечественном языкознании. Обычно различают пять функциональных стилей речи: научный, художественный, деловой, публицистический, разговорный.

В первую очередь для макетной реализации метода мы сформировали опытный массив документов Internet, принадлежащих разным стилям.

На основании изучения литературы по стилистике русского языка мы сформировали первоначальный набор "сигналов стиля", на основании которых вычисляются параметры классификации.

Следующим шагом была разработка методики вычисления этих параметров для конкретного текста.

На основании полученных данных была проведена пробная классификация опытного массива документов с помощью модуля "Дискриминантный анализ" программы "STATISTICA". Пробная классификация дала хорошие результаты, что говорит о возможности применения методики в задачах информационного поиска.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
А.М.Федотов
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2000, Сибирское отделение Российской академии наук, Новосибирск