Виртуальные доклады
В связи с бурным развитием глобальной сети Internet задачи информационного поиска приобретают особенно большое значение.
Наше предложение состоит в использовании автоматической классификации документов Internet по стилям. Такое решение можно рассматривать либо как расширение языка запросов ("найти документы одного стиля"), либо как дополнительный способ ранжирования найденных документов ("сгруппировать найденные документы по стилям").
За основу мы взяли функционально-стилевую концепцию, как наиболее разработанную в отечественном языкознании. Обычно различают пять функциональных стилей речи: научный, художественный, деловой, публицистический, разговорный.
В первую очередь для макетной реализации метода мы сформировали опытный массив документов Internet, принадлежащих разным стилям.
На основании изучения литературы по стилистике русского языка мы сформировали первоначальный набор "сигналов стиля", на основании которых вычисляются параметры классификации.
Следующим шагом была разработка методики вычисления этих параметров для конкретного текста.
На основании полученных данных была проведена пробная классификация опытного массива документов с помощью модуля "Дискриминантный анализ" программы "STATISTICA". Пробная классификация дала хорошие результаты, что говорит о возможности применения методики в задачах информационного поиска.
Дополнительные материалы: | HTML |
Ваши комментарии А.М.Федотов |
[Головная страница] [Конференции] [СО РАН] |
© 2000, Сибирское отделение Российской академии наук, Новосибирск