Автоматическая классификация докуметов Intrenet по стилям:
реализация макета

Введение

В связи с бурным развитием глобальной сети Internet задачи информационного поиска приобретают особенно большое значение.

С одной стороны, усилия разработчиков направлены на увеличение производительности машин поиска: повышение скорости обработки запросов, объемов индекируемых документов и частоты обновления индексной базы. С другой стороны, важную роль играют такие компоненты машин поиска, как пользовательский интерфейс, язык запросов, методы ранжирования и представления найденных документов.

Наше предложение состоит в использовании автоматической классификации документов Internet по стилям [Браславский 1998, 1999]. Такое решение можно рассматривать либо как расширение языка запросов ("найти документы одного стиля"), либо как дополнительный способ ранжирования найденных документов ("сгруппировать найденные документы по стилям").

За основу мы взяли функционально-стилевую концепцию, как наиболее разработанную в отечественном языкознании [Кожина 1968, 1993]. Исходным положением концепции является зависимость стиля речи от выполняемой им коммуникативно-общественной функции, от задач общения в соответствующей сфере. Обычно различают пять функциональных стилей речи: научный, художественный, деловой, публицистический, разговорный. На основе системы пяти функциональных стилей для практических задач информационного поиска можно строить более простые схемы, например, воспользоваться оппозицией "информативность – образность" или "научный стиль – все остальное".

Массив опытных документов

В соответствии с постановкой задачи [Браславский 1998], мы сформировали опытный массив документов.

Официально-деловой стиль представлен в нашем исследовании текстами 51 федерального закона последнего времени, которые были отобраны из юридической базы данных "Консультант Плюс".

Коллекция документов научного стиля представляет собой более пестрое собрание. Сюда вошли статьи по физике, математике, химии, биологии и инженерным наукам общим числом 54. Источники статей указаны в Табл. 1.

Таблица 1. Источники научных статей для исследования

Источник

Кол-во

Труды института математики и механики УрО РАН. Том 5.

22

Журнальные статьи, представленные на сервере УГТУ

11

Статьи Вестника Вавиловского общества генетиков и селекционеров (ВОГиС)

10

Статьи секции "Естественные науки" электронного журнала "Исследовано в России"

4

Доклады II Уральской региональной школы-семинара молодых ученых и студентов по физике конденсированного состояния

3

Аннотации статей двух номеров журнала Российского химического общества им. Д.И.Менделеева

2

Щетинин В.Г. Многослойная самоорганизация нейронных сетей оптимальной сложности // Автоматика и вычислительная техника. - Рига, 1998. - №4.

1

Мухин В. А. Грибы и их роль в природе и в развитии цивилизации //Известия Уральского государственного университета №12-99

1

Как мы видим, практически все электронные версии научных статей, размещенные в Internet, имеют печатные аналоги (за исключением электронного журнала "Исследовано в России").

Публицистический стиль – напротив, – представлен только Internet-журналистикой. В качестве текстов этого стиля мы взяли статьи на общественно-политические темы, опубликованные в период с декабря 1999 по февраль 2000 на трех новостных веб-сайтах: Gazeta.ru (27), Vesti.ru (28) и Polit.ru (6) - всего 61 статья. Первые два сайта представляют собой Интернет-аналоги ежедневных бумажных газет (что отражено в их названиях и подчеркнуто "газетной версткой"). Polit.ru – скорее новостная лента политической направленности, где иногда публикуются обзорные статьи.

Художественный стиль в нашем исследовании представлен рассказами участников конкурса сетевой литературы "Тенета-98". Для анализа мы использовали 80 рассказов, представленных на конкурс. Сетевая литература – одно из интересных явлений Сети. Нам представляется закономерным использовать для анализа произведения, которые увидели свет в Internet и в принципе не нуждаются в бумажном носителе, а не литературную классику.

Основной объем текстов разговорного стиля принадлежит екатеринбургскому чату "На Плотинке", всего 43 фрагмента. Кроме того, два фрагмента взято с чата "Сайберия" и четыре – с чата "В пещере у монстра". Дополнили коллекцию образцов разговорного стиля 13 листингов диалогов, которые велись с помощью программы ICQ ("аська"). Таким образом, всего было использовано 62 фрагмента.

Первичный набор параметров классификации

Следующей задачей было составление набора параметров классификации. В данном случае необходимо было найти компромисс между полнотой набора параметров и вычислительной эффективностью метода (куда входит не только сама процедура классификации, но и процедура вычисления параметров каждого документа).

Например, на уровнях лексики и синтаксиса сосредоточены многие стилистические ресурсы, а значит – и характерные признаки. Однако проводить синтаксический разбор предложений или использовать объемные словари стилистически окрашенной лексики для нашей задачи представялется неэффективным.

Из этого вытекает, что параметры берутся в основном с "нижних" уровней языковой системы и имеют большей частью формальный характер. Несмотря на то, что мы заранее не беремся учитывать многие параметры, несущие стилистическую информацию, можно надеяться на приемлемое для практических целей качество классификации.

Базовой единицей анализа является отдельное слово.

На основании изучения литературы по стилистике русского языка (кроме [Кожина 1968, 1993] см. список литературы в [Браславский 2000]) мы сформировали первоначальный набор "сигналов стиля", на основании которых вычисляются параметры классификации (см. Табл. 2). Заметим, что параметры являются исключительно лингвистическими, т.е. не связаны с конкретной формой представления текста (например, с тэгами разметки HTML).

Таблица 2. Первичный набор параметров

Уровень языка Формальные параметры Формально-семантические

Графика формулы :) - smiles

Морфемика
(словообразование) нет слова с научными приставками

Лексика средняя длина слова
общенаучная лексика
названия официальных документов
слова организации логики повествования

Морфология
соотношение различных частей речи
существительные среднего рода
краткие прилагательные
формы возвратных глаголов
аббревиатуры

личные местоимения я, ты, мы, вы
частицы ну, вот, ведь

Синтаксис
два существительных в родительном падеже подряд
средняя длина предложения в словах
предложеня с экспрессивной пунктуацией (?, !, ...)
нет

Методика вычисления параметров

Анализу подвергались текстовые документы (plain text) и документы HTML в Windows-кодировке. Документы MS Word и Adobe Acrobat предварительно конвертировались в текстовые файлы.

В каждом документе анализировались первые 1000 слов плюс слова до конца текущего предложения, или весь текст, если его длина меньше тысячи слов. Словом считалась последовательность русских букв (которая может содержать внутри себя один дефис) между двумя разделителями. Слова, содержащие цифры или латинские буквы, не анализировались.

Для автоматического определения всех морфологических характеристик использовался модуль морфологического анализа LINGUIST компании "Агама". По информации разработчиков, основной словарь модуля морфологического анализа и синтеза позволяет распознавать более четырех миллионов словоформ без использования алгоритмов сложного дефисного словообразования. Модуль выполнен в виде динамической библиотеки Windows.

В соответствии с назначением библиотеки LINGUIST, приведение к нормальной (словарной) форме производится только на основе словоформы (т.е. без учета контекста). Сделав ставку на автоматическую обработку материала большого объема, приходится отказаться от учета грамматической омонимии, поэтому, например, слова стекло, падали равно как и рабочий, учащийся всегда относятся к существительным; а печь, течь – к глаголам. Мы считаем, что этот недостаток – обработка без учета неоднозначностей, – компенсируется полной автоматизацией процесса.

Морологическим характеристикам опытного массива документов специально посвящена статья [Браславский 2000].

На сегодняшний день не существует стандартного способа описания формул в документах Internet. Чаще всего формулы вставляются в виде картинок, реже используются стандартные средства или расширения языка HTML. Кроме того, научные статьи часто представлены в Сети в формате TEX или Adobe Acrobat. Поэтому мы заменили подсчет собственно формул на подсчет знаков "=", что дало неплохие результаты для документов научного стиля (на которые и ориентирован этот параметр).

С помощью словарей мы выделили 70 префиксов латинского и греческого происхождения, характерных для научного (и шире – книжного) стиля. Так как подсчет этого параметра проходит формально (без полного анализа состава слова), в список не были включены префиксы, которые потенциально значимы, однако совпадают с началом слов другого строения (ср.: топология – топорище; метафизика – металлический, метательный).

Слова организации логики повествования (наиболее характерны для научных текстов) – это во-первых, во-вторых, итак, следовательно и т.п.

Список названий официальных документов был взят нами из той же юридической базы данных "Консультант Плюс": акт, декларация, директива, договор, закон, заявление, извещение и т.д., всего 43 названия.

Список из 37 слов общенаучной лексики был сформирован нами на основе анализа двух частотных словарей. В список попали слова, у которых отношение частоты встречаемости в научных текстах (по данным [Общенаучная лексика]) к частоте "во всех текстах" (по данным [Частотный словарь]) больше 10. Список возглавляют слова (максимальное отношение): уравнение, функция, плоскость, образовывать, формула, коэффициент.

Пробная классификация

После вычисления параметров опытного массива документов была проведена пробная классификация в модуле "Дискриминантный анализ" программы "STATISTICA". В модуле реализованы методы построения линейных дискриминантных (разделяющих) функций на основе векторов параметров объектов с указанием принадлежности объекта к определенному классу. Эти методы работают при достаточно сильных предположениях: о нормальности распределения и об однородности дисперсий и ковариаций параметров в разных классах (классы различаются только по средним значениям). Однако для разведочного анализа можно не требовать строгого выполнения этих предположений.

Перед тем, как приступить к пробной классификации, мы еще раз обратились к набору параметров.

На основании анализа морфологических характеристик документов [Браславский 2000] мы сделали первый шаг к агрегации параметров – сформировали два параметра, которые достаточно хорошо отражают морфологический строй функциональных стилей: 1) доля существительных и прилагательных ("именная группа") и 2) доля личных форм глагола и наречий (глагольная группа).

В пробной классификации не участвовали параметры с близкими средними по классам – при использовании данного метода они не влияют на качество классификации. (В общем случае близость средних еще не говорит о малой значимости параметра для целей классификации – информативность может проявляться за счет взаимозависимости параметров [Айвазян и др., с. 75].)

Кроме того, метод не допускает использования параметров с нулевой дисперсией в каком-либо из классов (в силу предположний о нормальности распределения, см. выше). Таким параметром, например, является частота появления в тексте "рожиц" (смайлов). Эти признаки неформального общения присутствуют исключительно во фрагментах разговорного стиля, что делает признак вообще говоря высокоинформативным. Ситуация с параметрами "доля предложений с экспрессивной пунктуацией", "доля предложений со знаком «=»", "доля ты, вы среди всех местоимений" аналогична.

В итоге для пробной классификации использовались 12 параметров:

доля именной группы
доля глагольной группы
доля причастий
доля деепричастий
доля союзов
доля существительных среднего рода среди всех существительных
два существительных в родительном падеже подряд на предложение
средняя длина слова
средняя длина предложения в словах
доля общенаучной лексики
доля названий официальных документов
доля слов с научными префиксами

Результаты пробной классификации представлены в Табл. 3.

Таблица 3. Результаты пробной классификации (5 классов)

Стиль Классифицировано
правильно Разговорный Художественный Публицистический Научный Официально-
деловой

Разговорный 98.4% 61 1 0 0 0

Художественный 85.2% 6 69 6 0 0

Публицистический 93.4% 0 4 57 0 0

Научный 92.9% 0 0 3 52 1

Официально-деловой 100.0% 0 0 0 0 51

Итого 93.2% 67 74 66 52 52

Кроме того, мы провели пробную классификацию для двух классов: 1) научные тексты и 2) остальные. В этом случае доля корректно классифицированных документов была еще выше – 98,4%.

Заключение

Изложенные в статье результаты говорят о том, что автоматическая классификация документов по стилям применима для повышения эффективности поиска информации в Internet. Уже пробная классификация на основании части сформированного набора параметров демонстрирует приемлемые для практических целей результаты.

Дальнейшим развитием описанной методики является настройка процедуры классификации: оптимизация набора параметров (выделение наиболее информативных признаков и/или переход к другим координатам), более тонкая настройка метрики и обоснованный выбор метода классификации.

Благодарности

Мы благодарим компанию "Агама" за предоставленный модуль морфологического анализа, а также Михаила Щекотилова – за помощь в создании программы для вычисления параметров документов.

Литература

[Браславский 1999] Браславский П.И. Пути повышения эффективности поиска научной информации в Internet // Четвертое международное совещание по электронным публикациям (El-Pub-99), Новосибирск 1999.
[Браславский 1998] Браславский П.И. Распознавание стилей речи применительно к информационному поиску: постановка задачи // Материалы международного семинара "Методы прикладной математики и информационные технологии в многодисциплинарных исследованиях и проектах", Омск, 1998. С. 134 - 140.
[Браславский 2000] Браславский П.И. Статистика частей речи функциональных стилей на материале документов Internet. В печати.
[Кожина 1968] Кожина М.Н. К основаниям функциональной стилистики. – Пермь, 1968.
[Кожина 1993] Кожина М.Н. Стилистика русского языка. – М.: Просвещение, 1993.
[Айвазян и др.] Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С. А. Айвазян С. А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д.; Под. ред. С. А.Айвазяна. – М.: Финансы и статистика, 1989.
[Общенаучная лексика] Частотный словарь общенаучной лексики. – М.: Изд-во МГУ, 1970.
[Частотный словарь] Частотный словарь русского языка. Под. ред. Л.Н.Засориной. – М.: Русс. яз., 1977.

Источник	Кол-во
Труды института математики и механики УрО РАН. Том 5.	22
Журнальные статьи, представленные на сервере УГТУ	11
Статьи Вестника Вавиловского общества генетиков и селекционеров (ВОГиС)	10
Статьи секции "Естественные науки" электронного журнала "Исследовано в России"	4
Доклады II Уральской региональной школы-семинара молодых ученых и студентов по физике конденсированного состояния	3
Аннотации статей двух номеров журнала Российского химического общества им. Д.И.Менделеева	2
Щетинин В.Г. Многослойная самоорганизация нейронных сетей оптимальной сложности // Автоматика и вычислительная техника. - Рига, 1998. - №4.	1
Мухин В. А. Грибы и их роль в природе и в развитии цивилизации //Известия Уральского государственного университета №12-99	1

Уровень языка	Формальные параметры	Формально-семантические
Графика	формулы	:) - smiles
Морфемика (словообразование)	нет	слова с научными приставками
Лексика	средняя длина слова	общенаучная лексика названия официальных документов слова организации логики повествования
Морфология	соотношение различных частей речи существительные среднего рода краткие прилагательные формы возвратных глаголов аббревиатуры	личные местоимения я, ты, мы, вы частицы ну, вот, ведь
Синтаксис	два существительных в родительном падеже подряд средняя длина предложения в словах предложеня с экспрессивной пунктуацией (?, !, ...)	нет

Стиль	Классифицировано правильно	Разговорный	Художественный	Публицистический	Научный	Официально- деловой
Разговорный	98.4%	61	1	0	0	0
Художественный	85.2%	6	69	6	0	0
Публицистический	93.4%	0	4	57	0	0
Научный	92.9%	0	0	3	52	1
Официально-деловой	100.0%	0	0	0	0	51
Итого	93.2%	67	74	66	52	52