О нахождении статистических древовидно-контекстных
моделей генетических текстов1)
Орлов Ю.Л., Потапов В.Н., Филиппов В.П. Институт математики им. С.Л.Соболева СО РАН, Новосибирск
Аннотация:
Последовательности ДНК и белки можно рассматривать как символьные
последовательности в алфавите из четырeх и двадцати букв соответственно.
Известно, что частота появления буквы в генетической последовательности зависит от
контекста, т. е. одной или нескольких предшествующих букв. Одним из наиболее
адекватных способов описания генетического текста является статистическая
модель текста.
Марковская модель текста определяется алфавитом , множеством
состояний модели
и функцией
, которая
определяет текущее состояние по предыдущему состоянию и текущей
букве текста. Набором параметров марковской модели служат вероятности
порождения букв в состояниях .
Вероятность того, что последовательность
имеет начало , определяется равенством
где
-- исходное состояние и
,
.
Модель последовательности независимых испытаний соответствует марковской
модели с единственным состоянием, а состояния марковской модели
-го порядка (вероятность буквы зависит от предыдущих) можно отождествить
с наборами из букв, т. е. .
Марковская модель называется древовидно-контекстной (см., например, [2]) если множество состояний
модели можно отождествить с набором контекстов (слов в алфавите ).
Множество состояний древовидно-контекстной модели удобно представлять в
виде множества листьев некоторого -ичного контекстного дерева ,
где - мощность алфавита. Заметим, что контекст в позиции
последовательности
однозначно
определяется началом текста
и деревом , за исключением нескольких начальных позиций.
Таким образом, контекстное дерево однозначно определяет соответствующую
ему марковскую модель.
В [1] предложен метод построения статистической модели текста,
основаный на предложенном в [3] и развитом в
[4] алгоритме сжатия данных. А именно, мы считаем, что модель
наилучшим образом соответствует тексту, если в ней стохастическая сложность
(см., например, [1]) текста минимальна. На основании известной
теоремы о больших уклонениях нами
показано, что предложенный в [1] метод позволяет определить "истинную"
модель текста.
Точнее, пусть на множестве последовательностей в алфавите задано распределение
вероятностей, порожд„нное древовидно-контекстной моделью с деревом ,
максимальная глубина которого не превосходит .
Пусть - бесконечная последовательность букв,
- начало длины и - контекстное
дерево, построенное по слову методом из [1].
Справедливо следующее утверждение.
Теорема.
при
.
Метод нахождения древовидно-контекстной модели текста реализован в
програме доступной через Интернет
(http://wwwmgs.bionet.nsc.ru/mgs/programs).
С помощью этой программы проанализированы последовательности ДНК из базы
данных "Samples" (http://wwwmgs.bionet.nsc.ru/mgs/dbase/nsamples) и аминокислотные последовательности белков,
описанные в банке данных PDB. Выявлены некоторые зависимости между структурой
контекстного дерева генетической последовательности
и е„ функциональными свойствами.
) Работа выполнена при финансовой поддержке Российского фонда
фундаментальных исследований (код проекта 99-01-00531) и Интеграционного
проекта СО РАН 65.