А.Л. Осипов
НГУ, г. Новосибирск
Современное состояние научных и прикладных исследований в химии и целом ряде смежных с ней областей характеризуется использованием математических методов и новых информационных технологий для автоматизации эксперимента и обработки получаемых физико-химических, биологических и других данных, которые включают в себя: - систему поддержки профессиональных структурно-химических и биологических баз данных (БД) и знаний; - интеллектуальную систему, позволяющую предсказывать и оценивать степень воздействия структурных и иных характеристик органических молекул на их биологические и физико-химические свойства. Для целенаправленного синтеза препаратов с заданными свойствами важно установить взаимосвязи строения химических веществ с их действием. Выявление этой связи основано на знании молекулярных механизмов взаимодействия биологических систем с химическими веществами. Теоретические построения, описывающие детальный механизм воздействия биологически активных соединений на живые организмы, пока не привели к заметным результатам и, по-видимому, должны развиваться эмпирические методы исследований, так как в процессе эмпирического поиска накапливается информация, где в скрытом виде отражена связь элементов строения веществ с их свойствами. Использование при таком поиске математических методов, компьютерных технологий и фактографических банков данных и знаний позволяет обнаруживать скрытые закономерности, формализовать некоторые решения, более направленно вести поиск и синтез препаратов с заданными свойствами. Иформационно-исследовательская система прогнозирования состоит из: - оригинальной СУБД для IBM PC, которая поддерживает обработку таких сложноструктурированных объектов как молекулярные химические графы. СУБД имеет встроенный гипертекстовый HELP, дружественный интерфейс с пользователем, редактор входных и выходных форм. Ввод, вывод и манипулирование структурными формулами (СФ) молекул осуществляется графическим экранным редактором, основные режимы которого: рисование, удаление, редактирование, сборка из фрагментов, создание ароматических комплексов, манипулирование СФ и другие. Поиск информации в БД осуществляется по любому полю или совокупности полей, включая подструктурный поиск, который происходит путем рисования структурного фрагмента и/или фрагментов графическим редактором и внесения их в поисковые предписания на специально разработанном языке запросов. Идентификация химических веществ происходит по каноническому коду, программно порождаемому системой. - инструментальной системы для прогнозирования биологических свойств химических препаратов и конструирования новых биологически активных соединений с заданными свойствами по их СФ с учетом или без учета физико-химических параметров молекул. Система позволяет создавать (с помощью системы запросов) обучающие и экзаменационные выборки из БД, задавать или выбирать из меню различные описания химической структуры или иных признаков, выбирать различные модели статистической обработки данных (байесовские алгоритмы теории статистических решений, марковские зависимости и другие) для принятия решений о принадлежности химического соединения к тому или иному типу биологической активности, оценивать их адекватность, предсказывать биологические, фармакологические, токсические, мутагенные и канцерогенные свойства органических веществ по их СФ с учетом или без учета физико-химических параметров. Точность прогнозирования (процент правильных решений) в разработанной системе при предсказании различных биологических свойств составила 85 - 90%; - инструментальной системы прогнозирования физико-химических и токсикологических свойств, основанная на оригинальных математических моделях (структурно-аддитивных и неаддитивных), которые затем применяются при нахождении количественных корреляций структура - свойство, что позволяет предсказывать такие важные параметры химических веществ, как молекулярная рефракция и липофильность органических молекул, которые используются в дальнейшем при прогнозировании биологической активности химических веществ. Система позволяет предсказывать токсикологические параметры химических соединений с использованием моделей теории распознавания образов и кусочно-линейных регрессионных моделей, где интервалами линейности регрессии являются классы опасности химических веществ; - инструментальной системы автоматического порождения модельных знаний и их пополнения в базу знаний. Модельные знания заключают в себе способность проявлять свойства моделируемого ими объекта в рамках представленного пользователем описания за счет помещения их в предполагаемую математическую среду; - инструментальной системы генерации неизоморфных химических графов на основе соответствующего множества помеченных вершин с возможностью задания дополнительных ограничений путем указания сведений о связывании вершин отдельных типов между собой, а также в виде списков обязательных и запрещенных фрагментов, которым соответственно разрешается и запрещается присутствовать в структурах финального списка. Из всего множества сгенерированных гипотетических структур происходит отбор биологически активных соединений и даются машинные рекомендации какими биологическими и/или физико-химическими свойствами они обладают; - блока анализа и объяснения, который позволяет пользователю проследить всю цепочку принимаемых системой решений. С помощью системы и фактографических баз данных и знаний (по молекулярной рефракции, по пожаровзрывоопасности, липофильности, токсичности, мировому ассортименту пестицидов и лекарственным препаратам) проведены эксперименты по предсказанию физико-химических и биологических свойств веществ, которые продемонстрировали высокую эффективность компьютерной системы. В частности, на основе фактографической базы данных по пожаровзрывоопасным показателям (нижний и верхний концентрационные пределы воспламенения органических молекул) были проведены различные вычислительные эксперименты по их моделированию. Предложенные математические модели характеризуются среднеквадратичными относительными ошибками от 4.3 до 5.1 процентов. Максимальные ошибки моделей, характеризующие надежность расчетов, колеблются от 10 до 12 процентов. Двухуровневая система прогнозирования токсикологических параметров химических соединений с использованием теории распознавания образов и кусочно-линейных регрессионных моделей, где интервалами линейности являются классы опасности химических веществ, показала более высокую точность предсказания по сравнению с зарубежным пакетом TopKat. Система позволяет также осуществлять поиск новых высокоактивных и безопасных для человека и окружающей среды химических средств защиты растений от вредителей, а также малотоксичных лекарственных препаратов с заданными свойствами, что является важной проблемой мировой науки. Таким образом, компьютерная система предусматривает объединение алгоритмов теории статистических решений, распознавания образов, теории экспертных систем и расчетных методов моделирования связи химическая структура - молекулярные свойства - биологическая активность на основе стратегии формирования баз данных и знаний из имеющихся примеров. Компьютерные системы подобного типа открывают широкие возможности в организации обучения студентов-химиков. Моделирование изучаемых явлений и закономерностей существенно облегчает усвоение материала и содействует развитию творческого подхода к изучаемому предмету.