Электронные коллекции биологических данных 1

Федотов А.М.
Институт вычислительных технологий СО РАН, Новосибирск

Аннотация:

В докладе посвящен обсуждению принципов работы с биологическими данными с использованием современных сетевых технологий. Отмечается развитие взглядов А.А.Ляпунова на использование математических методов в биологии.

1. Не секрет, что информация является стратегическим ресурсом таким же, как и традиционные материальные и энергетические ресурсы. Информационные ресурсы, переведенные в электронную форму, приобретают новое качество, обеспечивая им более широкое распространение и эффективное использование. Применение компьютерных технологий в задачах обработки и интерпретации данных различных биологических экспериментов (в том числе селекционных) уже давно является общепринятой нормой. Здесь достаточно вспомнить грандиозные эксперименты, связанные с диаллельными скрещиваниями и генетическим анализом, многочисленные пакеты статистической обработки данных, широко применяемые на практике, использование методов математического моделирования для представления и интерпретации экспериментальных данных. Использование различных моделей (в том числе информационных) интерпретации является неотъемлемой частью любого биологического исследования. Как неоднократно отмечал А.А.Ляпунов: "нет модели -- нет информации".

2. Современные информационные технологии позволили приступить к широкомасштабному переводу накопленной человечеством информации в электронную форму и созданию принципиально новых видов информационных ресурсов, каким являются электронные коллекции и библиотеки. Организация доступа к электронным коллекциям стала одной из важнейших задач информационного обслуживания науки и образования. Создание электронных библиотек представляет собой качественно иной уровень производства, хранения, организации, анализа и распространения самой разнообразной информации (текст, графика, звук, видео и др.). С другой стороны эти технологии предоставляют широкие возможности для управления и актуализации больших объемов данных, для их последующего анализа, математической обработки и интерпретации.

Биологи в процессе научной деятельности собирают гигантский фактический материал, характеризующий различные аспекты разнообразия животного и растительного мира. В настоящее время этот оригинальный материал находится в виде бумажных архивов и не представляет организованную информационную среду, которая является необходимой основой для современных научных исследований.

Электронная коллекция представляет собой новую форму хранения, представления и обмена информацией, проведения научных исследований и выработки рекомендаций для задач поддержки принятия решений. Для такой формы хранения информации характерны динамичность (возможность обновления) и глобальный доступ (через компьютерные сети). Электронная коллекция объединяет в себе свойства информационно-поисковой системы, системы обработки, анализа и интерпретации данных и обычной «бумажной» публикации результатов исследований. Широко бытующее мнение о том, что простой перенос на электронные носители информации о результатах эксперимента открывает перед исследователями новые возможности в корне не верно. В этом случае электронная публикация является просто электронным изображением бумажной, а не новым инструментом исследования.

Конечно здесь возможны исключения, например в случае когда эксперимент состоит в получении изображения (описания) исследуемого объекта. Давно известно, что если в исследовании "нет модели", то грош цена такому исследованию (на самом деле у каждого эксперимента есть какая-либо модель -- весь вопрос в ее качестве). Поэтому "проектирование" электронной коллекции (ее информационная модель) должно быть заложено в "проект" любого экспериментального исследования вместе с соответствующей моделью обработки и интерпретации экспериментальных данных.

3. Электронная коллекция должна быть не просто хранилищем материалов биологический исследований, но и должна предоставлять развитый аппарат их анализа с целью выявления закономерностей распределения, структуры, динамики растительности для разработки оптимальных режимов использования растительных ресурсов.

Важной проблемой выступает организация разнородной информации в удобном для конечного пользователя виде, что требует новых исследований и разработок интерфейсов для корректного отражения предметной области. Другой задачей является стандартизация данных -- прежде всего соблюдение требований интероперабельности. Отличительной чертой электронной коллекции является возможность параллельного использования различных поисковых механизмов и средств доступа к разнородным банкам электронных данных. Разработка электронной библиотеки, в качестве одной из целей, ставит демонстрацию для исследователей природных объектов новых возможностей оперативного получения и управления информацией, которые возникают благодаря широкому применению электронной формы публикации. Среди этих новых возможностей выделяются следующие:

4. Информационные ресурсы, представленные в электронном виде (в виде хорошо организованных информационных систем) обладают большой гибкостью благодаря тому, что могут состоять из отдельных блоков, часть из которых может функционировать самостоятельно как, например, базы данных для морфологических характеристик видов, базы данных геоботанических описаний или системы статистического анализа данных. С другой стороны, исследователь имеет неограниченные возможности подключать новые блоки по мере возникновения новых задач. Важным фактом является возможность использования и накопления информации из различных источников: литературные данные разных лет, записи полевых дневников и др. исследований, характеристики экологических профилей. Однако для интенсивного использования информационных технологий необходимо пройти рутинный этап адаптации и определенной организации накопленных (как правило эмпирических) эколого-биологических данных к современным требованиям информатики. Под адаптацией данных подразумевается прежде всего их формализация и паспортизация на основе общепринятых стандартов, форматов и устоявшихся понятий. Под организацией данных понимается принятие определенной структуры, т.е. установление определенных иерархий и связей (вертикальных и горизонтальных) между информационными блоками.

Основной проблемой стоящей на пути создания электронных коллекций является слабая формализованность данных, которая возникает из-за значительной вариабельности признаков основных объектов (растений и растительных сообществ) и приводит к неоднозначности в трактовке таких базисных понятий как биогеоценоз, популяция, вид, сообщество, а также из-за отсутствия единых подходов к классификации некоторых природных объектов. "Электронная публикация" должна быть составной частью модели, на которой основывается тот или иной эксперимент, составляющий основу коллекции, и является отображением информационной модели эксперимента. При этом мы различаем два уровня описания модели: информационная модель экспериментальных данных (исходных документов) и информационная модель результационных данных (выходных документов). Фактически при построении модели мы приходим к необходимости использования некоторого формального языка для описания рабочих документов (для описания "метаинформации" -- информации об информации), который не зависит от их содержания будь это описание морфологии изучаемого объекта или набор измеренных количественных признаков.

5. В основу создания электронных коллекций в наших работах положена концепция динамических документов, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками и атрибутами (наподобие тому, как это принято в объектных языках программирования). Разработанная технология позволяет оперативно управлять и актуализировать информацию, хранящуюся в разнородных и распределенных по сети базах данных, организовать гибкий поиск, что самое главное создать достаточно удобный интерфейс для ее наполнения. При этом выделяются два основных класса объектов, характеризующих документ:

  1. Специальные объекты, например, объект-заголовок, описывающий внешний вид документа, при выдаче его пользователю или навигационный, описывающий гипертекстовые связи между отдельными документами;
  2. Информационные объекты, содержащий фактическую информацию (текст, графика, измерения и т.п.).
Первый класс объектов относится к характеристике коллекции в целом, второй класс -- специфицируется относительно структуры документа, составляющего коллекцию. Очевидно, что введение первого и третьего типов объектов, связано с WWW технологией представления информации. Содержательная часть информационных объектов, как правило хранится в базе данных однако возможно их хранение и в файловой системе. Объекты подразделяются на простые: объекты, которые не имеют связей с другими коллекциями документов или с другими документами или объектами и сложные объекты (объекты, которые такие связи имеют). Использование связей позволяет создавать коллекции с иерархической структурой, (например, виды $\rightarrow$ популяции $\rightarrow$ особи).

Система имеет трехуровневую структуру: документ $\rightarrow$ метаинформация $\rightarrow$ коллекция. Функционирование электронной коллекции основывается на информационной структуре данной коллекции документов - метаинформации, поэтому каждый информационный объект должен в своем метаописании нести "полную характеристику" как его "использовать". Характеристики внешней структуры документа, описываются в стандарте SGML (XML), что позволяет представлять выходную информацию в любом из используемых в настоящий момент форматах электронных публикаций.

Электронная коллекция в нашем понимании -- это набор документов, которые содержат фактографическую информацию имеющую одинаковое формальное описание структуры -- "паспорт". Работа с любой электронной коллекцией разделяется да две части: работа с описаниями коллекции и документов (работа с метаинформацией) и работа с содержательной частью коллекции (работа с фактографической информацией). Дадим словесную характеристику основных терминов:

Учитывая специфику описания (мы программируем данные - создавая метаописание) -- каждому объекту сопоставляется определенный набор атрибутов, таких как тип объекта (текст, число, таблица, список и т.д.), свойств (заголовок, делянка) и функций. Новое свойство электронной коллекции возникает только в случае правильно составленного метаописания проведенного экспериментального исследования. Основная работа исследователя при этом заключается в том, что имея набор базовых типов объектов, сконструировать из них описание своих данных и описать те функции, которые можно применить к этим данным (корреляционный анализ или анализ главных компонент над данными сгруппированными в таблицы "объект" $\times$ "свойства").

6. Основу технологического обслуживания пользователей информации составляют услуги, связанные с передачей информации (информационный транзит) и с предоставлением в их пользование информационных ресурсов. Пользователи обладают равными правами на доступ к информационным ресурсам и не обязаны обосновывать перед владельцем этих ресурсов необходимость получения запрашиваемой информации. Исключение составляет информация с ограниченным доступом. Работы, связанные с технологической поддержкой, включают следующие основные направления:


Список литературы.

  1. Шокин Ю.И., Федотов А.М. Распределенные информационные системы // Вычислительные технологии, Том 3, N 5, 1998,
    http://www.sbras.ru/win/gis/lib/publ/inf_sys.html
  2. Федотов А.М., Артемов И.А., Ермаков Н.Б., Красников А.А., Потемкин О.Н., Рябко Б.Я., Федотов А.А., Хорев А.Г. Электронный атлас "Биоразнообразие растительного мира Сибири" // Вычислительные технологии, Том 3, N 5, 1998.
    http://www.sbras.ru/win/elbib/bio/atlas_flora.html
  3. Коропачинский И.Ю., Шокин Ю.И., Шумный В.К., Ермаков Н.Б., Колчанов Н.А., Федотов А.М. Электронный атлас "Биоразнообразие животного и растительного мира Сибири" // Труды первой всероссийской конференции Электронные библиотеки: перспективные методы и технологии, электронные коллекции. - РФФИ. СпбГУ. РАН. - 1999. - С. 187-192.
  4. Коропачинский И.Ю., Шокин Ю.И., Ермаков Н.Б., Байков К.С., Федотов А.М. On the Development of an Electronic Library: "Biodiversity of Flora and Vegetation in Siberia" // Вычислительные технологии Том 4, N 5 (2), 2000 c. 134-147
  5. Коропачинский И.Ю., Шокин Ю.И., Шумный В.К., Байков К.С., Ермаков Н.Б., Колчанов Н.А., Федотов А.М. Электронные коллекции и проблемы биоразнообразия // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Сборник докладов Второй Всероссийской научной конференции. Протвино, 26-28 сентября - 2000. - С. 58-65.

Примечание

... данных1
Работа выполнена при поддержки РФФИ (проект 99-07-00222) и программы СО РАН (проект 66)



Ваши комментарии
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Saturday, 29-Sep-2001 20:45:01 NOVST