Осознание мировым сообществом роли информации как стратегического ресурса стимулировало
разработки новых информационных технологий как для получения и переработки больших
объемов информации, так и для ее хранения и предоставления пользователям.
В числе таких бурно развиваемых в настоящий момент технологий являются
Internet технологии.
В нашей стране особенно велика их роль в сфере науки и образования в связи с
существующим информационным голодом, вызванным в последнее время катастрофическим
падением объема подписки научно - технических библиотек, существенным сокращением числа
получаемых библиотеками иностранных и отечественных изданий, а также падением тиражей и
числа выходящих в настоящее время русскоязычных книг и журналов. Известно, что не
только развитие, но и поддержка научных исследований на должном уровне не мыслима без
обмена информацией. Единственным выходом из создавшегося положения является
использование сетевых информационных ресурсов мирового научного сообщества,
представляемых Internet, и распространение своих достижений в виде электронных
публикаций.
Известно, что не только развитие, но и поддержка научных исследований на должном уровне
не мыслима без обмена информацией.
Использование гипертекстовых форматов очень удобно для формирования электронных
публикаций, а процесс создания электронных версий текущих периодических изданий, книг,
препринтов и чисто электронных изданий протекает настолько интенсивно, что через очень
короткий промежуток времени популярность электронных публикаций в научном сообществе
может стать очень значительной.
В мире уже сейчас существуют целые электронные библиотеки, доступные через Internet, в
качестве примеров можно назвать электронные библиотеки Американского
(http://www.ams.org/) и Европейского
(http://www.emis.de/) математических обществ или
электронные библиотеки Мичиганского и
Стенфорского
университетов.
Однако, не смотря на большое количество проектов создания полнотекстовых
баз данных, доступных в среде Internet, говорить о том, что в мире существует
какая-либо общепризнанная технология создания электронных журналов,
нельзя. Каждый из реализуемых проектов использует, как правило, свою
технологию подготовки журналов, основываясь лишь на унификации средств доступа к
данным на основе Intranet технологии.
При создании русскоязычных электронных версий математических журналов помимо
проблемы, связанной с множественностью кодировок русского языка
(эти проблемы обсуждались на международном совещании по электронным
публикациям EL-Pub97
в Новосибирске в апреле 1997 года, см., например, доклад
Федотова А.М.
на этом совещании, а так же статью [1])
существует очень важная проблема, связанная с представлением математических формул
в гипертекстовых документах.
Содержание
Не смотря на большое количество публикаций
(см., например, форум на сервере W3C,
посвященный проблеме представления математических текстов), эта проблема до сих пор не имеет удовлетворительного решения.
Из наиболее часто применяемых методов представления математических формул
в гипертекстовых документов, которые не требуют установки специализированного
математического обеспечения на машину клиента (подробнее см. [2]),
используются следующие:
Все эти способы входят в проект W3C Math,
развиваемый World Wide Web Consortium (W3C).
Помимо этих способов World Wide Web Consortium не оставил надежд разработать
стандарт
(Mathematical Markup Language - MathML)
представления гипертекстовых документов с математическими формулами.
Перечисленные способы имеют свои достоинства и недостатки.
Первый - является наиболее универсальным и уверенно
будет работать под любым WWW просмотрщиком. Его недостатками являются
генерация внешних файлов, которые в случае большого количества формул
могут привести к увеличению объема гипертекстового документа,
и отсутствие возможностей организации контекстового поиска по формуле.
Хотя конвертер
LaTex2HTML
(автор Nikos Drakos, University of Leeds, Великобритания)
является наиболее продвинутым из всех существующих в настоящее время конвертеров
в HTML, его использование для математических статей в
электронной версии журнала требует значительной модификации
из-за выбранной автором формы результирующего представления.
Второй способ является наиболее быстрым, однако качество вывода оставляет
желать лучшего. Кроме того, во-первых, используемые шрифты не являются стандартом
и поэтому на некоторых платформах могут требовать дополнительных настроек,
а, во-вторых, результирующее представление формул не оставляет
возможностей организации контекстового поиска по формуле.
Третий способ является наиболее гибким и позволяет достигать высокого
качества изображения независимо от используемой платформы. Однако, из
всех вышеприведенных он является наиболее медленным, хотя и работает
даже на 386 компьютере с 8 МВ RAM.
Для представления формул здесь используется, либо язык близкий по
нотации к TeX'у, либо полностью TeX представление (WebEQ версии 2.0).
Это преимущество данного метода обусловило наш выбор представления
математических статей в гипертекстовом формате. Причем для перевода
остального текста используется доработка широко распространенного конвертера
tex2rtf.
Четвертый способ представления полнотекстовых данных в виде DVI файла
является наиболее предпочтительным для математических текстов.
Однако, если получение и просмотр DVI файла для англоязычных текстов
не вызывает проблем, то для русскоязычных текстов их просмотр
зависит от соответствия кодировки русского языка в TFM файлов,
используемых при создании DVI файла и в PK файлах, содержащих
образы русских букв. Понятно, что это соответствие определяется соответствием методов
русификации TeX'а.
Стандартизации TeX'а в смысле выбираемого метода русификации
говорилось немало (см. например, работы
[3,4]), однако вряд ли
здесь можно придти к какому-либо общероссийскому соглашению.
Поэтому для просмотра DVI файлов был выбран метод использования Java аплетов
загрузки необходимых PK шрифтов с сервера на машину клиента и использования
Java DVI просмотрщика, интегрированного с WWW просмотрщиком.
К сожалению этот способ удобен только в сети с хорошими каналами передачи
данных, например, в
Сети Интернет Новосибирского Научного Центра и при использовании клиентами просмотрщиков 4-х версий.
Содержание
Разрабатываемая система поддержки и издания электронной версии
математического журнала состоит из двух частей: читательской и
издательской.
Читательская часть предназначена для просмотра электронной версии журнала,
а также поиска в базе данных информации об авторах и статьях.
Для читательской части системы существуют как русская,
так и английская версии, которые полностью совпадают
(см. уже действующий вариант журнала
Вычислительные технологии).
Издательская же часть системы функционирует только на русском языке.
Электронная версия журнала состоит из трех основных БД:
Об авторах и рецензентах в БД может содержатся следующая информация:
фамилия, имя, отчество,
год рождения, ученая степень, ученое звание, должность
место работы, адреса (служебный и домашний), телефоны (служебный и домашний),
факс, E-mail, URL личной страницы,
научные интересы и сведения об авторе (на русском и английском языках).
Некоторые поля являются обязательным требованием журнала и некоторые поля
заполняются только по желанию автора.
БД статей содержит следующую информацию:
авторы, название, идентификатор журнала и страницы,
ключевые слова, аннотация, HTML файл статьи, ТеХ файл статьи, PS файл статьи,
а также форматы файлов аннотации и статьи. Вся информация кроме
полного текста статьи заносится как на русском так и на английском языках.
Текст статью представлен на языке оригинала в кодировке CP-1251,
но по желанию читателя может быть предоставлен в выбранной им кодировке
(CP-866, KOI8-R, ISO-8859-5).
Замечание: Выбор кодировки CP-1251 для хранения статьи в базе связан с тем,
что в этом случае наиболее просто организуется контекстный поиск информации на русском
языке. Такими свойствами обладает кодировка ISO-8859-5. Наиболее сложно это
сделать для кодировки MS DOS (CP-866) (см. замечания о множественности кодировок
русского языка).
Содержание
В случае пересылки статьи по электронной почте
статья должна иметь определенный формат, который позволяет производить
автоматическую обработку и занесение данных в БД.
Содержание
Интерфейс пользователя (читателя) существует в двух версиях:
русской и английской. Обе эти версии идентичны и позволяют осуществлять
следующие функции: просмотр информационных страниц о журнале (состав редколлегии,
подписка, помощь и др.), просмотр содержания всех номеров журнала имеющихся в
электронном виде, просмотр информации о конкретной статье и ее авторах,
просмотр или копирование статей,
поиск статей и авторов в базе данных журнала.
Поиск статей осуществляется
по авторам статьи, по словам из названия статьи,
по ключевым словам, по годам выхода,
а также контекстный поиск информации по содержанию статьи или аннотации.
По окончании поиска пользователю выдается список всех найденных статей.
Поиск авторов осуществляется
по фамилии, имени и отчеству, по стране и городу проживания,
по научным интересам и сведениям об авторе.
Для всех полей поиска можно задавать неполные начальные
значения слов.
По окончании поиска пользователю выдается список всех
найденных авторов в виде ссылок, при нажатии на которую выводится информация
об авторе.
В нижней части страницы расположены две гипертекстовые ссылки:
"список статей" и "поиск статей". При переходе по
ссылке "список статей" производится поиск статей в БД среди авторов
которых присутствует данный и в результате выдается список статей
найденных авторов.
Содержание
Содержание
При отправки статьи через WWW автор в ответе сервера получает
уникальные "loginname" и "password" для входа в информационную систему,
при отправки статьи по электронной почте после регистрации статьи на
сервере и проверки правильности представленных данных автор
автоматически получает письмо с этими данными.
В случае получения статьи по обычной почте после регистрации статьи администратором
система высылает по электронной почте или
готовить бумажное письмо (в зависимости от способа переписки, указанного автором)
с "loginname" и "password" для входа в информационную систему.
При отправки статьи в журнал через WWW интерфейс автору предоставляется
форма для занесении информации в БД. При этом если данный автор уже был
ранее зарегистрирован в системе, то ему будет выдана имеющаяся в БД
информация с предложением изменить или дополнить необходимые пункты.
Для отслеживания прохождения статьи автору разрешается
просматривать "дату поступления" и "состояние" своих неопубликованных
статей на текущий момент времени.
Содержание
Информационная база данных журнала организована на MS Windows NT 4.0 под MS SQL Server 2.5. Полнотекстовая база статей организована под OS UNIX FreeBSD в виде индексно -последовательных файлов.
В существующей версии журнала
"Вычислительные технологии"
информация о статье хранится в виде ее описания в БД и виде полных текстов статей
в следующих форматах: zip-упакованный TeX-файл, DVI-файл, PS-файл и HTML-файл.
В редакторскую подготовку входит только создание TeX-файла статьи, а генерация DVI и PS файлов происходит автоматически самой системой.
Для представления математических текстов в гипертекстовом виде используется пакет
WebEq, который
использует для вывода математических формул Java аплеты.
Запись формул в тексте сохраняет TeX'скую нотацию, что позволило организовать контекстный
поиск по полнотекстовой базе не только по текстовой части, но и по формулам.
Содержание
Введение
Математические формулы
Структура электронной версии журнала
Издательская часть предназначена для поддержки документооборота редакции,
актуализации баз данных, подготовки и печати статей,
формирования журнала и имеет два WWW интерфейса.
Интерфейс редактора предназначен для получения и подготовки статьи к печати,
а также для компоновки электронной версии журнала.
а также из вспомогательных БД: городов, стран, степеней,
званий и должностей и т.д., используемые для упрощения ввода
повторяющейся информации, а также содержащие некоторые дополнительные
данные.
Прохождение статьи (документооборот)
Схема прохождения статьи
- по обычной почте (см. "Правила для авторов" в журнала
Вычислительные технологии);
Статья должна содержать исходный TeX-файл статьи, а также файлы аннотации и
сведения об авторе на русском и английском языках.
- по электронной почте;
- через WWW интерфейс.
По окончании занесения информации в БД статье присваивается статус
"Поступила".
Пользовательский (читательский) интерфейс
Интерфейс администратора/редактора
Интерфейс автора
Схема передачи данных на серверТехнические вопросы
Схема генерации полных текстов.
Схема создания HTML-файла статьи и аннотации.
*
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований: гранты NN
97-07-90372,
98-01-00772.