Электронные журналы по математике *

(на примере электронной версии журнала
"Вычислительные Технологии")

П.А.Богомяков, А.М.Федотов, Ю.И.Шокин
Институт вычислительных технологий СО РАН
Новосибирск

Содержание

Введение

Осознание мировым сообществом роли информации как стратегического ресурса стимулировало разработки новых информационных технологий как для получения и переработки больших объемов информации, так и для ее хранения и предоставления пользователям. В числе таких бурно развиваемых в настоящий момент технологий являются Internet технологии.

В нашей стране особенно велика их роль в сфере науки и образования в связи с существующим информационным голодом, вызванным в последнее время катастрофическим падением объема подписки научно - технических библиотек, существенным сокращением числа получаемых библиотеками иностранных и отечественных изданий, а также падением тиражей и числа выходящих в настоящее время русскоязычных книг и журналов. Известно, что не только развитие, но и поддержка научных исследований на должном уровне не мыслима без обмена информацией. Единственным выходом из создавшегося положения является использование сетевых информационных ресурсов мирового научного сообщества, представляемых Internet, и распространение своих достижений в виде электронных публикаций. Известно, что не только развитие, но и поддержка научных исследований на должном уровне не мыслима без обмена информацией.

Использование гипертекстовых форматов очень удобно для формирования электронных публикаций, а процесс создания электронных версий текущих периодических изданий, книг, препринтов и чисто электронных изданий протекает настолько интенсивно, что через очень короткий промежуток времени популярность электронных публикаций в научном сообществе может стать очень значительной.

В мире уже сейчас существуют целые электронные библиотеки, доступные через Internet, в качестве примеров можно назвать электронные библиотеки Американского (http://www.ams.org/) и Европейского (http://www.emis.de/) математических обществ или электронные библиотеки Мичиганского и Стенфорского университетов.

Однако, не смотря на большое количество проектов создания полнотекстовых баз данных, доступных в среде Internet, говорить о том, что в мире существует какая-либо общепризнанная технология создания электронных журналов, нельзя. Каждый из реализуемых проектов использует, как правило, свою технологию подготовки журналов, основываясь лишь на унификации средств доступа к данным на основе Intranet технологии.

При создании русскоязычных электронных версий математических журналов помимо проблемы, связанной с множественностью кодировок русского языка (эти проблемы обсуждались на международном совещании по электронным публикациям EL-Pub97 в Новосибирске в апреле 1997 года, см., например, доклад Федотова А.М. на этом совещании, а так же статью [1]) существует очень важная проблема, связанная с представлением математических формул в гипертекстовых документах.

Содержание

Математические формулы

Не смотря на большое количество публикаций (см., например, форум на сервере W3C, посвященный проблеме представления математических текстов), эта проблема до сих пор не имеет удовлетворительного решения. Из наиболее часто применяемых методов представления математических формул в гипертекстовых документов, которые не требуют установки специализированного математического обеспечения на машину клиента (подробнее см. [2]), используются следующие:

  1. Вставка математических формул в виде графических файлов (конвертер LaTex2HTML);

  2. Вставка математических символов из специального шрифта (например, SYMBOL), имеющегося на машине клиента (конвертеры TTH и TTMath);

  3. Загрузка математических шрифтов на машину клиента и использование Java аплетов для их отображения (например, WebEq);

  4. Использование Java аплетов для для просмотра DVI файлов. (например, IDVI).

Все эти способы входят в проект W3C Math, развиваемый World Wide Web Consortium (W3C). Помимо этих способов World Wide Web Consortium не оставил надежд разработать стандарт (Mathematical Markup Language - MathML) представления гипертекстовых документов с математическими формулами.

Перечисленные способы имеют свои достоинства и недостатки.

Первый - является наиболее универсальным и уверенно будет работать под любым WWW просмотрщиком. Его недостатками являются генерация внешних файлов, которые в случае большого количества формул могут привести к увеличению объема гипертекстового документа, и отсутствие возможностей организации контекстового поиска по формуле. Хотя конвертер LaTex2HTML (автор Nikos Drakos, University of Leeds, Великобритания) является наиболее продвинутым из всех существующих в настоящее время конвертеров в HTML, его использование для математических статей в электронной версии журнала требует значительной модификации из-за выбранной автором формы результирующего представления.

Второй способ является наиболее быстрым, однако качество вывода оставляет желать лучшего. Кроме того, во-первых, используемые шрифты не являются стандартом и поэтому на некоторых платформах могут требовать дополнительных настроек, а, во-вторых, результирующее представление формул не оставляет возможностей организации контекстового поиска по формуле.

Третий способ является наиболее гибким и позволяет достигать высокого качества изображения независимо от используемой платформы. Однако, из всех вышеприведенных он является наиболее медленным, хотя и работает даже на 386 компьютере с 8 МВ RAM. Для представления формул здесь используется, либо язык близкий по нотации к TeX'у, либо полностью TeX представление (WebEQ версии 2.0). Это преимущество данного метода обусловило наш выбор представления математических статей в гипертекстовом формате. Причем для перевода остального текста используется доработка широко распространенного конвертера tex2rtf.

Четвертый способ представления полнотекстовых данных в виде DVI файла является наиболее предпочтительным для математических текстов. Однако, если получение и просмотр DVI файла для англоязычных текстов не вызывает проблем, то для русскоязычных текстов их просмотр зависит от соответствия кодировки русского языка в TFM файлов, используемых при создании DVI файла и в PK файлах, содержащих образы русских букв. Понятно, что это соответствие определяется соответствием методов русификации TeX'а. Стандартизации TeX'а в смысле выбираемого метода русификации говорилось немало (см. например, работы [3,4]), однако вряд ли здесь можно придти к какому-либо общероссийскому соглашению. Поэтому для просмотра DVI файлов был выбран метод использования Java аплетов загрузки необходимых PK шрифтов с сервера на машину клиента и использования Java DVI просмотрщика, интегрированного с WWW просмотрщиком. К сожалению этот способ удобен только в сети с хорошими каналами передачи данных, например, в Сети Интернет Новосибирского Научного Центра и при использовании клиентами просмотрщиков 4-х версий.

Содержание

Структура электронной версии журнала

Разрабатываемая система поддержки и издания электронной версии математического журнала состоит из двух частей: читательской и издательской.

Читательская часть предназначена для просмотра электронной версии журнала, а также поиска в базе данных информации об авторах и статьях.
Издательская часть предназначена для поддержки документооборота редакции, актуализации баз данных, подготовки и печати статей, формирования журнала и имеет два WWW интерфейса.

  • интерфейс автора и
  • интерфейс редактора.
  • Интерфейс автора позволяет авторам посылать свои статьи в редакцию, используя WWW просмотрщик или электронную почту, а также просматривать информацию о прохождении своих статей.
    Интерфейс редактора предназначен для получения и подготовки статьи к печати, а также для компоновки электронной версии журнала.

    Для читательской части системы существуют как русская, так и английская версии, которые полностью совпадают (см. уже действующий вариант журнала Вычислительные технологии). Издательская же часть системы функционирует только на русском языке.

    Электронная версия журнала состоит из трех основных БД:

    а также из вспомогательных БД: городов, стран, степеней, званий и должностей и т.д., используемые для упрощения ввода повторяющейся информации, а также содержащие некоторые дополнительные данные.

    Об авторах и рецензентах в БД может содержатся следующая информация: фамилия, имя, отчество, год рождения, ученая степень, ученое звание, должность место работы, адреса (служебный и домашний), телефоны (служебный и домашний), факс, E-mail, URL личной страницы, научные интересы и сведения об авторе (на русском и английском языках). Некоторые поля являются обязательным требованием журнала и некоторые поля заполняются только по желанию автора.

    БД статей содержит следующую информацию: авторы, название, идентификатор журнала и страницы, ключевые слова, аннотация, HTML файл статьи, ТеХ файл статьи, PS файл статьи, а также форматы файлов аннотации и статьи. Вся информация кроме полного текста статьи заносится как на русском так и на английском языках. Текст статью представлен на языке оригинала в кодировке CP-1251, но по желанию читателя может быть предоставлен в выбранной им кодировке (CP-866, KOI8-R, ISO-8859-5).

    Замечание: Выбор кодировки CP-1251 для хранения статьи в базе связан с тем, что в этом случае наиболее просто организуется контекстный поиск информации на русском языке. Такими свойствами обладает кодировка ISO-8859-5. Наиболее сложно это сделать для кодировки MS DOS (CP-866) (см. замечания о множественности кодировок русского языка).

    Содержание

    Прохождение статьи (документооборот)

    Полный цикл прохождения статьи через редакцию от ее поступления до опубликования представлен на следующей схеме:

    Схема прохождения статьи

    1. Статья поступает от автора одним из трех способов: Статья должна содержать исходный TeX-файл статьи, а также файлы аннотации и сведения об авторе на русском и английском языках.

      В случае пересылки статьи по электронной почте статья должна иметь определенный формат, который позволяет производить автоматическую обработку и занесение данных в БД.

    2. Поступившая информация обрабатывается следующим образом:
      1. в случае поступления статьи по обычной почте вся информация в БД заносится вручную администратором, а исходные файлы статьи и аннотаций по команде администратора загружаются программным способом во временный архив системы.

      2. в случае отправки статьи по электронной почте система берет на себя всю обработку информации в результате чего автоматически заполняется временная БД а также появляются исходные файлы статьи и аннотаций в архиве, после чего администратор проверяет правильность заполнения и формы представленных материалов и дает команду на перенос информации в БД.

      3. при заполнении автором WWW формы вся посланная им информация сразу же заносится в БД и автоматически проверяется на правильность. Здесь за правильность данных отвечает сам автор.
      По окончании занесения информации в БД статье присваивается статус "Поступила".

    3. Далее редколлегия определяет (первого) рецензента, который заносится в БД рецензентов и по команде администратора статья автоматически отправляется этому рецензенту вместе с программно сформированным сопроводительным письмом одновременно помечаясь в БД состоянием "На рецензии". Одновременно в БД заносится дата отправки статьи (первому) рецензенту.

    4. (Первый) рецензент присылает ответ. В БД заносится дата получения статьи от (первого) рецензента и результат (первой) рецензии. Одновременно автору печатается письмо о результате рецензии. Статья получает статус "Ждет решения редколлегии".

    5. Если результат рецензии положительный, то то по решению редколлегии статья готовится к печати и получает статус "Принята к печати".

    6. Если результат рецензии отрицательный, то по решению редколлегии статья может быть отправлена на дополнительную рецензию или отклонена - в этом случае статье придается статус "Отказано в публикации" и в дальнейшем она из БД переносится в архив редакции.

    7. Если результат рецензии "Требует ответа автора" то статья отправляется автору на переработку с замечаниями рецензента, а статья получает статус "На переработке".

    8. После получения переработанной статьи от автора повторяется процесс рецензирования статьи первым рецензентом.

    9. Возможна также отправка статьи на рецензию второму рецензенту. В этом случае процесс аналогичен ситуации с первым рецензентом.

    10. После опубликования статьи статья получает статус "Опубликована" и переносится в БД опубликованных статей.

    Содержание

    Пользовательский (читательский) интерфейс

    Интерфейс пользователя (читателя) существует в двух версиях: русской и английской. Обе эти версии идентичны и позволяют осуществлять следующие функции: просмотр информационных страниц о журнале (состав редколлегии, подписка, помощь и др.), просмотр содержания всех номеров журнала имеющихся в электронном виде, просмотр информации о конкретной статье и ее авторах, просмотр или копирование статей, поиск статей и авторов в базе данных журнала.

    Поиск статей осуществляется по авторам статьи, по словам из названия статьи, по ключевым словам, по годам выхода, а также контекстный поиск информации по содержанию статьи или аннотации. По окончании поиска пользователю выдается список всех найденных статей.

    Поиск авторов осуществляется по фамилии, имени и отчеству, по стране и городу проживания, по научным интересам и сведениям об авторе. Для всех полей поиска можно задавать неполные начальные значения слов.

    По окончании поиска пользователю выдается список всех найденных авторов в виде ссылок, при нажатии на которую выводится информация об авторе. В нижней части страницы расположены две гипертекстовые ссылки: "список статей" и "поиск статей". При переходе по ссылке "список статей" производится поиск статей в БД среди авторов которых присутствует данный и в результате выдается список статей найденных авторов.

    Содержание

    Интерфейс администратора/редактора

    Интерфейс администратора БД/редактора является авторизованным и предоставляется пользователю только в случае правильного учетный информации и проверки прав компьютера и пользователя. Он предоставляет следующие возможности:

    Содержание

    Интерфейс автора

    Интерфейс автора является авторизованным и требует от автора учетной информации, независимо от того был этот автор зарегистрирован в системе или нет.

    При отправки статьи через WWW автор в ответе сервера получает уникальные "loginname" и "password" для входа в информационную систему, при отправки статьи по электронной почте после регистрации статьи на сервере и проверки правильности представленных данных автор автоматически получает письмо с этими данными. В случае получения статьи по обычной почте после регистрации статьи администратором система высылает по электронной почте или готовить бумажное письмо (в зависимости от способа переписки, указанного автором) с "loginname" и "password" для входа в информационную систему.

    При отправки статьи в журнал через WWW интерфейс автору предоставляется форма для занесении информации в БД. При этом если данный автор уже был ранее зарегистрирован в системе, то ему будет выдана имеющаяся в БД информация с предложением изменить или дополнить необходимые пункты.


    Схема передачи данных на сервер

    Для отслеживания прохождения статьи автору разрешается просматривать "дату поступления" и "состояние" своих неопубликованных статей на текущий момент времени.

    Содержание

    Технические вопросы

    Информационная база данных журнала организована на MS Windows NT 4.0 под MS SQL Server 2.5. Полнотекстовая база статей организована под OS UNIX FreeBSD в виде индексно -последовательных файлов.

    В существующей версии журнала "Вычислительные технологии" информация о статье хранится в виде ее описания в БД и виде полных текстов статей в следующих форматах: zip-упакованный TeX-файл, DVI-файл, PS-файл и HTML-файл. В редакторскую подготовку входит только создание TeX-файла статьи, а генерация DVI и PS файлов происходит автоматически самой системой.


    Схема генерации полных текстов.

    Для представления математических текстов в гипертекстовом виде используется пакет WebEq, который использует для вывода математических формул Java аплеты.


    Схема создания HTML-файла статьи и аннотации.

    Запись формул в тексте сохраняет TeX'скую нотацию, что позволило организовать контекстный поиск по полнотекстовой базе не только по текстовой части, но и по формулам.

    Содержание

    Список литературы

    1. Дорофеев А.В. , Федотов А.М. Электронные публикации в среде Internet и множественность кодировок русского языка // Вычислительные технологии, 1997, т. 2, N 3, c. 31-44.
    2. Олейник О.В., Толкачева Е.М., Федотов А.М. Электронные издания и представление математических текстов на WWW // Вычислительные технологии, 1997, т. 2, N 3, c. 60-67.
    3. Шокин Ю.И., Федотов А.М., Знаменский С.В. Электронные публикации и проблемы множественности кодировок русского языка // Информационные технологии и вычислительные системы, 1997, N 2, c. 90-101.
    4. Знаменский С.В. Стандартизация русского TeX: утопия или неизбежность // Вычислительные технологии, 1997, т. 2, N 3, c. 51 -59.

    Содержание


    * Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований: гранты NN 97-07-90372, 98-01-00772.