Представление и обработка XML-баз данных

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Содержание

1. XML-технологии и базы данных
- 1. 1. XML-технологии
  - 1. 1. 1. Декларация тега в DTD
  - 1. 1. 2. Декларация атрибутов тега
  - 1. 1. 3. Логическая модель XML-документа
- 1. 2. XML-базы данных и базы XML-документов
- 1. 3. «native» XDMS
  - 1. 3. 1. XML-DBMS SEDNA
  - 1. 3. 2. XDMS TigerLogic
- 1. 4. Гибридные SQL/XML базы данных
- 1. 5. Постановка задачи диссертации
Выводы по главе 1
2. Отображение XML-документов с ориентацией на данные в структуры, определяемые моделью Pick UDM
- 2. 1. Описывающая и предписывающая схемы данных
  - 2. 1. 1. Полу структурированная модель данных
  - 2. 1. 2. Pick UDM и полуструктурированная модель данных
  - 2. 1. 3. Представление полу структурированных данных в Pick UDM
  - 2. 1. 4. Задача отображения XML-документов в структуры, определяемые моделью Pick UDM
- 2. 2. Отображение XML-документа в структуру, определяемую моделью Pick UDM
  - 2. 2. 1. Отображение1 XML-схемы в структуру, определяемую моделью Pick UDM
  - 2. 2. 2. Алгоритм загрузки XML-документа
  - 2. 2. 3. Алгоритм выдачи XML-документа
- 2. 3. Отображение XML-документов в общем случае
Выводы по главе 2
3. Отображение XML-документов со смешанным контентом в структуры, определяемые моделью Pick UDM
- 3. 1. Декларация элементов со смешанным контентом
- 3. 2. Отображение документов со смешанным контентом в модели Pick UDM
  - 3. 2. 1. Файл *.xml как отдельная запись
  - 3. 2. 2. Файл *.xml как отдельное поле записи
  - 3. 2. 3. Элементы со смешанным контентом как отдельные поля записи
  - 3. 2. 4. Отделение тегов и их контента
- 3. 3. Встроенные средства разработки DBMS D
- 3. 4. Система «динамического» гипертекста
Выводы по главе 3

Представление и обработка XML-баз данных (реферат, курсовая, диплом, контрольная)

XML вызывает огромный интерес с того момента, как о нем было впервые заявлено в 1997 году как о новой Internet-технологии. Он обеспечивает стандартный способ разметки контента (содержания), предоставляя гибкий способ структурирования данных. Контент XML документа размечается с помощью определяемых разработчиком тегов, на основе правил грамматики XML. Неформально говоря, XML [1,11] ~ это всего лишь способ представления иерархической информации (т.е. некоторой древовидной структуры).

XML разрабатывался с единственной целью — отделение данных от их представления. Представление XML-данных на экранах компьютеров (будь то медицинская карта или коммерческий счет) — это хотя и существенная часть многих приложений, но вполне обособленная. Сам по себе XML-документ не указывает, будет ли, и каким образом, информация отображена на экране, хотя в нем возможна ссылка на программу, реализующую такое представление. Сам XML-документ содержит размеченные данные, но эта разметка существенно отличается от HTML-разметки: разметка, вводимая тегами HTML служит исключительно целям представления, разметка, вводимая тегами XML служит целям структуризации содержания документа — она может рассматриваться как простейший способ введения семантики.

Техника представления XML-документов изменяется от простой до достаточно сложной. Независимо от выбранного метода, дизайн представления информации XML-документа осуществляется с помощью других средств, специально предназначенных для этой цели и называемых шаблонам разметки и таблицами стилей. Дизайнер отдельно определяет шаблоны и стили форматирования и правила их применения. Одну и ту же таблицу стилей можно использовать совместно с несколькими XML-документами для создания сходного виданаоборот, для одного XML-документа может использовать несколько таблиц стилей, создающих разные виды документа. Стили и шаблоны применяются к данным XML-документа во время его представления клиенту и могут быть использованы для его преобразования в формат HTML или любой другой формат данных.

Однако по мере развития XML было понято, что он может выполнять еще одну существенную функцию, связанную с передачей данных между приложениями. С точки зрения самых различных приложений весьма существенна стандартизованная передача данных между приложениями, не требующая специальных средств, обеспечивающих форматные преобразования. Интеграция унаследованных приложений, создание композитных приложений, технология Web-сервисов, сервис-ориентированная архитектура информационных систем — все эти технологии непосредственно ориентированы на использование XML для передачи данных.

Широкое использование XML-технологий привело к тому, что стали накапливаться значительные архивы XML-документов, поэтому в последнее время все больше стали говорить о создании XML баз данных, так как частое конвертирование XML-документов в структуры реляционных баз не эффективно из-за слишком большой разницы в структурах. К настоящему моменту создано уже несколько «native» (родных, созданных именно для XML) XDMS, и они непрерывно совершенствуются. Это значит, что совершенствуются функции, присущие классическим базам данных: эффективное хранение, индексация, обеспечение безопасности, обработка транзакций и поддержка целостности, многопользовательский доступ, поддержка запросов ко многим документам и т. д. Все эти функции в той или иной степени поддерживаются современными XDMS, но как отмечается в [3] не в той степени зрелости как это присуще реляционным DBMS.

Как задача создания «native» XDMS, так и вообще задача эффективной работы с архивами XML-документов в настоящее время находятся в исследовательской стадии. В этой связи необходимо отметить группу исследователей из ИСП РАН, разработавших оригинальные методы эффективного хранения XML-документов, их индексации, поддержания ограничений целостности и т. д. и реализовавших эти методы в XML DBMS SEDNA [5]. За пределами России также создано несколько XDMS, среди которых отметим систему TigerLogic, разработанную одноименной фирмой [6].

Однако задача состоит не только в том, в том, чтобы создать XDMS и построить на ее основе XML-базу данных — надо найти место этих баз в современных информационных системах, сделать эти системы баз данных востребованными. Эта задача не менее, а может быть и более сложная, поэтому крупные фирмы — производители DBMS пошли по пути встраивания XML в свои реляционные системы. В реляционную таблицу встраивается столбец (один или несколько), которому присваивается тип XML. Каждая строка таблицы в этом столбце содержит указатель на XML-документ, сохраняемый в специальном хранилище. Так организована поддержка XML в DBMS DB 2 фирмы IBM [7,8]. Аналогичные методы используются и в других системах.

Все XML-документы принято разделять на «ориентированные на документы» и «ориентированные на данные» («document centric» и «data centric» [9]).

Это разделение довольно условное, однако в большинстве случаев при «ориентации на документы» в XML-документе в пределах любого тега допускается свободное использование текста, в котором некоторые фрагменты «размечены» XML тегами. Теги разметки могут быть произвольно разбросаны по тексту, лишь бы соблюдались фундаментальные требования по их вложенности. Говорят, что имеет место смешанная разметка, порождающая «mixed content», характерный для содержательных документов, включающих текст, графические фрагменты, цифровые выкладки.

XML-документы, «ориентированные на данные», устроены гораздо более строго: имеется строгая последовательность тегов, каждый тег может быть либо групповым, включающим дочерние, либо конечным, включающим неразмеченный текст. Различные счета, накладные, которыми обмениваются предприятия, оформленные в виде XML-документов, являются типичными i представителями документов, «ориентированных на данные».

Разумеется, и те и другие документы можно хранить в базах, поддерживаемых как «native» XDMS, так и реляционными системами, с встроенной поддержкой столбцов типа XML. Однако следует заметить, что в хранилищах этих баз XML-документы хранятся не в виде привычных текстовых файлов с расширением .xml, а в более развернутом виде, так или иначе связанным с DOM-ориентированной структурой. На их загрузку тратится время, точно также как и выгрузка в виде тестового файла или строки сообщения, при необходимости отправки.

Термин «XML база данных» не совсем точен. Дело в том, что базы данных образуют совокупность взаимосвязанных данных, а не совокупность отдельных несвязанных документов, что характерно как для «native» XDMS, так и для реляционных систем, с встроенной поддержкой столбцов типа XML. Поэтому более точным является термин «база XML-документов», а вопрос отображения содержания XML-документов в стандартные базы данных имеет и самостоятельное значение.

Поэтому, по крайней мере, для архивов документов, «ориентированных на данные», вопрос создания на их основе XML-баз данных не такой однозначный, тем более что данные, включаемые в них, являются объектами хранения традиционных систем. Выполнен ряд исследований, связанных с отображением XML-данных в среды реляционных [10] и объектно-реляционных DBMS [22] баз данных. Существуют также другие модели данных и поддерживающие их DBMS, которые работают с более глубокими иерархическими структурами нежели традиционная «таблица — строкаполе» реляционной модели.

В диссертации в качестве такой альтернативной модели взята модель Pick UDM, лежащая в основе DBMS D3 [23], и показано, что в структуры этой модели весьма эффектно и эффективно отображаются XML-документы, «ориентированные на данные» и наоборот, выдачу на запрос к этой базе можно получить в виде XML-документа с заданной XML-схемой.

Ограниченный подкласс XML-документов, «ориентированных на документы», также можно представить в структурах модели Pick UDM, но для этого приходится воспользоваться идеями, заложенными в модель данных RDF [20]. Эти исследования легли в основу разработки системы «динамической» разметки линейных текстов. Эта разметка осуществляется пользователем, например, учебного пособия и может быть сохранена после сеанса или уничтожена. Эта система, как демонстрация возможностей баз XML-документов, разрабатывалась в среде DBMS D3 на базе материалов «Энциклопедии D3» и в как Web-приложение в среде Eclipse и DBMS DB2 v9 [8], поддерживающей тип данных XML, с использованием технологии Java, JSF, XQuery.

Таким образом, целью диссертации является исследование и разработка методов и инструментальных программных средств отображения XML-документов в структуры, определяемые моделью Pick UDM, а также разработка экспериментальных приложений работающих с XML-базами данных.

Для достижения поставленной цели в диссертации решены следующие задачи:

1. Проанализированы современные методы создания и использования XML-баз данных в информационных системах.

2. Проанализированы инструментальные средства работы с XML-базами данных, как создаваемые с «нуля» — «native» XDMS, так и встраиваемые в современные реляционные DBMS.

3. Разработаны алгоритмы отображения XML-схем в структуры, определяемые моделью Pick UDM.

4. Разработаны алгоритмы загрузки XML-документов в базу, управляемую в соответствии с моделью Pick UDM.

5. Разработаны экспериментальные приложения, работающие с XML-базами данных.

Для решения поставленных задач в диссертации использованы методы теории графов, методы и средства процедурного и объектно-ориентированного проектирования и программирования.

В диссертации получены следующие новые научные результаты:

1. Разработаны алгоритмы отображения XML-схем в структуры, определяемые моделью Pick UDM.

2. Сформулированы условия, при выполнении которых отображение XML-документов осуществляется без декомпозиции последних.

3. Разработаны алгоритмы загрузки XML-документов в базу, управляемую в соответствии с моделью Pick UDM.

Основные научные результаты, выносимые на защиту:

1. Предлагаемый подход и алгоритмы для отображения XML-схем в структуры, определяемые моделью Pick UDM.

2. Алгоритмы и программные средства загрузки XML-документов и оформления в виде XML-документа ответа на запрос к базе данных в соответствии с заданной XML-схемой.

3. Разработку алгоритмов и программных средств, позволяющих проводить динамическую разметку текстов и связывать с этой разметкой возможность выполнения определенных операций.

Разработанные в диссертации подходы алгоритмы и программные средства использованы в учебном процессе кафедры «Кибернетика» МИФИ в курсах, читаемых для студентов Союза Мьянма: «XML-технологии», «Объектно-ориентированные и многозначные базы данных».

В первом разделе диссертации рассматриваются основные положения XML-технологии, анализируется проблема создания XML-баз данных, рассматриваются подходы к решению этих задач на базе «native» XDMS и специальных средств, встраиваемых в современные реляционные DBMS. Поднимается проблема места XML-баз данных в современных информационных системах. В конце первого раздела диссертации поставлена цель и конкретные задачи диссертационного исследования.

Во втором разделе диссертации развивается подход к отображению XML-документов в структуры, определяемые моделью Pick UDM. Выделяется подкласс XML-документов «ориентированных на данные», для которых такое отображение реализуется естественно и эффективно.

Выводы по главе 4.

1. На основе архитектуры МУС разработано Web-приложение, ориентированное на создание и поиск XMLдокументов со смешанным контентом.

2. Технология JavaServer Faces (JSF), в основе которой лежит архитектура МУС, предоставляет удобные средства для разработки Web-приложений повышенной сложности на платформе J2EE.

3. В рамках приложения разработан редактор, ориентированный на создание и модификацию XMLдокументов со смешанным контентом.

4. Разработана XML-база данных для хранения и поиска документов со смешанным контентом и продемонстрированы результаты поиска на основе SQL и XQuery.

Заключение

В диссертации исследована проблема представления и обработки XML-документов в DBMS с многозначной моделью данных и XML DBMS.

Показано, что для XML-документов, ориентированных на данные, целесообразно отделять элементы разметки от собственно данных, что способствует существенному сокращению объема базы и дает возможность использовать для работы с XML-документами стандартные средства DBMS.

С этой целью разработаны алгоритмы преобразования XML-схемы документов, ориентированных на данные, в схему базы данных, определяемую моделью Pick UDM, алгоритм загрузки XML-документов в базу данных, работающую под управлением DBMS с моделью Pick UDM и программные средства, реализующие перечисленные алгоритмы.

Исследованы ограничения на структуру XML-документа, позволяющую непосредственно загружать данные в область данных в виде единственной записи, а теговую структуру в словарь, разработаны средства оформления отчетов на запросы к базе данных в виде XML-документа.

Предлагаемая технология позволяет создать компактную базу XML-документов, в которой средствами DBMS D3 решаются все вопросы модификации и поиска. Восстановление XML-документа в виде .xml файла или оформление ответа на запрос к базе в виде XML-документа выполняется с несущественными затратами времени.

В результате проведенного исследования можно сделать вывод, что для создания баз XML-документов с ориентацией на данные совершенно не обязательно использовать специальные XML DBMS.

Показано, что XML-документы со смешанной разметкой можно отображать в DBMS с многозначной моделью данных только в частных случаях смешанной разметки ограниченной вложенности, а в общем случае целесообразно использовать XML DBMS.

Используя это частное представление, разработана многотерминальная система динамической разметки линейного текста путем связывания с этой разметкой определенных операций, в частности, выполнения гипертекстовых переходов, выполнения операций с базой данных и т. д., что демонстрируется на базе электронной энциклопедии DBMS D3.

Когда вложенность элементов смешанной разметки не ограничена, для построения соответствующих баз целесообразно использовать XML DBMS. В диссертации смешанная разметка рассматривается как простейший способ выделения семантических единиц в планарном тексте. С этой целью разработана программная оболочка Web-приложения, позволяющая производить создание, редактирование и поиск XML-документов со смешанным контентом.

В качестве XML-базы данных для хранения и поиска документов со смешанным контентом использована гибридная система — DBMS DB2 v9, совмещающая работу с SQL и XML данными. Архитектура Web-приложения построена на основе шаблона Model-View-Controller (MVC) в исполнении Java Server Faces (JSF) с использованием сервера приложений Apache Tomcat. Программирование выполнено на Java (J2EE).

Показать весь текст

Список литературы

Мартин Д. и др,. XML для профессионалов, Издательство «ЛОРИ», 2001.-866 с.
Document Type Definition (DTD). The World Wide Web Consortium -http://www.w3.org/TR/REC-html40/sgml/dtd.html.
Буре P. XML и базы данных, http://www.osp.ru/os/2000/10/062.htm.
Гринев М., Кузнецов С., Фомичев A., XML-DBMS Sedna: технические особенности и варианты использования, http://www.citforum.ru/database/articles/sedna/index.shtml.
Sedna XML DBMS http://modis.ispras.ru/Development/sedna.htm.
TigerLogic XDMS http://www.tigerlogic.com.
DB2 9 pureXML Guide http://www.redbooks.ibm.com/redbooks/pdfs/sg247315.pdf
XML-стандарты: результаты прошедшего года, http://www.iso.ru/joumal/articles/489.html.
Филиппов В.А., Щукин Б. А., Постояннов А. В., Язык XML и многомерная СУБД D3, издательство: Едиториал УРСС, 2001 г.
Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation. 6-October-2000. http://www.w3.org/TR/2000/REC-xml-20 001 006.
XML Schema Part 0: Primer. W3C Recommendation. 2 May 2001. http://www.w3.org/TR/2001/REC-xmlschema-0−20 010 502.
XML Schema Part 1: Structures. W3C Recommendation. 2 May 2001. http://www.w3.org/TR/2001/REC-xmlschema-1 -20 010 502.
XML Schema Part 2: Datatypes. W3C Recommendation. 2 May 2001. http ://www.w3. org/TR/2001/REC-xml schema-2−20 010 502.
Руководство по XML: разработка XML schema. http://www.iso.ru/journal/articles/41 .html.
Когаловский M.P., Стандарты платформы XML и базы данных, http://www.elbib.ru/index.phtml?page=elbib/rus/methodology/xmlbase/tutor ial.
Resource Description Framework (RDF). Model and Syntax Specification. W3C Recommendation. 22 February 1999. http://www.w3.org/TR/REC-rdf-syntax/.
RDF Vocabulary Description Language 1.0: RDF Schema. The World Wide Web Consortium www. w3.org/TR/rdf-schema.
RDF Primer. The World Wide Web Consortium http://www.w3 .org/TR/2004/REC-rdf-primer-20 040 210.
Klettke M., Meyer H. XML and Object-Relational Database Systems -Enhancing Structural Mappings Based on Statistics. WebDB 2000, p. 63−68.
Pick Universal Data Model, http://www.infoved.rU/software/index.html#text-pick.
Document Object Model (DOM). The World Wide Web Consortium -, http://www.w3 .org/DOM/.
Simple API for XML (SAX), https://www6.software.ibm.com/developerworks/education/x-usax/index.html.
Системы управления полуструктурированными данными, http://www.osp.ru/os/1999/05−06/17 983 7/р 1 .html.
КОДЦ Э.Ф., Тьюринговская лекция, http://awards.acm.org/listing.cfm.2 8. Semi-structured data model, http://en.wikipedia.org/wiki/Semistructuredmodel.
Vaskevitch D., Two Steps Forward, One Step Back, BYTE, May 1992.
XSL Transformations (XSLT). Version 1.0. W3C Recommendation 16 November 1999. http://www.w3.org/TR/1999/REC-xsIt-19 991 116.
Леонов И.В., XML и XSLT в примерах для начинающих, http://www.citforum.ru/internet/xmIxslt/xmlxslt.shtml.
Anzeni P., Mecca G., Merialdo P. Semistructured and Structured Data in the Web: Going Back and Forth. Workshop on Management of Semistructured Data, May 1997. Доступна по адресу: www.research.att.com/~suciu/ workshop-papers.html.
Parikh A., Parikh P., TigerLogic XML Data Management Server. The Power Behind An SOA, http://www.idealliance.org/proceedings/xml05/.
Кадэй Тхэй, Щукин Б. А., Безопасность хранения XML документов, Безопасность информационных технологий 2009 г. № 1. с 45−49.
Кадэй Тхэй, Вин Зо, Труды XVI Международного научно-технического семинара. Сентябрь 2007 г., Алушта.-Тула: Изд-во ТулГУ, 2007.-334 с. «Моделирование процесса взаимодействия локальных систем при их интеграции» с 42.
Кадэй Тхэй, Микроэлектроника и информатика 2008. XV-ая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тезисы докладов. — М.: МИЭТ, 2008. -360с. «Включение XML-столбцов в реляционные таблицы» с 195.
Кадэй Тхэй, Труды XVII Международного научно-технического семинара. Сентябрь 2008 г., Алушта.-Тула: Изд-во ТулГУ, 2008.-334 с. «Обработка RDF данных средствами реляционных DBMS» с 230.
Brundage М., «XQuery: The XML Query», http://www.qbmndage.com/xquery.
XQuery for the systems analyst or architect. The World Wide Web Consortium www. w3.org/XML/Query.
XQuery 1.0 and XPath 2.0 Data Model, W3C Working Draft, 12 November 2003.
Сешадри Г., Архитектура Модели 2, http ://www.j avable. com/j avaworld/1299 / 01 /.45. «Kito D. Mann, „JavaServer Faces in Action“, Manning Publication Co., 2005r».46."Prentice.Hall.PTR.Core.JavaServer.Faces.Jun.2004.eBook-DDU.chm".
Barcia R., «JavaServer Faces (JSF) vs Struts», SYS-CON Media, 2004r.
Java Tutorial, Second Edition. Sun Microsystems, Addison-Wesley. — Электрон. дан. 2005. — Режим доступа: http://java.sun.eom/j2ee/l .4/docs/tutorial/doc/index.html, свободный. — Загл. с экрана.
Монсон-Хейфел P. Enterprise JavaBeans, 3-е издание. Пер. с англ.
СПб.: Символ-Плюс, 2002.-672 е., ил. ISBN 5−93 286−041−3.
Geary D., Horstmann С. Core JavaServer Faces. Addison Wesley, 2004. -552 c. ISBN: 131 463 055.54."IBM Corporation, «Design and Implement Servlets, JSPs, and EJBs for IBM WebSphere Application Server» (August 2000)".
Кузнецов С.Д., Концептуальное проектирование реляционных баз данных с использованием языка UML, http://www.citforum.ru/database/articles/umlbases.shtml.
Леоненков А., «Самоучитель UML», БХВ-Петербург, 2004г.

Заполнить форму текущей работой