Модели и алгоритмы системы поддержки принятия решений на основе многомерных хранилищ данных
Проведен анализ, существующих систем хранения и обработки информации, который показал преимущества реляционных БД для оперативных данных, но когда речь идет об анализе данных сцелью принятия решения и прогнозирования на основе. больших объемов данных, лучше воспользоваться технологией' ХД на основе многомерных данных. Экспериментально показано, что при использовании нереляционных моделей время… Читать ещё >
Содержание
- Глава 1. Анализ и исследование существующих систем хранения и обработки информации
- 1. 1. Реляционные модели хранения и обработки информации
- 1. 2. Переход к нереляционным моделям
- 1. 3. Многомерное представление данных
- 1. 3. 1. OLAP технология
- 1. 3. 2. Сравнение OLTP и OLAP систем
- 1. 3. 3. Система поддержки принятия решений
- 1. 3. 4. Многомерное представление данных
- 1. 3. 5. Преимущества использование хранилищ данных
- 1. 4. Материализованное представление данных
- 1. 5. Выводы
- Глава 2. Модели и алгоритмы обработки данных с использованием реляционных и многомерных баз данных
- 2. 1. Добыча данных
- 2. 2. Классификации
- 2. 2. 1. Классификационные правила
- 2. 2. 2. Методы Naive Bayes
- 2. 2. 3. Деревья решений
- 2. 3. Регрессионый анализ
- 2. 4. Ассоциативные правила
- 2. 5. Кластерный анализ
- 2. 6. Методы прогнозирования
- 2. 7. Выводы
- Глава 3. Разработка хранилища данных для хранения объектной информации
- 3. 1. Разработка хранилища данных
- 3. 1. 1. Архитектура хранилища данных
- 3. 1. 2. Независимые витрины данных
- 3. 1. 3. Двухуровневое хранилище данных
- 3. 1. 4. Трехуровневое хранилище данных
- 3. 1. 5. Характеристика хранилища данных
- 3. 2. Концептуальное моделирование хранилища данных
- 3. 2. 1. Переход от модели сущностей к многомерной модели
- 3. 2. 2. Выявление иерархии при многомерном моделировании
- 3. 3. Построение многомерной модели
- 3. 3. 1. Алгоритмы определения классов иерархии
- 3. 3. 2. Объединение в классы иерархии
- 3. 3. 3. Схема фактов для предметной области сети магазинов
- 3. 3. 4. Схема реализации модели
- 3. 4. Математическая модель многомерного представления данных
- 3. 4. 1. Основные понятия многомерной модели
- 3. 4. 2. Пример измерения «География»
- 3. 4. 3. Операции на кубе
- 3. 5. Выводы
- 3. 1. Разработка хранилища данных
- Глава 4. Разработка системы поддержки принятия решений
- 4. 1. Концептуальная модель системы
- 4. 2. Требование к системе
- 4. 3. Алгоритм загрузки данных в ХД
- 4. 4. Безопосность СППР
- 4. 5. Методы повышения эффективности обработки данных
- 4. 5. 1. Использование материализованного представления
- 4. 5. 2. Разделение таблиц и параллельность выборки
- 4. 5. 3. Индексирование данных
- 4. 6. Выбор СУБД
- 4. 7. Выводы
- 4. 8. Основные результаты работы
Модели и алгоритмы системы поддержки принятия решений на основе многомерных хранилищ данных (реферат, курсовая, диплом, контрольная)
Актуальность темы
В настоящее время базы данных широко используются в нашей повседневной жизни. Любая, успешно работающая организация, хранит свои данные и обрабатывает их с использованием современных систем управления базами данных. Они повсеместно используются для получения сведений о сотрудниках, о товарах, о продажах, бухгалтерских данных, данных бизнеса и т. д. Но информация сама по себе без обработки не представляет интерес, поэтому работа с базами данных всегда требует совершенствования способов хранения данных, а также сокращения времени выборки данных, необходимых для получения своевременной и необходимой информации.
Важным фактором в современных рыночных условиях является оперативное принятие деловых решений. Однако многие предприятия сталкивается с таким препятствием, как большой объём и высокая сложность данных. Решением данного вопроса может стать создание системы поддержки принятия решений (СППР) на основе хранилищ данных (ХД). Хранилище данных представляет собой накопитель информации из других систем (баз данных, файлов, электронных таблиц и др.), на основе которых строятся процессы принятия решений и анализа данных.
Системы поддержки принятия решений (СППР) — это системы, обладающие средствами ввода, хранения и анализа данных, относящихся к определённой предметной области, с целью поиска решений.
Основная задача СППР — предоставление аналитикам инструмента для выполнения анализа данных. СППР не гарантирует правильных решений, а только поставляет аналитику данные в виде таблиц, отчётов, графиков и т. п. для изучения и анализа.
Исследованию СППР на основе ХД посвящены работы Э. Спирли, Р. Кимбала, А. А. Барсегяна, И. А. Чубуковой, R. Agrawal, P. Vassiliadis,.
С.Хайкина, И. С. Ризаева, А. Н. Кузьмина, Л. Ю. Емалетдиновой, Н. М. Вдовичева и др.
Трудно переоценить актуальность построения системы принятия решений (СППР) для крупных банков, предприятий нефтяной, газовой отрасли, машиностроении, металлургии, торговле и т. д. Конечно, СППР, основанная на технологии хранилищ данных или витрин данных (а большинство СППР базируются именно на них), будет быстрее окупаться на крупных предприятий или организациях с развитой филиальной сетью и разнообразной деятельностью, внедряющих корпоративные информационные системы.
Объект исследования. Системы хранения, обработки и извлечения информации из баз данных и хранилищ данных.
Предмет исследования. Модели и алгоритмы систем поддержки принятия решений на основе многомерных моделей баз и хранилищ данных.
Научная задача. Разработка новых аналитических моделей и алгоритмов интеллектуального анализа данных и программного комплекса системы поддержки принятия решений на основе многомерных моделей хранилищ данных.
Цель и задачи исследований. Целью работы является повышение эффективности обработки и хранения больших объемов информации за счет использования технологии хранилищ данных.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проанализировать и исследовать существующие способы хранения и обработки информации.
2. Разработать модели и алгоритмы интеллектуального анализа данных с целью прогнозирования и поддержки принятия решений.
3. Создать методику разработки концептуальной модели многомерного представления данных для эффективного хранения и быстрого выполнения запросов при хранении объектной информации.
4. Провести экспериментальные исследования моделей и алгоритмов с помощью разработанных программ интеллектуального анализа данных и системы поддержки принятия решений в среде СУБД ORACLE на основе концепции хранилищ данных.
Методы исследования. При решении поставленных задач использовались математические модели и методы системного и интеллектуального анализа данных, теории вероятностей, теории множеств, теории нейронных сетей, классические методы линейного и целочисленного программирования, системного программирования. Научная новизна работы.
1. Предложено использование математической модели на основе теории множеств для интеллектуального анализа данных с целью решения задач классификации различных объектов. Разработаны алгоритмы разбиения клиентов на классы с использованием метода «классификационных правил», в случае учета нескольких независимых переменных наивный метод Байеса для получения таблицы решений.
2. Разработан алгоритм вычисления ассоциативных правил с учетом распределенного хранения информации с целью ускорения процесса выполнения таких правил.
3. Разработан модифицированный алгоритм кластеризации на основе к-среднего и предложен метод исправления результатов кластеризация для категориальных объектов на основе информационного подхода, с применением критерия энтропии.
4. Разработана структура трехслойной нейронной сети с вычислением весовых коэффициентов для прогнозирования и принятия решений.
5. Разработана методика построения многомерной модели хранилища данных, а также дано формализованное описание гиперкуба и возможных операций над кубом данных.
Практическая ценность диссертации состоит в следующем:
— разработан программный комплекс системы поддержки принятия решений и прогнозирования с использованием многомерных моделей для интеллектуального анализа данных;
— разработаны алгоритмы и комплексы программ на языке PL/SQL в среде СУБД ORACLE для решения задач классификации, кластеризации, поиска ассоциативных правил для крупных информационных предприятий;
— разработана структура трехслойной нейронной сети для решения задач прогнозирования для торговых организаций, банковских структур, и др—.
— разработаны методы увеличения быстродействия выполнения запросов за счет использования материализованного представления, индексов и параллельного выполнения транзакций при разделении данных.
Результаты работы. Результаты выполненных исследований и разработок использовались:
— в Торговом доме «Лес Парк Сад», занимающегося оптовой и розничной продажей товаров;
— в научно-техническом центре ООО фирмы «ЛУН-М», занимающегося формированием комплектующих технических средств для подъемных кранов;
— в учебном процессе кафедры Автоматизированных систем обработки информации и управления в форме электронного учебного пособия «Лабораторный практикум СУБД ORACLE» по дисциплине «Распределенные базы данных» для студентов специальности 230 102, кроме того, разработанные методы и алгоритмы по классификации, кластеризации, прогнозированию на основе нейронных сетей рекомендованы студентам для выполнения курсовых и дипломных работ.
Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих международных и всероссийских конференциях:
Всероссийская научно-практическая конференция. «Наука и профессиональная деятельность». (Нижнекамск. 2008,2009,2010);
Международная конференция. Инфокоммуникационные технологии глобального информационного общества. (Казань, 2008, 2009) — XVI Международной конференции по вычислительной механике и современным прикладным программным системам. (Крым, Алушта 2009) — Седьмая международная конференция «Исследование, разработка и применение высоких технологий в промышленности» (Санкт-Петербург, 2009) — Международная молодежная научная конференция «Туполевские чтения» .(Казань, КГТУ им. А. Н. Туполева, 2008, 2009).
Публикации. Содержание диссертации опубликовано в 16 работах, включая 8 статей, в том числе две статьи в изданиях, входящих в перечень ВАК (Вестник КГТУ им. А.Н.Туполева). Структура и объем работы.
Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 148 страниц основного текста, 50 рисунков, 27 таблиц, и 5 приложений.
Список литературы
включает 92 наименования.
4.8 Основные результаты работы.
1. Проведен анализ, существующих систем хранения и обработки информации, который показал преимущества реляционных БД для оперативных данных, но когда речь идет об анализе данных сцелью принятия решения и прогнозирования на основе. больших объемов данных, лучше воспользоваться технологией' ХД на основе многомерных данных. Экспериментально показано, что при использовании нереляционных моделей время выполнения запросов значительно уменьшается.
2. Для? интеллектуального анализа данных предложено использование, технологии «Data mining» с применением методов классификации, кластеризации, поиска ассоциативных правил и регрессионного анализа.
3. Для решения задачи прогнозирования разработана трехслойная нейронная сеть и проведен эксперимент по прогнозированию валютного рынка. Показана эффективность применения нейронной сети.
4. Дано формализованное описание многомерной модели данных и математическое представление гиперкуба данных. Разработаны методы повышения производительности ХД с использованием материализованного представления, индексирования данных и разделения таблиц, а также применение параллельности выборки.
5. Разработана система анализа данных и прогнозирования и поддержки решений в сфере торговли, в среде СУБД ORACLE и программы «developer2000», на основе трехуровневого хранилища данных с использованием многомерных моделей данных. Коды составлены на языке запросов SQL и языке программирования PL/SQL.
Список литературы
- Барсегян А.А., Куприянов. В. В- Степаненко. И. И. Холод, технологии анализа данных: data mining, visual mining, text mining, olap // 2ie изд., перераб. И доп. СПБ.: БХВ-Петербург. 2008.-384 с.
- Васильева Э. К., Сергеевич JI.B. Статистика// Учебник для студентов вузов М.:Юнити-дана. 2007. -399с.
- Введение в системы управления базами данных, http:// www.citforum.ru.
- Вентцель Е.С. Исследование операций: задачи, принципы, методология// 4-е изд., стерео-тип.- М: Дрофа, 2006.- 206с.
- Горбань А. Н., Россиев Д. А. Нейронные сети на персональном компьютере// Новосибирск: Наука, 1996.
- Дж. Мартин. Организация баз данных в' вычислительных системах// Пер. с англ. Издательство Мир, 1978.611с.
- Дж. Хаббард. Автоматизированное проектирование баз данных// Пер. с англ. -М.: Мир, 1984.296с.
- Джен Л.Харрингтон. Проектирование реляционных баз данных// Пер. с англ. Издательство «Лори», 2000.230с.
- Калинина В. Н., Панкин В. Ф. Математическая статистика: Учебник для студ. сред, спец // М.:Юнити-дана. -4-е изд. -М.: Дрофа, 2002. -336с.
- ШКириллов В. В., Основы проектирования реляционных баз данных// учебное пособие, Санкт- петербургской государственный институт точной механики и оптики.
- П.Кожевников Ю. В. Теория вероятностей и математическая статистика.// учебное пособие для вузов- М.: Машиностроение, 2002. 414с.
- Козлов В. Н., Математика и информатика// учебное пособие, М.: СПб, 2004.- 265с.
- Кузьмин А.Н. Методы и модели обработки информации в хранилищах данных//Автореферат диссертации. Казань, 2006.
- Кэри Миллсан, Джефф- хольт- Oracle Оптимизация производительности//Пер. с англ. — СПб: символ-плюс, 2006.,-464с.
- JI. Хоббс, С. Хилсон, in. Лоуенд Oracle9iR2: разработка и эксплуатация хранилищ. баз данных// Пер. с англ. М.: КУДИЦ -ОБРАЗ, 2004.-592с.
- Лабыженский F. М. Базы, данных: коротко- о главнм// Москва Нииси Ран.2000: -114с.
- ЩМейер^ДС Теоршкреляционных базгданных.// Mi: Мир, 1987. -608с.
- Методы бикластеризации для анализа Интернет-данных. Дмитрий Игнатова http:// wwwxitform.ru/consulting/TJI21!.MeTOflbi^o6bi4H?flaHHbix при построениишокальношметрикшв системах, вывода попрецедентам./ http://www.citforum.ru.
- Паклиш Н! Б (c)jpenncpBsBM! бизнес-аналитика: отданных к- знаниям//1. СПБ.:Иитер, 2009.-624 с.
- Петер Роб Системы баз данных: проектирование- реализация и управление// 5-е издание/ Петер роб, Карлос Коронел. — перераб. и доп.: Пер: с анг. СПБ.: БХВ- Петербург, 2004.- 1040с.
- Рахал Я., Ризаев И. С. Технология поиска ассоциативных правил // Инфокоммуникационные технологии глобального информационного общества. Сб. трудов 7-й международной научно-практической конференции. Казань: ООО «Центр Оперативной печати», 2009. С. 103 109.
- Рахал Я. Итеративный метод кластерного анализа / Вестник КГТУ им. А. Н. Туполева. Казань, 2009, № 4. С. 88−90.
- Ризаев И. С. Рахал Я., Повышение производительности хранилищ данных // Проблемы перехода к устойчивому развитию монопрофильных городов. Материалы всероссийской научно-практической конференции. Нижнекамск: Изд-во КГТУ им: А. Н. Туполева, 2010. С. 169−171.
- Ризаев И. С. Рахал Я., Многомерные модели данных // Наука и профессиональная деятельность. Всероссийск. науч.-практич конференция. Нижнекамск: Изд-во КГТУ им. А. Н. Туполева, 2008. С. 237−238.
- Рахал Я., Ризаев И. С. Применение кластерного анализа в сфере торговли // Наука: Современное состояние и перспективы развития: Материалы всероссийской научно-практической конференции. Нижнекамск. Изд-во КГТУ им. А. Н. Туполева, 2009. С.173−174.
- Рахал Я., Ризаев И. С. Группирование информации в хранилищах данных // Инфокоммуникационные технологии глобального информационного общества. 6-я международная конференция. Казань: ООО «Центр Оперативной печати», 2008. С. 152−154.
- Рахал Я., Ризаев И. С. Кластеризация объектов на основе энтропийной оценки // Материалы XVI Международной конференции по вычислительной механике и современным прикладным программным системам. Алушта: Изд-во МАИ-Принт, 2009. С. 600−602.
- Рахал Я., Ризаев И. С. Повышение эффективности обработки данных в СУБД / Вестник КГТУ им. А. Н. Туполева. Казань, 2008, № 3. С. 98 -101.
- Ризаев И.С., Яхина З. Т. Базы данных // Учебное пособие, Казан.гос.техн.ун-та,. Изд-во Казан, гос.техн.ун-та, 2008. — 240с.
- Ризаев И-С., Яхина З. Т. Базы данных // Учебное пособие- Казан.гос.техн.ун-та,. Казань. «МастерЛайн» .2004. — 100с.
- Ризаев ШС., Системы распределенной обработки данных// Учебное пособие, Казан.гос.техн.ун-та,. Казань. «Мастер Лайн» .2007. 85с. >43 .Ризаев И. С., Ляшева С. А., Шлеймович М. П. Теория информации// Учебное пособие, Казань. «Мастер Лайн» .2007. — 97с.
- Сабир А., Архитектура хранилищ данных 1−2/ http://www.rusdoc.ru.45:Чаудхури С., Дайал У., Ранти В. Технология, баз данных в системах поддержки принятия решений.// Открытие системы: № 1,2002.
- Спирли Эрик. Корпоративные хранилища данных. Планирование, разработка, реализация. Том. 1// Пер. с англ. — М-: Издательский дом «Вильяме», 2001. 395с.
- Тюрин Ю: Н., Макаров А. А. Анализ1 Данных На Компьютере//учебное пособие, 4-е изд. Перераб. -М.: ИД «Форум" — 2008: -368с.
- Федечкин С., Хранилище данных// вопросы № ответы, PCWeek, № 31, 2003.
- Anil К. Jane, Richard С. Dubes Algorithms for Clustering Data// Prentice-Hall, Inc, New Jersey, -1998.-334c.
- Bongki Moon, Ines Fernando, Vega1 Lopez, Vijaykumar Immanuel. Efficient Algorithms for Large-Scale Temporal Aggregation// IEEE, VOL. 15, NO. 3, MAY/JUNE 2003. 16c.
- Burkhard Heer, Alfred Maubner. Dynamic General Equilibrium Modeling, Computational Methods and Applications// Springer Berlin Heidelberg New York. -2005.-547c.
- Christian S. Jensen, Augustas Kligys, Torben Bach Pedersen, Igor Timko. Multidimensional Data Modeling for Location-Based Services// Department of Computer Science. Aalborg University, DENMARK- 2002- 7c.
- Chuck Ballard, Amit Gupta, Vijaya Krishnan, Nelson Pessoa, Olaf Stephan. Data Mart Consolidation: Getting Control of Your Enterprise Information// International Business Machines Corporation 2005. 422c.
- Daniel L. Moody, Mark A.R. Kortink. From enterprise model to dimensional models: A methodology for data warehouse and data mart// In International Workshop on Design and Management of Data, 2000. -12c.
- Danial T. larose. Discovering Knowledge in Data An Introduction to Data Mining// ISBN 0−471−66 657−2. John Wiley & Sons, Inc., Hoboken, New Jersey.2005.-233 c.
- Data Warehousing GuidelOg Release 1 (10.1), Oracle Corporation. 2003. C 806.
- Hector Garcia-Molina, Jeffrey Ullman, Jennifer Widom. Database System: the Complete Book.// Department of Computer Science Stanford University, Prentice Hall, Upper Saddle River, New Jersey 7 458, 1083c.
- Harvey Motulsky, Arthur Christopoulos. Fitting Models to Biological Data using Linear and Nonlinear Regression// GraphPad Software Inc, San Diego CA, 2003−351 c.
- Hussein A. Abbass, Ruhul A. Sarker, Charles S. Newton. Data Mining: A Heuristic Approach//Idea Group Publishing. 2002. 310 c.
- Inmon W.N. Building the Data Warehouse// Third Edition. Published by John Wiley & Sons, Inc. 2002. 428c.
- Jiawei H., Micheline K. Data Mining concepts and techniques// 2nd edition. Morgan Kaufmann Publishers, ISBN 1−55 860−901−6. 2006. 772c.
- Jonas Sjoberg. Mathematica Neural? Networks, Train? and Analyze Neural Networks to fit your Data// Wolfiam Research, Inc., Illinois, USA. 2005. -406c. •: V ¦
- Krzysztof J. Cios. Witold Pedrycz, Roman W. Swiniarski, Lukasz A. Kurgan. Data Mining A Knowledge Discovery Approach// ISBN-13: 978−0. 387−33 333−5. Springer Science+Business Media.20(j7.-600c.
- Mark Last, Abraham Kandel, Horst Bunke. Data Mining in Time Series Database// World. Scientific Publishing Co. Pte. Ltd, 5 Toh Tuck Link, Singapore 596 224, 2004.-205c.
- Neural-network./http://www.statsoft-com.,
- Nong Ye. The HandBook of Data Mining// Arizona State University Inc., 2003.- 722c.
- Oracle extra data storage server — оптимизированная платформа для: Oracle BI хранилищ данных./ www.olap.ru.
- P. Vassiliadis, Modeling Multidimensional Databases, Cubes and Cube Operations./! In Proc. Of the SSDBM Conference, Capri, Italy. 1998. 12c.
- Paolo giudici. Applied Data Mining Statistical Methods for Business and Industry// ISBN 0−470−84 678-X (alk. paper) — ISBN 0−470−84 679−8 (pbk.), John Wiley & Sons Ltd, The Atrium, Southern Gate, Chichester, West Sussex P019 8SQ- England. 2003.- 379 c.
- R. Agrawal, A. Gupta, S. Sarawagi. Modeling Multidimensional Databases.// IBM ¦ Research Report, IBM Almaden Reasearch Center, 1995. 12c.
- R. Agrawal, R. Srikant. Fast Algorithms for Mining Association Rules in Large Databases// 20th Int’l Conf. of Very Large Data Bases, Sept. 1994.
- Rakesh Agrawal, Tomasz Imielinski. Mining association rules between sets of items in large databases// International Conference on Management of Data, Washington, D.C., May 1993. 10c.
- Raghu Ramakrishnan, Johannes Gehrke. Database Management System, second edition// mcGrow-hill Higher education 2000- 93 lc.
- RALF Kimball, Margy Ross. The Data Warehouse Toolkit// Second Edition Published by John Wiley & Sons, Inc. 2002. 446c.
- Raul Rojas/ Neural Networks A Systematic Introduction// Springer-Verlag, 1996. -509c.
- Raymond T. Ng, Jiawei Han. CLARANS: A Method for Clustering Objects for Spatial Data Mining// IEEE, VOL. 14, NO. 5, SEPTEMBER/OCTOBER 2002. 14c.
- Silberschatz A., Korth H. K., Sudarshan S., Database system concepts// Mc Graw Hill 5th edition. 2005.
- Soumen Chakrabarti. Mining the Web- Discovering Knowledge from HyperText Data// Elsevier Science (USA). 2003.- 364c.
- Torben Bach Pedersen, Christian S. Jensen. Multidimensional data modeling for complex data// the 15th International Conference on Data Engineering, 23−26 March 1999, Sydney, Australia, pages 336−345. IEEE Computer Society, 1999.
- Trevor Hastie, Robert Tibshirani, Jerome Friedman. Data Mining, Inference, and Prediction// Second Edition, Springer.2008.- 764c.
- Wesley W. Chu, T. Y. Lin. Foundations and Advances in Data Mining// Springer.-352c.
- Yun Chi, Yi Xia, Yirong Yang, Richard R. Mining Closed and Maximal Frequent Subtrees from Databases of Labeled Rooted Trees// IEEE, VOL. 17, NO. 3, MARCH 2005.
- Yuval Elovici, Dan Braha. A Decision-Theoretic Approach to Data Mining// IEEE, VOL. 33, NO. 1, JANUARY 2003. 10c.
- Dianne Cook, Deborah F. Swayne. Interactive and Dynamic Graphics for Data Analysis// Springer. 2007−202c.
- Hector Guerrero. Excel Data Analysis, Modeling and Simulation// Springer. 2010−353.