Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах
Комплекс математических моделей для расчета характеристик базовых алгоритмов поиска, позволяющий оптимизировать характеристики алгоритмов, обоснованно выбирать алгоритм для конкретной системыкомплекс программного обеспечения для имитационного моделирования алгоритмов поиска, дающий возможность расширить сферу применения моделей, путем снятия ряда ограничений на параметры алгоритмов. Апробация… Читать ещё >
Содержание
- 1. ОРГАНИЗАЦИЯ ДОСТУПА К ИНФОРМАЦИИ В РАСПРЕДЕЛЕННЫХ СИСТЕМАХ
- 1. 1. Проблема поиска информации в распределенной системе
- 1. 2. Организация данных в интегрированных распределенных системах
- 1. 2. 1. Консолидация данных
- 1. 2. 2. Федерализация данных
- 1. 2. 3. Распространение данных
- 1. 3. Архитектурные подходы к построению интегрированной системы
- 1. 3. 1. Интегрирующие модели данных
- 1. 3. 2. Средства семантической интеграции данных
- 1. 4. Использование метаданных
- 1. 4. 1. Интеграция текстовых ресурсов
- 1. 5. Сети дистрибуции данных
- 1. 5. 1. Преимущества СБЫ
- 1. 5. 2. Технология
- 1. 5. 3. Маршрутизация контента
- 2. 1. Общие принципы организации поиска информации
- 2. 1. 1. Средства поиска
- 2. 1. 2. Информационные ресурсы поисковых систем
- 2. 1. 3. Проблемы организации поиска
- 2. 2. Организация поиска в Интернет
- 2. 3. Процедуры поиска
- 2. 4. Использование метаданных
- 2. 5. Алгоритмы поиска
- 2. 5. 1. Базовые алгоритмы поиска
- 2. 5. 2. Характеристики алгоритмов поиска информации в распределенных системах
- 3. 1. Описание алгоритмов
- 3. 2. Модель алгоритма случайного поиска
- 3. 2. 1. Общее описание
- 3. 2. 2. Модель алгоритма
- 3. 2. 3. Вычисление характеристик алгоритма
- 3. 2. 4. Оценка размера передаваемых данных при случайном поиске
- 3. 3. Модель поиска методом последовательного перебора
- 3. 3. 1. Общее описание
- 3. 3. 2. Математическая модель
- 3. 4. Расчет временных характеристик алгоритмов
- 3. 4. 1. Общие результаты
- 3. 4. 2. Оптимизация поиска
- 3. 4. 3. Оценка размера передаваемых данных при поиске в заданном порядке
- 3. 5. Модель поиска последовательным перебором
- 3. 5. 2. Оценка размера передаваемых данных при направленном поиске с использованием метаданных
- 4. 1. Имитационные модели поиска информации в распределенных системах
- 4. 2. Имитационная модель процедуры случайного поиска
- 4. 3. Имитационная модель процедуры поиска в заданном порядке
- 4. 4. Имитационная модель процедуры направленного поиска
- 4. 3. Скрин-шоты программы
Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах (реферат, курсовая, диплом, контрольная)
Расширение состава распределенных интегрированных информационных систем и увеличение числа задач, решаемых такими системами, неразрывно связаны с ростом активности пользователей, что в свою очередь вызывает резкое повышение нагрузки на компьютерные сети систем и может привести к ухудшению показателей качества обслуживания пользователей.
Одним из наиболее значимых источников нагрузки на компьютерную сеть распределенной информационной системы являются запросы пользователей, связанные с поиском информации, которые требуют передачи и обработки больших объемов данных.
Для поиска требуемой информации пользователь, как правило, неоднократно обращается к ресурсам сети (каналы связи, серверы) с различными запросами. Поиск, обычно, имеет итерационный характер, и число итераций (продолжительность поиска) равное числу запросов к системе для получения требуемых данных, может использоваться как мера эффективности поисковых процедур. Продолжительность поиска зависит от наличия в распоряжении пользователя априорных данных о возможном месте размещения искомой информации и алгоритмов обработки поисковых запросов.
Запросы пользователей (первичные) могут адресоваться либо к одному или нескольким специализированным узлам (поисковым серверам), где находятся данные для обработки запросов и формирования новых (вторичных) запросов, либо непосредственно к узлам хранения информации.
Применение специализированных поисковых серверов позволяет проводить целенаправленный поиск за счет предварительного сбора и классификации данных для обработки запросов пользователей и сократить продолжительность поиска, но подготовительные операции также загружают сеть, а качество дополнительных (вторичных) запросов и их количество зависят от предварительной классификации получаемой серверами информации.
Непосредственный поиск, в зависимости от информированности пользователя, может либо сократить продолжительность поиска, либо наоборот, значительно увеличить число итераций в зависимости от размерности сети, числа узлов хранения данных.
Кроме того, как в первом, так и во втором случаях возможны различные алгоритмы (процедуры) поиска, связанные с возможностью применения специализированных поисковых серверов и имеющейся у пользователя априорной информацией о возможных местах хранения требуемых данных.
Поскольку количество информационных систем и размещаемых там данных постоянно возрастает, нагрузка на их сети увеличивается, представляется актуальной задача разработки методов анализа и повышения эффективности поисковых процедур в зависимости от применяемых алгоритмов поиска, методов сбора и представления информации для обработки поисковых запросов. Это позволит формировать корпоративные поисковые системы с учетом особенностей хранимой информации и возможностей средств формирования и обработки поисковых запросов.
Цель работы. Целью диссертационной работы является разработка методов оценки нагрузки на компьютерную сеть при поиске информации в корпоративной интегрированной системе, позволяющих обоснованно выбирать алгоритмы поиска и повышать эффективность процедур поиска информации в распределенных системах.
Задачи исследований. Для достижения поставленной цели в работе сформулированы и решены следующие задачи:
1. Анализ процедур поиска, применяемых в современных корпоративных интегрированных информационных системах.
2. Разработка комплекса математических моделей для анализа и расчета характеристик алгоритмов поиска и нагрузки на компьютерную сеть в зависимости от алгоритма поиска.
3. Разработка имитационных моделей для расчета продолжительности поиска и нагрузки на компьютерную сеть, расширяющих возможности математических моделей.
4. Разработка программного обеспечения для реализации расчетов по математическим и имитационным моделям, визуализации результатов моделирования.
Методы исследований. При решении поставленных в диссертации задач использованы методы теории вероятностей, математического программирования, теории очередей, методы объектно-ориентированного программирования, а также современные методы создания распределенных интегрированных информационных систем.
На защиту выносятся: результаты анализа поисковых процедур, применяемых в современных корпоративных интегрированных системах хранения данных, позволившие выделить базовые алгоритмы поиска;
— комплекс математических моделей для расчета характеристик базовых алгоритмов поиска, позволяющий оптимизировать характеристики алгоритмов, обоснованно выбирать алгоритм для конкретной системыкомплекс программного обеспечения для имитационного моделирования алгоритмов поиска, дающий возможность расширить сферу применения моделей, путем снятия ряда ограничений на параметры алгоритмов.
Научная новизна результатов диссертации заключается:
— в определении базовых алгоритмов поиска информации в распределенных системах;
— в установлении зависимостей между параметрами алгоритмов, априорной информацией о нахождении искомых данных, имеющейся у пользователя, и их характеристиками;
— в разработке на этой основе математических и имитационных моделей для оценки и оптимизации характеристик алгоритмов поиска.
Практическая значимость и реализация результатов работы состоит в разработке моделей поисковых процедур, позволяющих:
— прогнозировать продолжительность поиска требуемых данных и нагрузку на компьютерную сеть в распределенной интегрированной системе, в зависимости от имеющейся априорной информации о размещении искомых данных, алгоритма поиска;
— обоснованно выбирать параметры алгоритмов поиска и методы представления дополнительной информации для обработки поисковых запросов для конкретных информационных систем.
Достоверность и обоснованность результатов диссертации основаны:
— на соответствии построенных математических и имитационных моделей реальным процессам, происходящим в распределенных системах при поиске информации;
— на строгом математическом обосновании построенных моделейсогласованностью с имеющимися результатами других авторов;
— на соответствии результатов расчетов по математическим и имитационным моделям и, наконец, данными об их практическом применении при анализе поисковых процедур в реальных системах.
Апробация работы. Основные положения и результаты диссертации докладывались на научно-техничесих конференциях студентов, аспирантов и молодых специалистов МИЭМ (Москва, 2007, 2008 г. г.), Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций, (Рязань 2008 г.), обсуждались на научно-технических семинарах кафедры ВСиС МИЭМ.
Публикации. Основные результаты диссертационной работы отражены в 10 опубликованных печатных работах, в том числе в двух рецензируемых изданиях, рекомендованных ВАК.
Результаты работы могут быть полезны администраторам компьютерных сетей и распределенных интегрированных информационных систем при организации поиска информации и снижении нагрузки на ресурсы компьютерной сети.
ЗАКЛЮЧЕНИЕ
ОБЩИЕ ВЫВОДЫ.
1. Проведен анализ нагрузки на компьютерную сеть, создаваемой при поиске информации, показавший, что при поиске возникают значительные объемы дополнительного трафика, связанного с необходимостью формирования большого количества запросов, увеличивается нагрузка на серверы обработки запросов, что приводит к ухудшению характеристик сети и качества обслуживания пользователей.
2. Показано, что длительность поиска во многом зависит от методов и средств формирования и обработки поисковых запросов, формы представления и объемов дополнительной информации в поисковых системах. Это делает целесообразным построение корпоративных интегрированных информационных систем, ориентированных на обработку информации, связанной с однородными предметными областями, когда возможна однозначная интерпретация поисковых запросов и получение более точной априорной информации о размещении искомых данных.
3. Анализ поисковых процедур, наиболее распространенных в распределенных системах, позволил выделить базовые (типовые) алгоритмы поиска, отличающиеся количеством используемой априорной информации о размещении искомых данных, объемом вспомогательных данных для ранжирования наличием дополнительных средств обработки и формирования поисковых запросов.
4. Разработан комплекс математических моделей для расчета вероятностных и временных характеристик базовых алгоритмов поиска, учитывающий специфику обработки и формирования поисковых запросов, позволяющий оптимизировать параметры алгоритмов для минимизации нагрузки на компьютерную сеть.
5. Разработано специализированное программное обеспечение для расчетов по моделям, проведения имитационного моделирования алгоритмов поиска, что расширяет и дополняет возможности математических моделей, дает возможность увеличить число факторов принимаемых во внимание при проведении расчетов характеристик алгоритмов поиска.
6. Проведена апробация результатов при анализе специализированных поисковых систем, ориентированных на обслуживание запросов населения при обработке персональных данных и экономической информации.
Список литературы
- Антопольский А.Б., Ауссем В. И., Блау С. А., Жежель А. И., Отчет о результатах работ по гранту РФФИ № 04−07−90 087 «Исследование и разработка системы метаданных для электронных информационных ресурсов и сервисов в фундаментальной науке», Москва, 2004 г (4).
- Дж. Брауде Эрик, Технология разработки программного обеспечения, СПб.: Изд-во «Питер Принт», 2004. 323с
- Альянах И.Н. Моделирование вычислительных систем. Л.: Машиностроение, 1988.-223 с.
- Арсеньев Б.П., Яковлев С. А. Интеграция распределенных баз данных. -СПб.: Изд-во «Лань», 2001, — 464 с.
- Атре Ш. Структурный подход к организации баз данных. М.: Финансы и статистика, 1983.
- Афанасьев В.И., Фуфлыгин М. Д. Информационные технологии в социально-экономической сфере. М.: МИЭМ, 1998.
- Ашманов И. С., Иванов А. А. Продвижение сайта в поисковых системах. — М.: Вильяме, 2007. — 304 с.
- Бакусов Л.М. и др. Математические модели информационных процессов и управления в АСУ: Учебн. пособие. Уфа, 1991.
- Балыбердин В.А. Оценка и оптимизация характеристик систем обработки данных. М.: Радио и связь, 1987. — 176 с.
- Байков Владимир Дмитриевич Интернет. Поиск информации. Продвижение сайтов. — СПб.: БХВ-Петербург, 2000. — 288
- Башарин Г. П., Бочаров П. П., Коган Я. А. Анализ очередей в вычислительных сетях. Теория и методы расчета. М.: Наука, 1989. — 336 с.
- Бертсекас Д., Галагер Р. Сети передачи данных.: Пер. с англ. М.: Мир, 1989.-544 с.
- Блэк Ю. Сети ЭВМ: протоколы, стандарты, интерфейсы. / Пер. с англ. -М.: Мир. 1990. -510с.
- Бочаров П.П., Печинкин A.B. Теория массового обслуживания. М.: Изд-во РУДН, 1995.-529 с.
- Вишневский В.М. Теоретические основы проектирования компьютерных сетей. М.: Техносфера, 2003 .-512с.
- Галиев Т.Э. Применение метаданных для организации доступа в распределенных системах. // Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов, Рязань, РГРТУ, 2008, — С. 97−99.
- Галиев Т.Э. Функции метаданных в распределенных системах. // Сборник трудов кафедры «Вычислительные комплексы системы и сети» МИЭМ. Москва, МИЭМ, 2008. С.
- Галиев Т.Э. Современные технологии передачи данных Triple Play и NGN. // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Москва, МИЭМ, 2007.-С. 164.
- Галиев Т.Э. Проблемы создания интегрированных информационных систем. // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Москва, МИЭМ, 2008. С. 158 — 159.
- Галиев Т.Э. Оценка эффективности использования метаданных при поиске информации в распределенных системах. Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов. Рязань, РГРТУ, 2009. С. 105−110.
- Галиев Т.Э. Рост количества поисковых запросов в интернете. // Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов. Рязань, РГРТУ, 2011. С. 6163.
- Галиев Т.Э. Организация поиска в интегрированных распределенных системах // Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов. Рязань, РГРТУ, 2011. С. 126−129.
- Галиев Т.Э. Имитационные модели поиска информации в корпоративных поисковых системах. // Программная инженерия, № 1, 2012. С. 46−47.
- Галиев Т.Э. Методы ранжирования поисковой информации в корпоративных поисковых системах. // Открытое образование, № 1, 2012. С. 46−51.
- Гарсиа-Молина Г., Ульман Дж., Уидом Дж. Системы баз данных. Полный курс = Database Systems: The Complete Book. — Вильяме, 2003. — 1088 с.
- Гуляев Ю.В., Олейников А. Я., Филинов E.H. Развитие и применение открытых систем в Российской Федерации. // Информационные технологии и вычислительные системы. М.:1995. Том 1, N 1, с. 1−12.
- Гусев В. С. Яндекс: эффективный поиск информации в Интернет. Краткое руководство. — М.: Диалектика, 2007. — 224 с.
- Демидович Е.М. Основы алгоритмизации и программирования. Язык СИ: учебн. Пособие. СПб.: БХВ-Петербург, 2008.
- Дейт К. Введение в системы баз данных. 6-е изд. М.: Диалектика, 1998. -784 с.
- Дирк Слема, Джейсон Гарбис, Перри Рассел. Корпоративные системы
- Джавян А.Ю., Ягджян В. Г. Методика построения интеллектуальной информационно-поисковой системы, основанной на модульно-распределенной архитектуре // Научно-техническая информация. 2002. № 2. 20−23 с.
- Калиниченко JI.A., Методы и средства интеграции неоднородных баз данных, 1983.
- Калиниченко Л.А., Костромина O.E., Хитрова О. Н. Концепции построения систем управления распределенными БД// Прикладная информатика. М.: Финансы и статистика.- 1984.
- Камер Дуглас Э. Компьютерные сети и Internet. Разработка приложений для Internet.: Пер. с англ. М.: Изд. дом «Вильяме», 2002. — 640 с.
- Кемени Дж., Снелл Дж. Конечные цепи Маркова. -М.: Наука, 1970.-272 с.
- Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. — М.: Диалектика, 2007. — 272 с.
- Когаловский М.Р. Энциклопедия технологий баз данных. — М.: Финансы и статистика, 2002. — 800 с.
- Коннолли Т., Бегг К. Базы данных. Проектирование, реализация и сопровождение. Теория и практика = Database Systems: A Practical
- Approach to Design, Implementation, and Management. — 3-е изд. — M.: Вильяме, 2003. — 1436 с.
- Кузнецов С. Д. Основы баз данных. — 2-е изд. — М.: Интернет-университет информационных технологий- БИНОМ. Лаборатория знаний, 2007. — 484 с.
- Ландэ Д. В. Поиск знаний в Internet. — M.: Диалектика, 2005. — 272 с.
- Маннинг К., Рагхаван П., Шютце X. Введение в информационный поиск. — Вильяме, 2011.
- Мартин Дж. Вычислительные сети и распределенная обработка данных /М.: «Финансы и статистика», 1985.
- Моисеев Н.Н., Иванилов Ю. П., Столярова Е. М. Методы оптимизации. М.: Наука, 1978.-352 с.
- Моисеев Н.Н. Математические задачи системного анализа. М.: Наука, 1981.-488 с.
- Мышкис А. Д. Элементы теории математических моделей. — 3-е изд., испр. — М.: КомКнига, 2007. — 192 с.
- Нейман В. И. Структуры систем распределения информации. М.: Связь, 1975.- 264 с.
- Николаев В.И., Брук В. М. Системотехника: методы и приложения. Л.: Машиностроение, 1985. — 199 с.
- Просиз Джеф, Программирование для Microsoft .NET = Programming Microsoft .NET. — M.: Русская редакция, 2003. — С. 704.
- Растригин Л. А. Современные принципы управления сложными объектами. М:. Сов. радио, 1980.
- Ретано А., Слайс Д., Уайт Р. Принципы проектирования корпоративных IP-сетей.: Пер. с англ. М.: Изд. дом «Вильяме», 2002, — 368 с.
- Садовский В.Н. Основания общей теории систем.-М.: Наука, 1974.- 280 с.
- Самарский А. А., Михайлов А. П. Математическое моделирование. Идеи. Методы. Примеры. — 2-е изд., испр. — М.: Физматлит, 2001.
- Семенов Ю.А. Протоколы и ресурсы Internet. M.: Радио и связь, 1996. -320 с.
- Семененко A.B. Сравнение и анализ различных программных решений в области поиска данных // Научно-техническая информация. 2002. № 12. -28−32 с.
- Советов Б. Я., Яковлев С. А. Моделирование систем: Учеб. для вузов — 3-е изд., перераб. и доп. — М.: Высш. шк., 2001. — 343 с.
- Сипсер Р. Архитектура связи в распределенных системах.- М.: Мир, 1981.
- Строгалев В. П., Толкачева И. О. Имитационное моделирование. — МГТУ им. Баумана, 2008. — С. 697−737.
- Танненбаум Э., М. Ван Стен. Распределенные системы. Принципы и парадигмы. СПб.: Питер, 2003. — 877 с.
- Трусов П.В. Введение в математическое моделирование. Учебное пособие. — М.: Логос, 2004.
- Ульман Дж. Основы систем баз данных: Пер. с англ. М.: Финансы и статистика. 1983. — 572 с.
- Уотке Кристина, Информационная архитектура, чертежи для сайта. М.: Кудиз-Образ. — 2004. — 299 с.
- Уэлдон Д.-Л. Администрирование баз данных: Пер. с англ. М.: Финансы и статистика. — 1984. — 360 с.
- Фрэнк Г., Фриш И. Сети, связь и потоки. Пер. с англ. М.: Связь, 1978. -448 с.
- Хемди A. Taxa Глава 18. Имитационное моделирование // Введение в исследование операций = Operations Research: An Introduction. — 7-е изд. — M.: «Вильяме», 2007. — С. 697−737.
- Шварц M. Сети связи: протоколы, моделирование и анализ: В 2 ч.- М.: Наука, 1992. 336 с.
- Шварцман М.Е. К вопросу каталогизации ресурсов Интернета // Мир библиографии. 1998. -N5- Шварцман М. Е. Использование метаданных для каталогизации российских ресурсов Интернета //Электронные библиотеки. — 1998. — Т. 1, Вып. 2.
- ANSI/X3/SPARC Study Group on Data Base Management Systems. Interim Report. FDT Bull. ASM-SIGMOD. v. 7, no. 2 (1975), p. 1−140.
- Adler R. Distributed Coordination Model for Client/Server Computing/ IEEE Computer, vol. 28, N4, pp. 14−22.
- Anderson R. Security Engineering A Guide to Building Dependable Distributed Systems. New-York: John Wiley, 2001.
- Buretta M. Data Replication: Tools and Techniques for Managing Distributed Information. New York: John Wiley, 1997.
- Cheng P. A. Security Architecture for the Internet Protocol. IBM Systems Journal, N1, 1998.
- Cristian F. Understanding Fault-Tolerant Distributed Systems. Commun. ACM, vol. 34, N2, hh. 56−78.
- Emmeich W. Engineering Distributed Objects. New-York: John Wiley, 2000.
- Forman I.R. On the design of large distributed systems // Proc. IEEE CS 1986 Int. Conf. on Computer Languages, Miami, FL.-1986.-P.84−95.
- Ford W. Computer Communications Security Principles, Standard Protocols and Techniques. New Jersey: Prentice-Hall, 1994.
- James D. McCabe. Practical Computer Network Analysis and Design. Morgan Kaufmann Publishing company, 1998.
- Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985, p.67−84.
- Oracle. Database Administrator’s Guide. Oracle Corp.- 1984.
- Salton G., C.Buckley. Term-Weighting Approachs in Automatic Text Retrieval. Information Processing & Management, 24(5), pp. 513−523, 1988.
- Stallings W. Data and Computer Communications, Fifth Edition. Upper Saddle River, NJ: Prentice Hall, 1997.