Модели и алгоритмы специализированного поиска образовательных Интернет порталов для снижения загрузки телекоммуникационной сети
На базе разработанных машинно-ориентированных алгоритмов создан программный комплекс оценки качества образовательных Интернет порталов. Программный комплекс представляет собой полнофункциональную поисковую машину, реализующую поиск в специализированной базе данных с возможностью добавления и изменения существующей информации. В процессе обработки информации происходит оценка качества портала… Читать ещё >
Содержание
- 1. АНАЛИТИЧЕСКИЙ ОБЗОР
- 1. 1. Интернет порталы
- 1. 2. Общие сведения о поисковых системах
- 1. 2. 1. Индексированные каталоги
- 1. 2. 2. Тематические коллекции ссылок
- 1. 2. 3. Поисковые машины
- 1. 2. 4. Основы работы поисковых машин
- 1. 2. 5. Построение индекса
- 1. 2. 6. Поиск по индексу
- 1. 2. 7. Метапоисковые системы
- 1. 2. 8. Онлайновые энциклопедии и справочники
- 1. 3. 1. Содержательное описание алгоритмов
- 1. 3. 1. 1. Алгоритм FOREL
- 1. 3. 1. 2. Алгоритм FOREL
- 1. 3. 1. 3. Алгоритм SKAT
- 1. 3. 2. Поиск в Х — пространстве
- 1. 3. 2. 1. Содержательное описание алгоритма KRAB
- 1. 3. 2. 2. Проверка качества таксономии алгоритмом KRAB
- 2. МАТЕМАТИЧЕСКИЕ МОДЕЛИ РАСЧЕТА ХАРАКТЕРИСТИК ПРОЦЕДУР ПОИСКА НА ИНТЕРНЕТ ПОРТАЛАХ
- 3. 1. Анализ требований к системе сравнительного анализа образовательных порталов в телекоммуникационных сетях
- 3. 2. Разработка критериев оценки образовательных порталов с помощью бальных оценок
- 3. 3. Естественные единицы измерения критериев
- 3. 4. Формальные постановки задачи
- 3. 4. 1. Многокритериальная постановка задачи
- 3. 4. 2. Однокритериальные постановки задачи ранжирования
- 3. 5. Описание алгоритма сравнительного анализа качества Интернет порталов
- 4. 1. Существующие технологии формирования динамических страниц в сети Интернет
- 4. 2. Дополнительные программные средства
- 4. 2. 1. MySQL -решение для WEB
- 4. 2. 2. Поддержка работы с транзакциями
- 4. 3. Типовая методика выбора образовательных порталов
- 4. 3. 1. Определение оптимального упорядочения порталов
- 4. 4. Интерфейс и структура БД
Модели и алгоритмы специализированного поиска образовательных Интернет порталов для снижения загрузки телекоммуникационной сети (реферат, курсовая, диплом, контрольная)
С каждым годом объемы и разнообразие представляемой в Интернет информации постоянной увеличивается. В результате в Интернет сегодня размещены миллионы сайтов, причем наряду с современной актуальной информацией, имеется много устаревших ресурсов, немало мусора и недобросовестной рекламы. При этом мало кто озабочен тем, чтобы избежать дублирования информации или следовать стандартам, принятым на сайте соседа. Существует мнение, что в Интернет сети есть все, но найти там требуемые данные в обозримое время практически невозможно. Так что проблема поиска информации в Интернет является одной из самых актуальных.
При этом в современной Интернет среде одной из наиболее важных проблем является перегрузка телекоммуникационной системы (каналов связи). Во многом, перегрузка обусловлена нерациональной работой клиентов Интернет, что связано с неэффективными процедурами поиска требуемой информации, которые предусматривают последовательный слабо управляемый просмотр различных ресурсов (порталов, сайтов, страниц).
На сегодняшний день задачу поиска необходимой информации в Интернете решают специальные поисковые системы. Существует достаточно большое количество таких систем, осуществляющих поиск информации как во всем пространстве Интернет ресурсов, так и в его русскоязычной части. Каждая поисковая система реализует свой уникальный поисковый алгоритм, являющийся ноу-хау разработчиков. Современные поисковые системы позволяют производить лексический разбор искомого текста, производить поиск по нескольким словоформам, находить ошибки в запросах пользователей и предлагать варианты их исправления, задавать различные режимы поиска информации. Тем не менее, принципы работы всех поисковых систем практически идентичны: в основе работы каждой из них лежит индексированный каталог или база данных, в которой собрана информация об известных поисковой машине страницах, и где, собственно, происходит поиск.
Возможно, однако, хотя бы частично разгрузить телекоммуникационную среду путем сокращения числа просматриваемых Интернет ресурсов и упорядочения поиска за счет их предварительного анализа и ранжирования. Для этого целесообразно создавать специализированные поисковые системы и проводить поиск во множестве специализированных Интернет ресурсов, сформированных по заданным признакам, т. е. создавать тематические поисковые системы. В таких системах можно значительно повысить эффективность поиска, применяя специальные оптимизирующие алгоритмы классификации собираемых о ресурсах данных, позволяющие сократить число просматриваемых ресурсов, сделать поиск более целенаправленным.
Здесь в качестве системы специализированных Интернет ресурсов рассматривается распределенная система образовательных порталов. Система, к настоящему времени, насчитывает значительное количество реальных порталов действующих на территории России и хранящих специальную информацию, поиск которой обычными способами приводит к необходимости просматривать большое число посторонних Интернет ресурсов.
Однако, наряду с заметным сокращением числа обращений в Интернет при поиске, подготовительные процедуры для поиска в рассматриваемой системе требуют предварительного сбора и обработки значительных объемов информации, что загружает телекоммуникационную систему, поисковый сервер. Причем загрузка в значительной степени зависит от установленных критериев и алгоритмов оценки собираемой информации. Таким образом, в рамках заданной системы, необходимо организовать процедуры сбора необходимых данных с входящих в нее порталов, провести классификацию порталов по этим данным и предоставить пользователю системы возможность обращения непосредственно к наиболее ценному порталу.
Поскольку количество и объемы Интернет ресурсов постоянно возрастают, то повышение эффективности поиска требуемой информации будет актуальной задачей, как на сегодняшний день, так и на обозримую перспективу.
В связи с этим, тематика диссертационной работы, направленная на создание специализированной поисковой системы ориентированной на поиск в ограниченной среде образовательных порталов, актуальна и имеет важное практическое значение.
Целью работы является создание моделей и алгоритмов позволяющих:
• осуществлять поиск информации в сформированной системе образовательных порталов;
• минимизировать загрузку телекоммуникационной сети при просмотре пользователями предлагаемых источников информации;
• производить оценку каждого найденного пункта по заранее определенным критериям.
В качестве предмета поиска были выбраны образовательные ресурсы Интернет. Таким образом, основной идеей работы является разработка математического аппарата и создание на его основе программных средств, которые должны решать задачи поиска наиболее подходящего образовательного портала обеспечивающего минимальное число обращений к телекоммуникационной сети.
Для достижения поставленной цели в работе сформулированы и решены следующие задачи:
• проведен анализ современных поисковых систем, используемых в Интернет среде, выявлены их достоинства и недостатки;
• разработаны алгоритмы оценки близости показателей образовательных порталов к требуемым и их ранжирования;
• разработан комплекс математически моделей для вычисления близости показателей образовательных порталов к требуемым и оценки эффективности различных процедур поиска информации в системе образовательных порталов;
• разработано алгоритмическое и программное обеспечение для реализации разработанных методов и моделей при создании специализированной поисковой системы.
На защиту выносятся:
1. Классификация основных компонент образовательных порталов.
2. Математические модели и алгоритмы оценки близости показателей образовательных порталов к требуемым.
3. Математические модели для оценки загрузки телекоммуникационной сети и длительности сеанса поиска при различных процедурах поиска образовательных порталов.
4. Разработанная методика получения и обработки экспертных оценок близости основных показателей образовательных порталов к требуемым.
5. Средства программной поддержки автоматизированной системы ранжирования образовательных порталов.
Научная новизна полученных результатов заключается в следующем:
1. Разработаны базовые принципы оценки близости основных показателей образовательных порталов к требуемым.
2. Разработана методика получения и обработки экспертных оценок основных компонент образовательных порталов.
3. Разработаны математические модели оценки эффективности процедур поиска путем анализа требуемого количества запросов и длительности сеанса поиска.
4. Создан математический аппарат сравнительной оценки близости основных показателей образовательных порталов к требуемым. Практическая значимость работы заключается в разработке на базе полученных теоретических результатов, алгоритмического и программного обеспечения, предназначенного для оценки основных показателей образовательных порталов и их ускоренного поиска.
Достоверность и обоснованность результатов диссертации основаны на применении математических моделей, отражающих специфику исследуемых процессов, соответствии практических и теоретических результатов, опубликованным в печати данным, и подтверждается положительными данными о практическом применении в реальной системе образовательных порталов.
Методы исследований. При решении поставленных в диссертации задач применялись методы теории систем, теории множеств, теории вероятностей, теории очередей, математического программирования, а также методы создания баз данных и разработки приложений.
Апробация работы. Основные положения диссертации докладывались на семинарах ФГУ ГНИИ ИТТ «Информика», Международной конференции «Информационные технологии и системы: наука и практика» (Владикавказ, 2002), Международной научно-технической конференции «Информационные технологии и системы: новые информационные технологии в науке, образовании, экономике» (Владикавказ, 2003), Всероссийской научно-методической конференции «Телематика» (Санкт-Петербург,.
2002,2003,2004,2005), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий (Улан-Удэ, 2002.).
Публикации. Результаты диссертационной работы отражены в 9 опубликованных печатных работах.
ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ.
РАБОТЫ.
1. Проведен анализ существующих подходов к организации поиска информации в Интернет среде. Показано, что известные поисковые системы не всегда эффективны и их применение приводит к высокой загрузке телекоммуникационной системы из-за необходимости просматривать большое количество Интернет ресурсов. Для сокращения числа запросов при поиске информации и повышения эффективности и качества поиска предложено создавать специализированные поисковые системы, ориентированные на однотипную информацию, для поиска которой можно создавать более эффективные поисковые средства.
2. Проведен анализ наиболее распространенных алгоритмов поиска, случайный поиск, поиск в заданном порядке (по списку), направленный поиск, когда однозначно определен адрес искомых данных. Показано, что для сокращения длительности сеанса поиска и сокращения загрузки каналов связи необходимо проводить предварительный анализ Интернет ресурсов, ранжировать поисковые списки.
3. Исследована проблема анализа и сравнительной оценки качества Интернет порталов в Я пространстве: методы таксономии были применены для решения задачи оценки разнородных критериев с целью их обобщенного сравнения. Разработаны различные варианты постановки и решения задач оценки качества образовательных Интернет порталов, что позволило разработать машинно-ориентированные алгоритмы оценки качества и ранжирования образовательных Интернет порталов.
4. Разработаны алгоритмы и математические модели для количественной оценки близости заданного набора показателей образовательных Интернет порталов к аналогичному набору требуемых (искомых) показателей. Модели дают возможность проводить ранжирование порталов в заданной системе показателей и составлять оптимальные списки поиска.
5. Разработана структура специализированной базы данных, содержащей информацию о содержании образовательных Интернет порталов, которую можно использовать при обработке поисковых запросов для сокращения длительности сеанса поиска и числа запросов к порталам, повышения качества поиска требуемых данных.
6. На базе разработанных машинно-ориентированных алгоритмов создан программный комплекс оценки качества образовательных Интернет порталов. Программный комплекс представляет собой полнофункциональную поисковую машину, реализующую поиск в специализированной базе данных с возможностью добавления и изменения существующей информации. В процессе обработки информации происходит оценка качества портала с использованием разработанных критериев качества, позволяющих оценить портал с учетом его направленности и особенностей сферы образования.
7. Проведены экспериментальные исследования, доказывающие эффективность предложенного в работе подхода.
Широкое распространение предлагаемой в диссертации технологии поиска на базе оценки качества информационных порталов позволит сократить затраты финансовых средств и времени на поиск нужной информации, и, как следствие, повысит эффективность использования ресурсов применяемых вычислительных средств.
Список литературы
- Айзерман А.А., Браверман Э. М., Розоноэр Э. И. Метод потенциальных функций в теории обучения машин. — М.: Наука, 1970.
- Андерсон Т.В. Введение в многомерный статистический анализ. М. Физматиздат 1963 г.
- Аркадьев А.Г., Браверман Э. М. Обучение машины распознаванию образов.
- Банник В.Н., Червоненкис А. Я. Теория распознавания образов. М. Наука, 1974.
- Бонгард М.М. Проблема узнавания. М. Наука, 1967.
- Бочаров П.П., Печинкин А. В. Теория массового обслуживания. — М.: Изд-воРУДН, 1995.-529 с.
- Вишневский В.М. Теоретические основы проектирования компьютерных сетей. -М.: Техносфера, 2003. 512с.
- Волошин Г. Я., Бурлаков И. А., Косенкова С. Т. Статистические методы решения задач распознавания, основанные на аппроксимационном подходе. Владивосток: ТОЙ ДВО РАН, 1992.
- Гладун В.П. Планирование решений. Киев, Наукова думка. 1987.
- Ю.Горелик A. JL, Скрипкин В. А. Методы распознавания. М.: Высш. шк., 1977.
- Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976.
- В.Н.Елкина, Загоруйко Н. Г., Новоселов Ю. А. Математические методы агроинформатики. Тр. ИМ СО АН СССР, Новосибирск, 1987 г.
- Елкина В.Н., Загоруйко Н. Г., Куклин А. П. Типы золотоносных территорий Чукотской складчатой области. Сб. «Колыма», N4, Магадан, 1974 г, с.41−45.
- Елкина В.Н., Загоруйко Н. Г. Количественные критерии качества таксономии и их использование в процессе принятия решений. Тр. ИМ СО РАН серия «Вычислительные системы», 1969, вып. 36, Новосибирск, с.29
- Загоруйко Н.Г. Метакритерий для отбора предикатов в алгоритмах прогнозирования. Тр. 3-го Сибирского Конгресса по прикладной и индустриальной математике (ИНПРИМ-98). Новосибирск, 1998, Часть IV, с.95−96
- Загоруйко Н.Г. Методы распознавания и их применение. М.: Сов. радио, 1972.
- Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск, 1999 г.
- Загоруйко Н.Г., Ёлкина В. Н., Емельянов С. В., Лбов Г. С. Пакет прикладных программ ОТЭКС. М.: Финансы и статистика, 1986.
- Загоруйко Н.Г., Заславская Т. И. Распознавание образов в социальных исследованиях. Новосибирск, Наука, 1968 г.
- Кемени Дж., Снелл Дж. Конечные цепи Маркова.- М.:Наука, 1970. 272 с.
- Клейнрок JI. Вычислительные системы с очередями. Пер. с англ. Под ред. Б. С. Цыбакова.- М.: Мир. 1979. 600 с.
- Лбов Г. С. Методы обработки разнотипных экспериментальных данных. М. Наука. 1967.
- Мамчур. Е. А. Проблема выбора теории. М. Наука 1975.
- Моисеев И.Н. Алгоритмы развития М., Наука 1987.25.0лифер В.Г., Олифер Н. А. Компьютерные сети. Принципы, технологии, протоколы. СПб.: Питер, 1999. 672 с.
- Патрик Э. Основы теории распознавания образов. М.: Сов. радио, 1980. Перевод с английского Киев, Техника, 1965 г.
- Себастьян Г. С. Процессы принятия решений при распознавании образов.
- Танненбаум Э., М. Ван Стен. Распределенные системы. Принципы ипарадигмы. СПб.: Питер, 2003. — 877 с.
- Фу К. С. Последовательные методы в распознавании образов и обучении машин. М.: Наука, 1971.
- Фу К. С. Структурные методы в распознавании образов. М.: Мир, 1977.31 .Материалисты древней Греции. Изд. «Мир», Москва, 1957.
- N.G.Zagoruiko, T.I.Zaslavska. On possibility of pattern recognition methods utilization in sociological researh. Int.J."Quanlity and Quantity" v. IV (1970), n.2, pp. 365−374.
- Воробьева Г. И., Седова Т.JI. Технологии определения рейтингов порталов //Научно-информационный журнал «Вестник Московского государственного университета леса -Лесной вестник» № 4 (53) Издательство МГУ Л, 2007 г. с. 161−164
- Седова Т.Л. Математическое моделирование образовательных порталов //Материалы Международной конференции «Информационные технологии и системы: наука и практика. Владикавказ, Изд-во Владикавказского научного центра, 2002, с.166−169.
- Седова Т.Л. Образовательные порталы — краеугольный камень открытого образования//Материалы международной конференции «Новые информационные технологии в науке, образовании, экономике» Владикавказ, СКГТУ: Изд-во «Терек» 2002 г., с.8−9.
- Седова Т.Л. Структура и информационное наполнение образовательного портала// Материалы всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий», изд-во ВСГТУ, Улан-Удэ, 2002. с.293−295.
- Седова Т. JI. Создание современных Интернет-порталов // Труды Всероссийской научно-методической конференции «Телематика 2002» Санкт-Петербург, 2002 с.88−89.
- Седова Т.Д. Пути создания оптимального портала//Труды X Всероссийский научно-методической конференции «Телематика 2003» Санкт-Петербург, 2003 с. 171−172.
- Седова T.JI. Принципы построения механизма поиска образовательных ресурсов на образовательных сайтах// Труды XI Всероссийской научно-методической конференции «Телематика 2004» Санкт-Петербург, 2004 с.116−117.
- Седова T.JI. Разработка критериев оценки образовательных порталов //Труды XII Всероссийской научно-методической конференции «Телематика 2005», Санкт-Петербург, 2005 с. 138.