Информационная технология комплексной обработки информации в рамках логико-аналитической системы на основе расширенных семантических сетей
В-третьих, не реализована аналитическая обработка слабоструктурированной информации, а именно биллингов телефонных переговоров и банковских переводов. В органах внутренних дел есть потребность в разработке автоматизированных средств аналитической обработки этой информации. Биллинги предоставляются, соответственно, операторами сотовой связи или банками. В зависимости от оператора биллинг может… Читать ещё >
Содержание
- СПИСОК СОКРАЩЕНИЙ
- ГЛАВА I. Особенности систем, основанных на технологии БЗ
- 1. Основные сущности предметной области
- 2. Анализ возможностей существующих систем
- ВЫВОДЫ К ГЛАВЕ I
- ГЛАВА II. Логико-аналитическая обработка разнородной информации
- 1. Режимы анализа текстов на естественном языке и детализаций
- 2. Кластерный анализ детализаций телефонных переговоров
- ВЫВОДЫ К ГЛАВЕ II
- ГЛАВА III. Оптимизация информационной компоненты Системы
- 1. Перенос хранилища знаний из плоских файлов в СУБД Oracle
- 2. Интеграция Системы с внешними базами данных
- ВЫВОДЫ К ГЛАВЕ III
- ГЛАВА IV. Программная реализация разработанной технологии
- 1. Основные компоненты Системы
- 2. Интерфейс взаимодействия пользователя с Системой
- ВЫВОДЫ К ГЛАВЕ IV
Информационная технология комплексной обработки информации в рамках логико-аналитической системы на основе расширенных семантических сетей (реферат, курсовая, диплом, контрольная)
Актуальность работы. В настоящее время наблюдается повсеместный лавинообразный рост потоков разнородной информации, состоящей из сложноорганизованных документов, различных отчетов, электронных писем и пр. [3]. В связи с этим актуальным является разработка технологий и программных средств комплексной обработки разнородной информации. Например, в криминальной милиции примером разнородной’информации могут быть тексты на естественном языке (сводки происшествий, обвинительные заключения, справки по уголовным делам), данные из различных справочников (телефоны, адреса), биллинги телефонных переговоров и др. Информация может храниться в файлах, в Базах Данных (БД) или извлекаться из сети Интернет. Её обработка должна быть максимально автоматизирована, что зачастую предполагает решение сложных логико-аналитических задач (поиск объектов, анализ их связей и др.). Перспективным является разработка технологии и систем, позволяющих осуществить на единой основе агрегацию, хранение и логико-аналитическую обработку разнородной информации достаточно унифицированными средствами [91].
Такая система, ориентированная на обработку текстов естественного языка (ЕЯ), разработана в Институте Проблем Информатики Российской Академии Наук в рамках проекта «Аналитик» и связанных с ним проектов «Криминал», «Икс», «Поток». Созданная система «Аналитик» нашла применение в ГУВД, МВД, в области управления персоналом и анализа СМИ.
Ее особенность заключается в использовании семантико-ориентированного лингвистического процессора, позволяющего отобразить тексты на ЕЯ на структуры знаний, которые образуют Базу Знаний (БЗ). Для представления информации в БЗ используются расширенные семантические сети (РСС). Их отличие от обычных семантических сетей состоит в использовании многоместных фрагментов, связывающих вершины, и кодов фрагментов, которые тоже являются вершинами. Такие сети позволяют с достаточной точностью представлять объекты и их связи, которые выражаются в ЕЯ с помощью различных форм, в том числе форм с отглагольными существительными, оборотами с инфинитивами, сложноподчиненными предложениями. Связанными могут быть не только объекты, но и сами действия, в которых эти объекты принимают участие.
Обработка информации в системе «Аналитик» осуществляется с помощью* специального языка манипуляции знаниями Декл, созданного для обработки структур знаний (РСС). На языке Декл разработано много уникальных программ семантического поиска в БЗ (поиск похожих объектов и ситуаций, поиск по связям и по приметам), программ аналитической обработки и экспертных оценок (семейство оболочек экспертных систем). Использование в качестве БЗ обычных семантических сетей, языков логики предикатов, фреймов приводит к существенной потере информации, содержащейся в текстах на ЕЯ, и соответственно, к ограничению круга решаемых задач.
Представляется перспективным дальнейшее развитие систем, основанных на структурах знаний в виде РСС. Основными направлениями их развития должны быть:
— обработка разнородной информации в рамках, единой БЗ с использованием уже имеющихся средств;
— разработка средств решения новых логико-аналитических задач;
— обеспечение взаимодействия таких систем с внешними БД.
В этом случае пользователь-аналитик будет получать из одного источника полную информацию в наиболее удобном виде.
В тоже время в системе «Аналитик» имеется ряд проблем. Во-первых, для хранения структур знаний используется своя внутренняя БД, основанная на плоских файлах. Структуры знаний подкачиваются по мере необходимости, образуя активную часть БЗ, в которой осуществляется обработка. Т. е. БД играет роль хранилища знаний. Учитывая объемы существующих потоков данных, возникает необходимость использовать в качестве хранилища знаний современные СУБД, обеспечивающие работу с большими объемами информации (например, Oracle, MSSQL).
Во-вторых, не реализовано взаимодействие с внешними источниками данных: телефонными справочниками, адресными книгами и другими данными, введенными в соответствующие БД («Кронос», «МГТС», «ГИБДД») и широко используемыми в криминальной милиции. В этом случае, используя внешние БД, следователь-аналитик сможет получить наиболее полную информацию об интересующем его объекте. В тоже время перекачать всю эту информацию в БЗ не представляется возможным из-за ее большого объема, ограниченного доступа и др. Отсюда необходимость организации эффективного взаимодействия внешних БД с БЗ системы.
В-третьих, не реализована аналитическая обработка слабоструктурированной информации, а именно биллингов телефонных переговоров и банковских переводов. В органах внутренних дел есть потребность в разработке автоматизированных средств аналитической обработки этой информации. Биллинги предоставляются, соответственно, операторами сотовой связи или банками. В зависимости от оператора биллинг может иметь различную структуру. Возникает задача — разработки интегрированного универсального средства извлечения и представления в БЗ информации из биллингов, а также логико-аналитических режимов для ее анализа.
Для решения перечисленных задач необходимо развитие существующей технологии в направлениях комплексной и логико-аналитической обработки. Эти задачи решаются в рамках данной диссертационной работы.
Целью диссертации является разработка информационной технологии комплексной обработки разнородной информации большого объема в рамках системы, основанной на структурах знаний в виде РСС (далее Система).
Основными задачами исследования являются:
1. Анализ современных аналитических комплексов, основанных на технологии БЗ и обеспечивающих обработку на единой основе разнородной информации (Глава I).
2. Анализ существующих методов обработки разнородной информации, которые возможно реализовать в Системе (Глава I).
3. Исследование структур биллингов телефонных переговоров и банковских счетов с целью создания унифицированного процессора для их преобразования в единую форму на уровне структур знаний — РСС (Глава II).
4. Обеспечение возможности совместного использования структур знаний, представляющих тексты на ЕЯ, биллинги телефонных переговоров и банковских переводов для решения существующих задач Системы (Глава II).
5. Изучение специальных задач пользователей, основанных на информации о телефонных переговорах и банковских переводах, для разработки новых средств для их решения в рамках Системы (Глава II).
6. Разработка новых логико-аналитических режимов обработки информации, представленной в виде структур знаний, в рамках Системы (Глава II).
7. Исследование особенностей представления информации в БЗ и разработка методов представления структур знаний в СУБД Oracle, для повышения эффективности хранилища знаний Системы (Глава III).
8. Исследование информационных процессов, связанных с задачей интеграции данных, и разработка технологии интеграции БЗ Системы с внешними БД, для расширения пространства поиска Системы (Глава III).
Программная реализация компонент информационной технологии комплексной обработки разнородной информации представлена в Главе IV.
Основные выводы по работе следующие:
1. Разработана новая информационная технология комплексной обработки разнородной информации большого объема в рамках Системы, основанной на структурах знаний в виде расширенных семантических сетей.
2. По итогам проведенного исследования систем, основанных на технологии баз знаний, в качестве единого средства представления разнородной информации (текстов на естественном языке, биллингов, данных из внешних баз) предложено использовать расширенные семантические сети.
3. На основе исследования структур биллингов разработан семантический анализатор — интегрированное средство извлечения данных из биллингов и их представления в виде расширенных семантических сетей, что позволило разработать режимы аналитической обработки слабоструктурированной информации в рамках Системы, основанной на структурах знаний.
4. Разработаны методика и алгоритмы решения задачи детализации номерных объектов, позволяющие группировать связанные объекты (телефонные номера, банковские счета) на основе информации из базы знаний.
5. Впервые проведено исследование специфики применения кластерного анализа к биллингам телефонных переговоров. Выявлена комбинация метрики и алгоритма кластерного анализа, позволяющая осуществить оптимальную с точки зрения целевой функции кластеризацию.
6. Разработан режим «Анализ временных совпадений», позволяющий аналитику увидеть временную связь между интересующими его событиями, информация о которых содержится в базе знаний.
7. Предложена методика инкапсуляции структур знаний в реляционную СУБД, что позволяет обеспечить работу Системы с большими объемами данных.
8. Для расширения пространства поиска разработана методика интеграции базы знаний Системы с внешними базами данных на основе редактора шаблонов соединений.
9. Разработана программная реализация предложенной технологии.
ЗАКЛЮЧЕНИЕ
.
В диссертационной работе предложена новая интегрированная информационная технология комплексной обработки разнородной информации в рамках логико-аналитической Системы, основанной на структурах знаний в виде РСС включающая в себя:
— этапы автоматической обработки потоков разнородной информации, существующей в электронном виде;
— методы загрузки информации в хранилище знаний;
— методику и алгоритмы логико-аналитической обработки информации;
— средства визуализации результатов обработки;
— модель хранилища знаний в современной СУБД;
— методику поиска и извлечения информации из внешних БД.
На основе этой технологии могут быть разработаны новые программные комплексы [66], электронные хранилища [69], ориентированные на обработку разнородной информации в различных предметных областях.
Список литературы
- Айвазян С. А., Степанов В. С. Инструменты статистического анализа данных. // Мир ПК, № 08 — М.: Открытые системы, 1997.
- Айвазян С. А., Мхитарян B.C. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. — 1022 с.
- Аносов А. Критерии выбора СУБД при создании информационных систем. Центр Информационных Технологий — Электронный ресурс./ Статья. 2001. Режим доступа: http://citforum.utmn.ru/database/articles/criteria- свободный — Загл. с экрана. — Яз. рус., англ.
- Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. -М.: Мир, 1979. 536 с.
- Башмаков А.И., Башмаков И. А. Интеллектуальные информационные технологии. Учебное пособие. — М.: МГТУ им. Н. Э. Баумана, 2005. — С. 6769.
- Блэкфорд Д., Стрехлоу К. К базам данных завтрашнего дня. Электронный ресурс.- Режим доступа: http://koaP.narod.ru/tehlit/base/bd/06db.htm- свободный. — Загл. с экрана. —Яз. рус., англ.
- Боровиков В. Statistical искусство анализа данных на компьютере (с CD-ROM), 2 издание. СпБ.: Питер, 2003.
- Вежбицкая А. Понимание культур через посредство ключевых слов / Пер. с англ. А. Д. Шмелева. М.: «Языки славянской культуры», 2001. — 288 с.
- Гаврилова Т.А., Хорошевский В. Ф. Базы Знаний интеллектуальных систем Спб.: Питер, 2001. — 384 с.
- Гайдышев И.П. Анализ и обработка данных. Специальный справочник. -СПб.: Издательство «Питер», 2001. — 752 с.
- Гайдышев И.П. Решение научных и инженерных задач средствами Excel, VBA и С++ (+ CD). СПб.: Издательство «БХВ-Петербург», 2004 г. — 512 с.
- Головко В.А., Нейронные сети: обучение, организация, применение. М.: Радиотехника- 2001. — 256 с.
- Григорьев С.Г., Левандовский В. В., Перфилов A.M., Юнкеров А. И. Пакет прикладных программ Statgraphics на персональном компьютере. Практическое пособие по обработке результатов медико-биологических исследований. СПб., 1992. — 104 с.
- Григорьев Ю.А., Ревунков Г. И., Банки данных: Учеб. для вузов. — М.: МГТУ им. Н. Э. Баумана, 2002. 320 с.
- Губин А.В., Краюшкин Д. В., Кузьмин В. В. Выбор технологии построения системы управления знаниями. // Системы и средства информатики. Ин-т пробл. информатики. Вып. 14. М.: Наука, 2004. — С. 145−146.
- Дьяконов В.П. Maple 8 в математике, физике и образовании М.: COJIOH-Пресс, 2003.-656 с.
- Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. — 128 с.
- Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа: пакет ППСА. — М.: Финансы и статистика, 1986. 232 с.
- Ермаков А.Е. Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2007. М.: Наука, 2007.
- Ермаков А.Е. Этапы лингвистического анализа текста в программных продуктах RCO // Русский язык: исторические судьбы и современность. II Международный конгресс исследователей русского языка. Труды и материалы. М.: МГУ, 2004.
- Ермаков А.Е., Киселев C.JI. Лингвистическая модель-для компьютерного анализа тональности публикаций СМИ // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2005. М.: Наука, 2005.
- Жамбю М. Иерархический кластер-анализ и соответствия / М. Жамбю- Перевод с фр. Б. Г. Миркина- Предисл. С. А. Айвазяна, Б. Г. Миркина М.: Финансы и статистика. 1988. — 342 с.
- Загоруйко Н.Г., Елкина В. Н., Лбов Г. С. Алгоритмы обнаружения эмпирических закономерностей. Новосибирск: Наука, 1985. — 110 с.
- Зацман И. М., Курчавова О. А. Лингво-семиотический подход к анализу диаграмм. // Системы и средства информатики. Ин-т пробл. информатики. Вып. 14.-М.: Наука, 2004.-С. 170−185.
- Калиниченко Л. А. СИНТЕЗ: язык определения, проектирования и программирования интероперабельных сред неоднородных информационных ресурсов (вторая редакция) М.: ИПИРАН, 1993. — 121 с.
- Калиниченко Л.А. Методы и средства интеграции неоднородных баз данных. -М.: Наука, 1983. С. 351−411.
- Кандрашева Е.Ю., Литвинцева Л. В., Поспелов Д. А. Представление знаний о времени и пространстве в интеллектуальных системах / Под ред. Д. А. Поспелова. М.: Наука, 1989. — 328 с.
- Киселев С.Л., Ермаков А. Е., Плешко В. В. Поиск фактов в тексте естественного языка на основе сетевых описаний // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. М.: Наука, 2004. — С. 282−285.
- Кластерный анализ Электронный ресурс./ StatSoft Режим доступа: http://www.statsoft.ru/home/textbook/modules/stcluan.html#general — Загл. с экрана. — Яз. рус., англ.
- Кластерный анализ: основы метода и его применение в биомедицине Электронный ресурс./ Статья. Леонов В. П. Режим доступа: http://www.biometrica.tomsk.ru/cluster.htm — Загл. с экрана. — Яз. рус., англ.
- Корнеев В.В., Гареев А. Ф., Васютин С. В. и др. Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2000. — С. 41−61
- Крищенко В.А., Программное обеспечение для метопоиска информации в гипертекстовой среде. Дис.. канд. тех. наук.: 05.13.11 Москва, 2002 С. 46−50.
- Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий. Труды международного семинара Диалог-1999 по компьютерной лингвистики и ее приложениям. Том 2. Тарусса. М: Наука, 1999.
- Кузнецов И.П. Продукционный язык программирования ДЕКЛ. Система обработки декларативных структур знаний Деклар-2. — М.: ИПИРАН, 1988 г.
- Кузнецов И.П., Мацкевич А. Г. Особенности организации базы предметных и лингвистических знаний в системе Аналитик. // Труды международной конференции Диалог'2003 М.: Наука, 2003.
- Кузнецов И.П., Мацкевич А. Г. Семантико-ориентированные системы на основе баз знаний. М.: Инсвязьиздат, 2007. — 173 с.
- Кузнецов И.П., Мацкевич А. Г., Рабинович Б. И., Гнидо Е. И. Частотный анализ биллингов телефонных переговоров в Логико-Аналитической системе «Аналитик». Тезисы докладов НТК МТУ СИ. 29−31 января 2002 г. М.: Инсвязьиздат, 2002. — 409 с.
- Кузнецов И.П., Мацкевич А. Г., Рабинович Б. И., Гнидо Е. И. Временной анализ потоков событий в Логико-Аналитической системе «Аналитик». // Тезисы докладов НТК МТУ СИ, 29−31 января 2002 г. М.: Инсвязьиздат, 2002.-С. 409−410.
- Кузнецов И.П., Семантические представления. Отв. ред. Е. В. Золотов- АН СССР, Дальневост. науч. центр, ВЦ. М.: Наука, 1986. — 293 с.
- Кулаичев А.П. Методы и средства анализа данных в среде Windows. STADIA 6.0. М.: Информатика и компьютеры, 1998. — 270 с.
- Леонтьева Н.Н. Автоматическое понимание текста: системы, модели, ресурсы: учеб. пособие для студ. лингв, фак. вузов. — М.: «Академия», 2006. С. 87−92.
- Леонтьева Н.Н., Кудряшова И. М., Малевич О. Б. Семантические заготовки к пониманию целого текста.- МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271., М.: МГПИИЯ им. М. Тореза, 1986. С. 81−110.
- Леонтьева Н.Н., Никогосов С. Л. Система ФРАП и проблема оценки качества автоматического перевода. МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 20., М.: МГПИИЯ им. М. Тореза, 1980. — С. 57−78.
- Лисовский К.Ю., Марков А. С. Базы данных. Введение в теорию и методологию. — М.: Финансы и статистика, 2004. — 512 с.
- Любарский Ю.Я. Интеллектуальные информационные системы. М.: Наука, 1980.-С. 112−142.
- Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. — 176с.
- Мацкевич А.Г. Особенности тонкого клиента в сетевой модели ЛАС «Аналитик». // Тезисы докладов НТК МТУСИ. М.: Инсвязьиздат, 2002 г. — С. 406−408.
- Налимов В.В. Вероятностная модель языка. О соотношении естественных и искусственных языков. — М.: Наука, 1979. — 303 с.
- Патрик Э. Основы теории распознавания образов: Пер с англ./ Под ред. Б. Р. Левина. М.: Сов. Радио, 1980. — 408 с.
- Платформа SAP Net Weaver: надежный фундамент для поддержки изменений бизнеса и управления ими. Электронный ресурс.- Режим доступа: http://www.sap.com/cis/platform/index.epx- свободный. — Загл. с экрана. —Яз. рус., англ.
- Попов Э.В. Общение с ЭВМ на естественном языке. М: Наука, 1982. — 360 с.
- Попов Ю. Как выбрать самый подходящий способ хранения деревьев в моем проекте? Электронный ресурс.- Режим доступа: http://phpclub.ni/faq/Tree/FaqSelect?v=ses- свободный. — Загл. с экрана. — Яз. рус., англ.
- Рабинович Б.И. Кластерный анализ детализаций телефонных переговоров. // Системы и средства информатики. Ин-т пробл. информатики РАН. Вып. 17 / Отв. ред. И. А. Соколов. М.: Наука, 2007. — С. 52−78.
- Рабинович Б.И. Обзор информационных систем анализа текстов на естественном языке. // Известия высших учебных заведений. Проблемы полиграфии и издательского дела. № 2. М.: МГУП, 2008. — С. 83−88.
- Рабинович Б.И. Редактор шаблонов соединений как средство интеграции базы знаний системы «Аналитик» с внешними источниками данных. // Вестник МГТУ им. Н. Э. Баумана. Серия Приборостроение. М.: «МГТУ им. Н.Э. Баумана», 2008.-С. 113−121.
- Рабинович Б.И. Хранение БЗ в современных СУБД. Интеллектуальные технологии и системы. // Сборник учебно-методических работ и статей аспирантов и студентов. Выпуск 6 / Сост. и ред. Ю. Н. Филиппович. — М.: «Эликс+», 2004.-С. 173−186.
- Рабинович Б.И. Электронное хранилище разнородной информации на основе структур знаний. // Информатизация и связь. Специальный выпуск'2008. -М.: «Информатизация и связь», 2008. С. 84−88.
- Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica. М.: МедиаСфера, 2003. — 312 с.
- Родионов П.Е., Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей. Дис.. канд. тех. наук.: 05.13.17 Москва, 2003 С. 29−37.
- Симанков B.C., Луценко Е. В. Адаптивное управление сложными системами на основе теории распознавания образов. Монография (научное издание). Краснодар: ТУ КубГТУ, 1999. — 318 с.
- Смирнов Н.В. Оценка расхождения между эмпирическими кривыми распределениями в двух независимых выборках. Бюлл. МГУ, т. II, вып. 7, 1939.
- Советский энциклопедический словарь — М.: «Советская энциклопедия», 1980.- 1600 с. Силл.
- Статистические и математические системы. // Каталог «Тысячи программных продуктов». — 1995. — № 2. М
- Статистический словарь / гл.ред. М. А. Королёв.-М.: Финансы и статистика, 1989 г.- 623 с.
- Тей А., Грибомон П., Луи Ж. Логический подход к искусственному интеллекту: от классической логики к логическому программированию: Пер с франц./Тей А., Грибомон П., Луи Ж. И др. М.: Мир, 1990. — С. 333 411.
- Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. М: Финансы и статистика, 1995. — 384 с.
- Фаронов В.В. Turbo Pascal 7.0. Практика программирования. М.: Нолидж, 1999.-416 с.
- Хвостиченко Б., Исследование эффективности алгоритмов выполнения алгебраических операций к XML-данным в распределенных запроса. // Интернет-математика 2005. Автоматическая обработка веб-данных. Москва. 2005. С. 235−250.
- Хомоненко А.Д., Гофман В. Э., Мещеряков Е. В. и др. Delphi 7/Под общ. Ред. А. Д. Хомоненко. СПб.: БХВ-Петербург, 2004 г. — 488 с.
- Чертовской В.Д. Базы и банки данных: Учебное пособие СПб: МГУП, 2001.-220 с.
- Чубинидзе К.А. Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов. Дис.. канд. тех. наук.: 05.25.06 Москва, 2006 С. 22−25.
- Шарнин М. М, Кузнецов И. П. Продукционный язык программирования Декл. В сб. «Система обработки декларативных структур знаний Деклар-2». ИПИАНУСССР М.: Наука, 1988. — С. 134−152.
- Шемакин Ю.И. Семантика самоорганизующихся систем. — М.: Академический проспект, 2003. С. 98−114.
- Шемакин Ю.И., Романов А. А. Компьютерная семантика. М.: НОЦ Школа Китайгородской, 1995. — С. 136−142.
- Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ./ Предисловие Ю. П. Адлера, Ю. В. Кошевника. — М.: Финансы и статистика, 1988. -263 с.
- Appelt D. E., Hobbs J. R., Bear J., Israel D., Kameyama M., Tyson M., 1993a. «The SRI MUC-5 JY-FASTUS In-formation Extraction System», Proceedings, Fifth Message Understanding Conference (MUC-5), Baltimore, Maryland, August 1993.
- Ball G.H., Data-analysis in the social sciences: What about the details? // Proceedings of the Fall Joint Computer Conference, 27, 1966. P. 533−559.
- Blackwell A.F. Introduction: Thinking with Diagrams // Artificial Intelligence Review. V. 15. 2001, — P. 1−3.
- Blostein D., Lang E., Zanibbi R. Treatment of Diagrams in Document Image Analysis. Anderson M., P. Cheng, and V. Haarslev (Eds.): Diagrams'2000, LNAI 1889. Berlin: Springer, 2000. P. 330−344.
- Cole A.J., Numerical Taxonomy, Academic Press, New York. 1969.
- Convera: корпоративная система поиска и анализа данных Электронный:-ресурс. — Режим доступа: http://www.convera.ru/ru/products/rware8.php- свободный Загл. с экрана. — Яз. рус., англ.
- Cormack R.M., A review of classification / Journal of the Royal Statistical Society//Series A, 134, 1971.-P. 321−353.
- Couchman J., Schwinn U., Oracle 8i Certified Professional DBA M.: Издательство «Лори», 2002 г.
- Cramer H. On the composition of elementry errors, Skand. Aktuarietids, Vol. 11. 1928.-P. 13−74
- Crouch D., A clustering algorithm for large and dynamic document collections, Ph.D. Thesis, Southern Methodist University. Dallas. 1972.
- Dorofeyuk A.A., Automatic Classification Algorithms (Review) // Automation and Remote Control, 32,1971. P. 1928−1958.
- FASTUS:a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. AIC, SRI International. Menlo Park. California, 1996.
- Frame Logic. How to Write F-Logic Programs. A tutorial for the Ontoprise’s F-logic based’deductive engine, which underlies their semantic Web products. —
- Электронный ресурс./ 2004. Режим доступа: http://flora.sourceforge.net/aboutFlogic.php- свободный Загл. с экрана. — Яз. англ.
- Fritzche М., Automatic clustering techniques in information retrieval // Diplomarbeit, Institut fur Informatik der Universitat Stuttgart. 1973.
- Good, I.J., 'Categorization of classification1 In Mathematics and Computer Science in Biology and Medicine, London: HMSO, 1965. P. 115−125.
- Guizhen Yang, Michael Kifer. Well-Founded Optimism: Inheritance in Frame-Based Knowledge Bases. Intl. Conference on Ontologies, DataBases, and Applications of Semantics for Large Scale Information Systems (ODBASE), October, 2002.
- Hartigan, J.A. Clustering Algorithms, NY: Wiley, 1975.
- Hegarty M., Meyer В., Narayann N.H. (Eds.) Diagrammatic Representation and. Inference // Proceedings of the Second International Conference, Diagrams 2002, LNAI 2317 (Gallaway Gardens, Georgia, USA, April 18−20, 2002). Berlin: Springer, 2002.
- Hobbs J. R., Appelt D. E., Bear J., Israel D., Kameyama J., Tyson M. // FASTUS: A System for Extracting Information from Text / Proceedings, Human Language Technology, Princeton, New Jersey, March 1993. P. 133−137.
- Hunt B.E. Artificial Intelligence. NY.: Academic press, 1975. — 550 p.
- Jeffreys H. An invariant for the prior probability in estimation problems, Proc. Roy. Soc, A., Vol. 186, 1946. P. 454−461.
- Kalinichenko L.A., Briukhov D.O., Skvortsov N.A., Zakharov V.N. Infrastructure of the subject mediating environment aiming at semantic interoperability of heterogeneous digital library collections. / Seconnd Russian
- Conference DIGITAL LIBRARIES: Advanced Methods and Technologies, Digital Collections, September 26−28, 2000, Protvino. P. 78−90.
- Kifer M., Lausen G., Wu J. Logical Foundations of Object Oriented and Frame Based Languages // Journal of ACM 1995, vol. 42. P. 741−843.
- Kuznetsov I., Matskevich A. System for Extracting Semantic Information from Natural Language Text. // Труды международного семинара Диалог-2002 по компьютерной лингвистике и ее приложениям. Том 2. Протвино. М.: Наука, 2002.
- Litofsky В., Utility of automatic classification systems for information storage and retrieval, Ph.D. Thesis, University of Pennsylvania. Philadelphia. 1969.
- Mahalanobis P.C. Analysis of race mixture in Bengal, J. Asiat. Soc. (India), Vol. 23, 1925. P. 301−310.
- Mahalanobis P.C. On the generalized distance in statistics, Proc.Natl. Inst. Sci. (India), Vol. 12, 1936. P. 49−55.
- Matusita K. On the theory of statistical decision functions, Ann. Instit. Statist. Math. (Tokyo), Vol. 3, 1951. P. 17−35
- McAllister J. Artificial Intelligence and Prolog on Microcomputers. — M.: Издательство «Машиностроение», 1990.
- Murtagh F., Multidimensional clustering algorithms, Compstat Lectures, Heidelberg: Physica-Verlag, 1985.
- PowerCenter. Любые данные. Любая система. В любое время. Электронный ресурс.- Режим доступа: http://www.data-integration.ru/powercenter.html- свободный. — Загл. с экрана. — Яз. рус., англ.
- Prywes N.S., Smith D.P., Organization of Information, Annual Review of Information Science and Technology, 7, 1972. P. 103−15 8.
- Punj G., Stewart D.W. Кластерный анализ в маркетинговых исследованиях: обзор и предпосылки применения. Journal of Marketing Research, Vol. XX, May 1983. -P.134−148.
- Sneath, P.H.A. and Sokal, R.R., Numerical Taxonomy: The Principles and Practice of Numerical Classification, W.H. Freeman and Company, San Francisco. 1973.
- Sytech.ru Разработка и внедрение информационных систем Электронный ресурс.- Режим доступа: http://www.sytech.ru- свободный. — Загл. с экрана. — Яз. рус., англ.
- TIBCO ActiveMatrix Business Works. Электронный ресурс.— Режим доступа: http://www.tibco.com/software/applicationintegration/businessworks/default.js р- свободный. — Загл. с экрана. — Яз. англ.
- TIBCO DataExchange. Электронный ресурс.— Режим доступа: http://www.tibco.com/software/dataintegration/dataexchange/default.jsp- свободный. — Загл. с экрана. — Яз. англ.
- Tryon R.C. Cluster Analysis // Ann. Arb., Edw. Brathers. 1939.
- Tryon R.C. Cluster Analysis. New York: McGraw-Hill. 1939.
- Vadim Tropashko. Nested intervals tree encoding in SQL. SIGMOD Record 34(2). 2005.-P. 47−52.
- Vadim Tropashko. Nested Intervals with Farey Fractions CoRR cs. DB/401 014. 2004.
- Wacker A.G., Langrebe D.A. The minimum distance approech to classification, The laboratory for applications of remote sensing information note 100 771, Purdue University, Lafayette, Indiana. 1971.
- WebLogic Integration. Электронный ресурс.- Режим доступа: http://commerce.bea.com/products/weblogicplatform/weblogicprodfam.jsp- свободный. — Загл. с экрана. — Яз. англ.
- Websphere Software. Электронный ресурс.— Режим доступа: http://www-306.ibm.com/software/ru/websphere/- свободный. — Загл. с экрана. — Яз. рус., англ.
- Weirzbicka A. Semantic primitives and lexical universals. Quaderni di semantica 10.1- 1989.-P. 103−321.
- Wishart D., «Exploiting the graphical user interface in statistical software: the next generation». Interface '98. Computing Science and Statistics, 30, 1998. P. 257−263.
- Wishart D., Estimation of Missing Values and Diagnosis Using Hierarchical Classifications, Computational Statistics Quarterly, 2(1), 1986. P. 125−134.