Диплом, курсовая, контрольная работа
Помощь в написании студенческих работ

Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

На основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном языке, разработать методы и алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в человеко-машинной системе интерпретации текстов на естественном языке; Уровень развития современных коммуникационных и информационных технологий позволяет… Читать ещё >

Содержание

  • Глава I. Компьютерная интерпретация текстов на естественном языке
    • 1. 1. Интерпретация и формы представления ее результатов
    • 1. 2. Существующие системы автоматической формализации текстов
    • 1. 3. Оценка качества систем автоматической интерпретации
  • Глава II. Применение шаблонов для формализации текстовой информации
    • 2. 1. Методы автоматического формирования шаблонов идентификации сущностей и событий
    • 2. 2. Структура синтакгико-семантического шаблона интерпретации
    • 2. 3. Человеко-машинная технология формирования и применения синтактико-семантических шаблонов
  • Глава III. Алгоритмы метода синтактико-семантических шаблонов
    • 3. 1. Формирование графа синтактико-семантических отношений
    • 3. 2. Автоматизированное создание шаблона интерпретации
    • 3. 3. Уровни обобщения лингвистических характеристик
    • 3. 4. Оптимизация набора синтактико-семантических шаблонов
    • 3. 5. Автоматизированная интерпретация предложения
  • Глава IV. Макет системы автоматизированной интерпретации и результаты его опытной эксплуатации
    • 4. 1. Формальный язык описания предметной области
    • 4. 2. Структура информационных объектов
    • 4. 3. Функции интерфейса пользователя
    • 4. 4. Результаты опьпной эксплуатации и пути совершенствования метода

Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов (реферат, курсовая, диплом, контрольная)

Уровень развития современных коммуникационных и информационных технологий позволяет информационным центрам ведомственного и государственного уровня оперативно получать и хранить достаточно продолжительное время первичную информацию из оперативных подразделений и средств массовой информации.

Традиционно, анализ и обобщение поступающей информации выполняется частично на каждом уровне иерархической структуры ведомства, причем результаты анализа на предыдущем уровне иерархии поступают как исходные данные на следующий уровень. Такая организация работы является естественной при обработке информации специалистами, она обусловлена ограниченными возможностями отдельного человека и характеризуется затруднениями на этапе объединения результатов работы нескольких специалистов в один документ.

Современные требования по оперативности и точности принятия управленческих решений вынуждают искать альтернативные пути анализа поступающей информации. Одним из них является применение методов ее компьютерной обработки, которые имеют многие преимущества, например:

• увеличение скорости обработки информации до уровня, при котором становится возможной обработка первичной информации на любой ступени иерархической структуры ведомства;

• исключение обобщений на промежуточных ступенях иерархической структуры ведомства позволяет уменьшить искажения и потери первичной информации.

В подавляющем большинстве случаев, первичной информацией являются тексты на естественном языке, которые создаются сотрудниками ведомства и предназначены для экспертов и руководства. Данная форма представления информации является практически неприемлемой для компьютерной обработки и нуждается в соответствующем преобразовании, которое в данной работе названо интерпретацией.

Проблемная ситуация заключается в низкой полноте и точности компьютерной интерпретации текстов на естественном языке, а также в высокой трудоемкости настройки автоматизированных систем на предметные области интерпретации и формальные языки представления ее результатов. Существующие в настоящее время системы компьютерной интерпретации носят узкоспециализированный характер. Процессы их настройки и эксплуатации строго разделены. Настройка представляет собой длительный (до нескольких месяцев) процесс, выполняемый квалифицированными специалистами и тесно связана как с предметной областью, описываемой интерпретируемыми текстами, так и с форматом представления результатов интерпретации, который зависит от специфики их дальнейшей обработки.

Объект исследования — информационная технология интерпретации текстов на естественном языке.

Предмет исследования — автоматизированная интерпретация текстов методом синтактико-семантических шаблонов.

Диссертационное исследование выполнено в соответствии с положениями п.п. 4, 5 и 7 областей исследований специальности 05.25.05: разработанный метод относится к методам семантического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями. Результаты исследования содержат новые подходы к формированию лингвистического обеспечения информационных систем и процессов в части его автоматизированной настройки на предметные области и формальные языки интерпретации.

Целью работы является совершенствование информационной технологии компьютерной интерпретации текстов на естественном языке за счет:

• разработки метода автоматизированного формирования синтактико-семантических шаблонов в процессе работы оператора, выполняющего интерпретацию текстов;

• разработки алгоритмов применения синтактико-семантических шаблонов в информационной технологии компьютерной интерпретации.

Для достижения поставленной цели необходимо решить следующие задачи:

1. на основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном языке, разработать методы и алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в человеко-машинной системе интерпретации текстов на естественном языке;

2. провести экспериментальную проверку разработанных методов и алгоритмов на макете системы автоматизированной интерпретации;

3. на основе анализа результатов опытной эксплуатации макета определить эффективность и область применения метода синтактико-семантических шаблонов, определить направления его совершенствования.

Методы исследования. Результаты диссертационной работы получены на основе анализа и научного обобщения мирового опыта в разработке систем формализации информации, содержащейся в текстах на естественном языке, использования научных положений теории графов, теории множеств, методов прикладной и структурной лингвистики.

Научная новизна исследования. В диссертационной работе получены новые научные результаты:

1. в человеко-машинной технологии интерпретации текстов предложено использовать промежуточный формальный язык, инвариантный к предметной области интерпретации и к формальному языку представления ее абстрактных состояний;

2. разработаны методы формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;

3. разработаны частные методики и алгоритмы применения, формирования, верификации и оптимизации синтактико-семантических шаблонов, предназначенных для автоматической интерпретации текстов в пределах ограниченной предметной области.

Практическая ценность работы заключается в возможности увеличения производительности человеко-машинных систем интерпретации текстов на естественном языке. Разработанные методы и алгоритмы рассчитаны на применение в составе инструментальных средств настройки систем автоматической формализации информации, содержащейся в текстах. Созданный макет системы интерпретации может использоваться при решении задач автоматизированного наполнения фактографических баз данных.

Апробация работы. Содержание отдельных разделов диссертационной работы было использовано в НТЦ «Атлас» при выполнении НИР «Услуга».

Разработанные в диссертационной работе методы, алгоритмы и макеты программных средств были использованы ФГУП «МНИИ «Интеграл» при исследованиях и разработках в области интеллектуальных информационных систем.

Созданный макет системы автоматизированной интерпретации внедрен в опытную эксплуатацию консалтинговой компанией IDS Scheer и используется для получения сведений об экономических показателях, содержащихся в текстах отчетных материалов в интересах Центрального банка РФ, ОАО.

Лукойл", ОАО «Сургутнефтегаз», ОАО «Белгородэнерго», ОАО «Тюменьэнерго» и др.

Отдельные результаты исследования докладывались на международной конференции «Развитие и защита бизнеса: практика и технологии». Работа в целом доложена на семинаре кафедры информатизации структур государственной службы Российской академии государственной службы при Президенте РФ.

Публикации. Основные результаты диссертационной работы опубликованы в четырех печатных работах.

Структура диссертационной работы.

Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 156 страницах, содержит 33 рисунка и список литературы из 38 наименований.

Заключение

.

В диссертационной работе получены следующие результаты:

1. Разработан метод интерпретации текстов на естественном языке, который предусматривает автоматизированное обучение системы в процессе интерактивной интерпретации предложения оператором.

2. Предложен и применен промежуточный формальный язык представления лингвистических характеристик текста — граф синтактико-семантических отношений, инвариантный к формальному языку описания предметной области интерпретации.

3. Разработаны алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в процессе эксплуатации человеко-машинной системы интерпретации текстов на естественном языке.

4. Предложены методы и алгоритмы автоматизированной верификации результатов интерпретации и оптимизации сформированного набора синтактико-семантических шаблонов.

5. Для экспериментальной проверки разработанных методов и алгоритмов создан макет программного комплекса. В результате опытной эксплуатации макета определены область применения предлагаемого метода интерпретации, его эффективность и основные пути дальнейшего совершенствования.

Показать весь текст

Список литературы

  1. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции (Том 1. Синтаксический анализ). М.: Мир, 1978
  2. Г. Г., Быстрое И. И., Козачук М. В. Новоселов А.П., Хорошилов А. А. Автоматический концептуальный анализ текстов. Сб. «Научно-техническая информация», Серия 2, № 10, ВИНИТИ, 2002
  3. Г. Г., Калинин Ю. П., Хорошилов А. А., Компьютерная лингвистика и перспективные информационные технологии М.: Русский мир, 2004
  4. Г. Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Козачук М. В., Рыжова Е. Ю., Гуськова Л. Ю., Каким быть машинному переводу в XXI веке. Сб. «Перевод: традиции и современные технологии». Изд. ВЦП, Москва, 2002
  5. Большой энциклопедический словарь «Языкознание». М.: Большая российская энциклопедия, 2000
  6. Т. Программа, понимающая естественный язык. М.: Мир, 1976
  7. Т.А., Червинская К. Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992
  8. И.Н. Разговор с компьютером: психологический аспект проблемы. М.: Наука, 1987
  9. А.И., Чубинидзе К. А. Управление знаниями и семантический анализ текстов в системе Retrieval Ware компании Convera. М.: Информационные технологии в проектировании и производстве, 2005, № 3
  10. Ю.Ермаков А. Е. Компьютерная лингвистика и интеллектуальные технологии. Труды Международного семинара «Диалог-2002». Т.2. Прикладные проблемы. М.: Наука, 2002
  11. Искусственный интеллект: в 3-х кн. Кн. 2. Модели и методы: Справочник /Под ред. Д. А. Поспелова. М.: Радио и связь, 1990
  12. Ю.П., Деев В. В. и др. Распознавание ситуаций, основанное на обработке смыслов. Нетрадиционная постановка задачи. Материалы конференции «Нейрокомпьютеры и их применение» НКП-96,1996
  13. С.Л., Ермаков А. Е., Плешко В. В. Поиск фактов в тексте естественного языка на основе сетевых описаний. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.
  14. .П., Ляшевская О. Н. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.
  15. Д. А. Автоматическое построение правил извлечения информации из текста. Труды первой международной конференции «Системный анализ и информационные технологии» Т.1. М.: КомКнига, 2005
  16. И.П. Семантические представления. М. Наука, 1986
  17. И.П., Шарнин М. М. Интеллектуальный редактор знаний на основе расширенных семантических сетей / Системы и средства информатики. Вып. 5 М.: Наука, 1993
  18. О.С. Об автоматическом синтаксическом анализе русских текстов. Препринт ИПМ им. М. В. Келдыша, АН СССР, № 205,1987
  19. Дж. Введение в теоретическую лингвистику. «Прогресс», Москва, 1975
  20. Г. В., Мамедниязова Н. С. О представлении семантики концептуальных моделей в базах знаний. Труды международного семинара «Диалог-2000» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
  21. Г. В., Тузов В. А. О представлении результатов семантико-синтаксического анализа текста концептуальными моделями данных. Труды международного семинара «Диалог-2003» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
  22. Н.Н. Семантика связанного текста и единицы информационного анализа. НТИ, № 1,1981
  23. Липинский Г. В. Russian Context Optimizer: путь к возможностям Oracle interMedia в русскоязычных базах данных. Доклад на XII конференции АПО/ROUG, 1 сентября 2000
  24. B.C. Семантические сети / Представление знаний в человеко-машинных и робототехнических системах. М.: ВИНИТИ, 1984
  25. И.А. Опыт теории лингвистических моделей «Смысл текст». -М.: Наука, 1974
  26. МихайловьА.И., Черный А. И., Гиляревский Р. С. Основы информатики. -М.: Наука, 1968
  27. Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС /Е.Н. Пименов //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2000. No 5.
  28. Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). СПб.: РГПУ им. А. И. Герцена, 1999
  29. Р.Г. Инженерная лингвистика и теория языка. М.: Наука, 1979
  30. Э.В. Искусственный интеллект: Справочник. В 3-х т. М.: Радиосвязь, 1990
  31. Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982
  32. ПоповЭ.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987
  33. Д.А. Энциклопедия по информатике. М.: Просвещение, 1994
  34. Г. С. Некоторые вопросы реализации диалоговых систем. М.: Наука, 1980
  35. Представление знаний и моделирование процесса понимания. -Сб.научных трудов / Под ред. А. С. Нариньяни. Новосибирск, СО АН СССР, 1980
  36. В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М.: Наука, 1989
  37. М., Тхуласираман К. Графы, сети и алгоритмы. -М.: Мир, 1984
  38. Скрытое эмоциональное содержание текстов СМИ и методы его объективной диагностики / Под ред. А. А. Леонтьева, Д. А. Леонтьева. М.: Смысл, 2004
  39. В.А. Компьютерная семантика русского языка. Труды международного семинара «Диалог-2001» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
  40. В.А. Система семантико-синтаксического анализа предложений на русском языке // Информационные технологии в гуманитарных и общественных науках. СПб.:СПб ЭМИ РАН, 2002. Вып. 12.
  41. X., Кояма Т., Окамото Т. И др. Представление и использование знаний / Пер. С англ.- Под ред. У. Уэно, М.Исудзука. М.: Мир, 1989
  42. Ю.Н., Филиппович А. Ю. Специальность «Компьютерная лингвистика и семиотика» // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. Выпуск 5 / Сост. и ред. Ю. Н. Филипповича. М.: Эликс+, 2003
  43. Ю.Н., Родионов Е. В., Черкасова Г. А. Языковые средства диалога человека с ЭВМ- Под ред. В. Н. Четверикова М.: Высшая школа, 1990
  44. Ю.Н. Метафоры информационных технологий. С предисловием Караулова Ю. Н. М.: МГУП- 2002
  45. Ю.Н. Семантика информационных технологий: опыты словарно-тезаурусного описания: С предисл. А. А. Новикова / Ю. Н. Филиппович, А.В. Прохоров- М.: МГУП., 2002.
  46. К.А. Использование технологии динамической классификации для интенсификации аналитической деятельности. М.: Информационные технологии в проектировании и производстве, 2005, № 3
  47. К.А. Компьютерная интерпретация текстов на естественном языке на основе синтактико-семантических шаблонов. НТИ Серия 2. Информационные процессы и системы. — М.: ВИНИТИ, 2005, № 2
  48. К.А. Структура модели событий, описываемых текстами на естественном языке. -М.: Компьюлог, 2004, № 3 (63)
  49. К.А. Структурированная интерпретация сводок оперативной информации. Межотраслевая информационная служба, вып. 3−4 (128 129), М.:ВИМИ, 2004
  50. Ю.И., Романов А. А. Компьютерная семантика. М.: Школа Китайгородской, 1995
  51. Ю.И. Основы информатики и вычислительной лингвистики. -М.: МИНХ им. Г. В. Плеханова, 1983
  52. Ю.И. Семантика самоорганизующихся систем. М.: Академический проект, 2003
  53. Р. Обработка концептуальной информации. М.: Энергия, 1980
  54. .В. Слово. Понятие. Информация. М.: Молодая гвардия, 1975
  55. D.Applet, J. Hobbs, J. Bear, D. Israel, M. Kameyama, M.Tyson. FASTUS: a finite-state processor for extracting information from real-world text. In Proc. 13-th International Joint Conference on Artificial Intelligence, 1993
  56. A.Borthwick, J. Sterling, E. Agichtein, R.Grishman. Exploiting diverse knowledge sources via maximum entropy in named entity recognition. In Proc. 6-th Workshop on Very Large Corpora, Montreal, 1998
  57. D.Bikel, S. Miller, R. Schwartz, R.Weischedel. Nymble: a high-performance learning name-finder. In Proc. 5-th Conference on Applied Natural Language Processing. Washington, DC, 1997
  58. R.Schank, M. Lebowitz, L.Birnbaum. An integrayed understander. Amer. J. Comput. Ling., 1980, 6, № 1
  59. C.Freedman, G. Hripcsak, W. DuMouchel, S.B.Johnson, P.D.Clayton. Natural language processing in an operational clinical information systems. Natural Language Engineering (1), 1995
  60. RCO Syntactic Engine: библиотека синтаксического анализа. Copyright © ООО «Гарант-Парк-Интернет», 2003
  61. RCO Pattern Extractor 1.0: библиотека выделения объектов в тексте. Руководство разработчика. Copyright © ООО «Гарант-Парк-Интернет», 2003
  62. RCO Fact Extractor 1.0: настройка описаний фактов. Руководство администратора. Copyright © ООО «Гарант-Парк-Интернет», 2004
  63. E.Riloff. Automatically generating extraction patterns from untagged text. In Proc. 13-th National Conference on Artificial Intelligence, 1996
  64. B.Sundheim ed., Proceedings Fifth Message Understanding Conference (MUC-5), Baltimore, Maryland, August 1993. Distributed by Morgan Kaufmann Publishers, Inc., San Mateo, California
  65. The Oxford Handbook of Computational Linguistics. Ed. by R. Mitkov, Oxford University Press, 2003
  66. Tipster Text Program (Phase I). Proceedings, Advanced Research Projects Agency, September 1993
  67. R.Yangarber, R.Grishman. Customization of Information Extraction Systems. In Proc. International Workshop on Lexically Driven Information Extraction, Frascati, 1997
  68. R.Yangarber, R. Grishman, P. Tapanainen, S.Huttunen. Automatic acquisition of domain knowledge for information extraction. In Proc. 18-th International Conference on Computational Linguistics, Saarbriicken, 2000
Заполнить форму текущей работой