Диплом, курсовая, контрольная работа
Помощь в написании студенческих работ

Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Разработан алгоритм снятия семантической многозначности синтаксических единиц текста с использованием полученных правил и показано, что разработанный алгоритм повышает точность семантического анализа текстов на 16%. Независимыми оценками показано, что повышение точности семантического анализа приводит к повышению точности семантического поиска. Разработанная модификация ДСМ-метода порождения… Читать ещё >

Содержание

  • Актуальность темы
  • Цель работы
  • Методы исследования
  • Новизна
  • Практическая значимость работы
  • Апробация работы
  • Структура и объем работы
  • 1. Работы в области семантического анализа текста
    • 1. 1. Работы Кембриджского лингвистического кружка
    • 1. 2. Трансформационная грамматика Хомского
    • 1. 3. Формальная семантика Монтегю
    • 1. 4. Семантические падежи Филлмора
    • 1. 5. Модель «Смысл-Текст»
    • 1. 6. Выводы
  • 2. Установление значений синтаксических единиц текста с помощью методов анализа данных
    • 2. 1. Методы анализа данных
      • 2. 1. 1. Статистические методы анализа данных
      • 2. 1. 2. Логические методы анализа данных
    • 2. 2. Методы анализа данных в решении задачи установления значений синтаксических единиц текста
    • 2. 3. Выводы

Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных (реферат, курсовая, диплом, контрольная)

Актуальность темы

.

Принятие решений по управлению сложными системами должно основываться на информации, отражающей текущее состояние систем. Эта информация может быть получена в результате предварительного поиска «сырых» данных и их последующего анализа. Методы обработки структурированной (числовой, или фактографической) информации, достаточно развиты и дают хорошие результаты. Иначе обстоит дело с обработкой полуструктурированной информации — поиском и извлечением данных из текстов. Методы извлечения информации из текстов в настоящее время исследованы недостаточно и дают приемлемые результаты только для узких предметных областей. Методы поиска информации также оставляют желать лучшего. Известно, что традиционные поисковые системы обладают низкой релевантностью и большим шумом. Это связано с тем, что традиционный подход к поиску основывается только на статистических характеристиках слов, при этом игнорируется лингвистическая составляющая текстов, а слово рассматривается просто как цепочка символов. Не учитывается смысл, передаваемый текстом на естественном языке.

Преодоление указанных трудностей состоит в применении методов семантического анализа текстов, когда каждое предложение текста рассматривается как осмысленное высказывание, состоящее из синтаксических единиц, каждая из которых несет элементарный смысл. Семантика всего высказывания при этом складывается из комбинации смыслов этих синтаксических единиц. Применение методов семантического анализа в поиске текстов является весьма актуальным, т.к. позволяет находить документы, близкие запросу по смыслу, тем самым существенно повышая точность поиска.

Методы, реализующие семантический анализ текстов, должны опираться на лингвистические теории, описывающие механизмы передачи смысла (семантики) языковыми средствами, однако эти механизмы, как правило, не отражены в грамматиках языков. Настоящая работа посвящена исследованию и применению методов интеллектуального анализа данных для выявления механизмов передачи семантики применительно к задачам семантического поиска и извлечения фактографической информации из текстов на примере русского языка.

Цель работы.

Целью диссертационной работы является повышение точности автоматического семантического анализа текстов на естественных языках.

Для достижения поставленной цели в работе решаются следующие задачи:

1. Применение методов теории коммуникативной грамматики русского языка для построения реляционно-ситуационной модели текста.

2. Разработка индуктивного метода порождения правил установления значений синтаксических единиц текста (синтаксем).

3. Разработка метода снятия семантической многозначности (полисемии) синтаксем на основе полученных правил.

4. Разработка программных средств порождения правил установления значений и снятия полисемии синтаксем.

5. Экспериментальная проверка разработанных методов.

Методы исследования.

В диссертационной работе использованы методы интеллектуального анализа данных, методы теории множеств, методы представления знаний, в частности, неоднородные семантические сети, теория коммуникативной грамматики русского языка.

Новизна.

Научная новизна работы заключается в следующем:

1. Для представления семантики высказываний применены теория неоднородных семантических сетей и теория коммуникативной грамматики русского языка.

2. Предложена модификация ДСМ-метода порождения гипотез, расширяющая область его применимости, в частности, позволяющая оперировать лингвистическими объектами, имеющими сложную логическую структуру.

3. Предложен индуктивный метод автоматического получения правил установления значений синтаксических единиц естественных языков.

4. Предложен метод использования полученных правил для снятия семантической многозначности синтаксических единиц естественных языков, позволяющий значительно повысить точность семантического анализа текстов.

Практическая значимость работы.

Предложенная в работе модификация ДСМ-метода порождения гипотез может применяться в решении задач интеллектуального анализа данных.

Полученные правила установления значений синтаксических единиц текста могут использоваться в любых приложениях в области компьютерной лингвистики, имеющих дело с семантическим анализом текста, в частности в семантических поисковых машинах.

Методы, правила, и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах: • Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН).

Фундаментальные основы информационных технологий и систем", проект № 2.9.

• «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете» шифр ИТ-13.5/001, выполняемого в рамках федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники».

• «Исследование и разработка параллельных алгоритмов анализа больших объемов текстовой информации из глобальной сети и алгоритмов принятия решений на основе когнитивных методов» научно-технической программы Союзного государства «Развитие и внедрение в государствах-участниках Союзного государства наукоёмких компьютерных технологий на базе мультипроцессорных вычислительных систем» (шифр «ТРИАДА»).

Апробация работы.

Основные положения работы докладывались и обсуждались на следующих научных конференциях:

• Научная конференция «25 лет исследований по ДСМ-методу: логика, анализ данных, интеллектуальные системы (ДСМ-2006)», декабрь 2006, ВИНИТИ РАН, г. Москва.

• 7-я Международная конференция «Научно-техническая информация -2007» («НТИ-2007»), октябрь 2007, ВИНИТИ РАН, г. Москва.

• Вторая Международная конференция «Системный анализ и информационные технологии» САИТ-2007, сентябрь 2007, г. Обнинск.

• XLI, XLII, XLIII всероссийские конференции по проблемам математики, информатики, физики и химии в секции «Программные системы», 20 052 007 года, РУДН, г. Москва.

Основные результаты, полученные по теме диссертационной работы, опубликованы в 5 печатных работах (в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 2 публикации в трудах научных конференций).

Структура и объем работы.

Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложений. Работа изложена на 177 стр. машинописного текста, содержит 7 таблиц, 12 рисунков, 3 приложения, библиография включает 71 наименование.

5.8. Выводы.

В результате компьютерных экспериментов получены правила установления смысловых значений синтаксических единиц текста для русского языка.

В ходе экспериментов было обнаружено большое количество конфликтных правил, что является следствием наличия противоречивых обучающих примеров. Предложенный метод установления значений на основе полученных правил позволяет снизить воздействие конфликтных правил.

Предложенный метод снятия смысловой многозначности синтаксем с использованием правил позволяет выбрать одно значение для синтаксемы из всех возможных, что уменьшает число ошибок семантического анализа безглагольных предложений в среднем в 3,32 раза, при этом точность семантического анализа текстов повышается на 16%.

Показано, как полученные результаты используются в задачах семантического поиска, повышая его точность.

Заключение

.

В диссертационной работе показано, как теория коммуникативной грамматики и реляционно-ситуационная модель текста используются в семантическом анализе текстов на естественных языках.

В ходе диссертационной работы выполнен анализ работ в области применения методов анализа данных к установлению семантических значений синтаксических единиц и смысла высказываний на естественных языках.

Разработанная модификация ДСМ-метода порождения гипотез позволяет оперировать объектами с признаками произвольной природы, составными признаками и объектами в контекстах. Полученная модификация позволяет оперировать сложными лингвистическими объектами «синтаксема» или «синтаксема в позиции» без нарушения их внутренней структуры.

На основе модификации метода порождения гипотез разработаны метод и алгоритм порождения правил установления семантических значений синтаксических единиц текста. Показано, что разработанный алгоритм корректен, оценена его сложность.

С помощью разработанного метода порождены правила установления семантических значений синтаксических единиц текста. Предложена — процедура-установления-значений синтаксических единиц текста на основе порожденных правил.

Разработан алгоритм снятия семантической многозначности синтаксических единиц текста с использованием полученных правил и показано, что разработанный алгоритм повышает точность семантического анализа текстов на 16%. Независимыми оценками показано, что повышение точности семантического анализа приводит к повышению точности семантического поиска.

Показать весь текст

Список литературы

  1. Аншаков, 1996. Аншаков О. М. О решетке данных для ДСМ-метода автоматического порождения гипотез. // НТИ*, № 5−6, 1996.
  2. Аншаков, 1999. Аншаков О. М. Об одной интерпретации ДСМ-метода автоматического порождения гипотез. // НТИ, № 1, 1999.
  3. Апресян, 1967. Апресян Ю. Д. Экспериментальное исследование семантики русского глагола. Москва, «Наука», 1967.
  4. Апресян, 1974. Апресян Ю. Д. Лексическая семантика. М., 1974.
  5. Апресян и др., 1989. Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин,
  6. A.В.Лазурский, Н. В. Перцов, В. З. Санников, Л. Л. Цинман. Лингвистическое обеспечение системы ЭТАП-2. // М.: Наука, 1989, 296 с.
  7. Борщев, 1993. Борщев В. Б. О постулатах ДСМ-метода. // журнал Новости Искусственного Интеллекта, специальный выпуск к 60-летию1. B.К. Финна, Москва 1993.
  8. Гусакова, Кузнецов, 1995. Гусакова С. М., Кузнецов С. О. Сходство в обобщенном ДСМ-методе и алгоритм его порождения. // НТИ, № 5, 1995.
  9. Завьялова, 2004. Завьялова О. С. О принципах построения словаря глаголов для задач автоматического анализа текста.// Труды международной конференции Диалог'2004.
  10. Зализняк, 1980. Зализняк А. А. Грамматический словарь русского языка М.: Русский язык, 1980 г.
  11. Золотова и др., 2004. Золотова Г. А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная грамматика русского языка. — М. 2004. 544 с.
  12. ВИНИТИ, Ежемесячный научно-технический сборник «Научно-техническая информация», Сер. 2, Информ. процессы и системы.
  13. Золотова, 2001. Золотова Г. А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса. М.: Эдиториал УРСС, 2001. -440 с.
  14. Золотова, 2003.3олотова Г. А., Коммуникативные аспекты русского языка. М.: Эдиториал УРСС, 2003. 368 с.
  15. Кузнецов, 1999. Кузнецов С. О. О некоторых вопросах анализа понятий. //НТИ,№ 1, 1999.
  16. Мельчук, 1974. И. А. Мельчук. Опыт теории лингвистических моделей «Смысл Текст». М., 1974 (2-е изд., 1999).
  17. Новицкая, 2006. Новицкая К. В. Применение ДСМ-метода автоматического порождения гипотез для классификации текстов по тамам.// НТИ, № 5, 2006.
  18. Объедков, 1999. Объедков С. А. Алгоритмические аспекты ДСМ-метода автоматического порождения гипотез. //НТИ, № 1, 1999.
  19. Осипов, 1997. Осипов Г. С. Приобретение знаний интеллектуальными системами. -М.: Наука. Физматлит, 1997.
  20. Осипов и др., 2005. Осипов Г. С., Завьялова О. С., Смирнов И. В., Тихомиров И. А. Интеллектуальный семантический поиск с привлечением средств метапоиска. // Труды международной конференции ИАИ'2005, Киев: Просвита, 2005. С. 214−224.
  21. Панкратова и др., 2002. Панкратова Е. С., Панкратов Д. В., Финн В. К., Шабалова И. П. Применение ДСМ-метода для прогнозирования высокопатогенных типов вируса папилломы человека.// НТИ, № 6, 2002.
  22. Путрин, 1999. Путрин А. В. Описание программной реализации ДСМ-системы для прогнозирования химической канцерогенности. // НТИ, № 12, 1999:
  23. Сокирко, 2004. Сокирко А. В. Морфологические модули на сайте www.aot.ru. Труды Международного семинара Диалог'2004 по компьютерной лингвистике и ее приложениям. Верхневолжский, 2−7 июня 2004 г.
  24. Тихомиров, 2004. Тихомиров И. А. Представление текста в задачах семантического поиска. // Сборник трудов 4-го российско-украинского научного семинара «Интеллектуальный анализ информации», Киев: Просвита 2004. С. 200−209.
  25. Тихомиров, 2008. Тихомиров И. А. Поисковый алгоритм Exactus и его экспериментальная оценка. // Сборник трудов 7-й международной конференции «Интеллектуальный анализ информации» ИАИ-2008. Киев: Просвита, 2004. С. 485−491.
  26. Филлмор, 1981а. Филлмор Ч. Дело о падеже. // Новое в зарубежной лингвистике. Вып. X. М., 1981. С. 400−444.
  27. Филлмор, 19 816. Филлмор Ч. Дело о падеже открывается вновь. // Новое в зарубежной лингвистике. Вып. X. М., 1981. С. 496−530.
  28. Финн, 2000. Финн. В.К. ДСМ-метод как средство анализа каузальных зависимостей в интеллектуальных системах. // НТИ, № 11, 2000.
  29. Финн2, 2000. Финн. В.К. О некоторых металогических и алгоритмических аспектах разработки интеллектуальных систем типа ДСМ.//НТИ, № 3,2000.
  30. Финн, 2001. Финн. В. К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных. // НТИ, № 5, 2001.
  31. Хомский, 1962. Хомский Н. Синтаксические структуры. Пер. с англ. К. И. Бабицкого и В. А. Успенского // Новое в зарубежной лингвистике. II. М.: ИИЛ, 1962. С. 412—527.
  32. Хомский, 2000. Хомский Н. Логические основы лингвистической теории. Пер. с англ. И. А. Мельчука. // Логические основы лингвистической теории. Биробиджан: ИЦ «Тривиум», 2000. С. 3—114.
  33. Brin and Page, 1998. Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(17):107 117, 1998.
  34. Berger et al., 1996. Adam L. Berger, Stephen A. Delia Pietra, and Vincent J. Delia Pietra. A maximum entropy approach to natural language processing. // Computational Linguistics, 1996, 22(1):39.71.
  35. Blunsom, 2004. Phil Blunsom, Maximum Entropy Markov Models for Semantic Role Labelling. // Proceedings of the Australasian Language Technology Workshop 2004, Macquarie University, Sydney, December 8th, 2004.
  36. Busser and Moens, 2003. Rik De Busser, Marie-Francine Moens, Learning generic semantic roles. // Technical Report, 15p.
  37. Church and Hanks, 1989. Church, K.W., and Hanks, P., 1989, Word association norms, mutual information, and lexicography. // Proceedings of
  38. ACL'89, 27th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, pp. 76−83.
  39. Cussens and Dzeroski, 2000. Cussens, J., and Dzeroski, S., 2000, Learning language in logic. // Vol. 1925, LNAI, Springer Verlag.
  40. Erk and Pado, 2006. Katrin Erk and Sebastian Pado, SHALMANESER- A Toolchain For Shallow Semantic Parsing. // Proceedings of LREC 2006, Genoa, Italy.
  41. Finn, 1995. V.K. Finn, JSM-reasonong for Control Problems in open (±)-worlds // Works of 10-th IEEE International Symposium on Intelligent Control, 1995.
  42. Gildea and Jurafsky, 2002. Daniel Gildea, Daniel Jurafsky, Automatic labeling of Semantic Roles // Computational Linguistsics, Volume 28, Issue 3, 2002.
  43. Hearst, 1992. Hearst, M.A., 1992, Automatic acquisition of hyponyms from large text corpora. // Proceedings of COLING'92, 14th International Conference on Computational Linguistics, Nantes, France, pp. 539−545.
  44. Lappin, 2007. Shalom Lappin. Intensional Theories of Meaning: Introduction to Montague Semantics // http://www.dcs.kcl.ac.uk/staff/lappin/seminar07/seminar07 montague seman tics.pdf.
  45. Manning and Schutze, 1999. Manning, C.D., and Schutze, H., 1999, Foundations of Statistical Natural Language Processing, MIT Press, Cambridge, Massachusetts, USA.
  46. Michalski et al., 1996. R.S. Michalski, I. Bratko, and M. Kubat, Machine Learning and Data Mining: Methods and Applications, 1996, John Wiley & Sons Ltd.
  47. Mitchell, 1997. Mitchell, T.M., 1997, Machine Learning, McGraw-Hill.
  48. Montague, 1974. Montague, Richard. Formal Philosophy: Selected Papers of Richard Montague. Edited and with an introduction by Richmond Thomason, New Haven: Yale Univ. Press. 1974.
  49. Mooney, 2007. Raymond J. Mooney, 2007, Learning for Semantic Parsing. // Proceedings of the 8th International Conference, CICLing 2007, Mexico City, pp. 311−324, Springer, Berlin, Germany, February 2007.
  50. Muggleton and Raedt, 1994. Muggleton, S., and De Raedt, L., 1994, Inductive logic programming: theory and methods. // Journal of Logic Programming, 19−20:629−679.
  51. Osipov, 1995. Osipov G.S. Method for Extracting Semantic Types of Natural Language Statements from Texts Proc. 10-th IEEE Intern. Simposium on Intelligent Control. Monterey, California, 1995.
  52. Oueslati, 1999. Oueslati, R., 1999, Aide a Г acquisition de connaissances a partir de corpus, PhD thesis, Universite Louis Pasteur, Strasbourg, France.
  53. Partee и Борщев, 2003. B.H. Partee и В. Б. Борщев. Интеграция лексической и формальной (композиционной) семантики. Лекции, Апрель 2003. http://www.ksu.ru/ss/cogsci04/education/partee.php3.
  54. Pradhan et al., 2005. Sameer Pradhan, Kadri Hacioglu, Valeri Krugler, Wayne Ward, James H. Martin, and Daniel Jurafsky. Support vector learning for semantic argument classification. // Machine Learning Journal, 2005.
  55. Pradhan, 2005. Sameer Pradhan, Kadri Hacioglu, Valerie Krugler, Wayne Ward, James H. Martin, Daniel Jurafsky, Support Vector Learning for Semantic Argument Classification. // Machine Learning, 60, 11−39, 2005.
  56. Rohit et al., 2004. Rohit J. Kate, Yuk Wah Wong, Ruifang Ge, Raymond J. Mooney, Learning Transformation Rules for Semantic Parsing, Unpublished Technical Note, April 2004.
  57. Rohit and Mooney, 2007. Rohit J. Kate and Raymond J. Mooney. Semi-Supervised Learning for Semantic Parsing using Support Vector Machines. // Proceedings of the Human Language Technology Conference of the North
  58. American Chapter of the Association for Computational Linguistics, Short Papers (NAACL/HLT-2007), pp. 81−84, Rochester, NY, April 2007.
  59. Toutanova et al., 2005. Kristina Toutanova, Aria Haghighi, Christopher Manning, Joint Learning Improves Semantic Role Labeling. // Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, p.589−596, June 25−30, 2005.
  60. Yamada and Baldwin, 2004. Ichiro Yamada, Timothy Baldwin. Automatic Discovery of Telic and Agentive Roles from Corpus Data // Proceeding of the 18th Pacific Asia Conference on Language, Information and Computation, Tokyo, Japan, 2004, pp. 115−126.
Заполнить форму текущей работой