Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов
На основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном языке, разработать методы и алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в человеко-машинной системе интерпретации текстов на естественном языке; Уровень развития современных коммуникационных и информационных технологий позволяет… Читать ещё >
Содержание
- Глава I. Компьютерная интерпретация текстов на естественном языке
- 1. 1. Интерпретация и формы представления ее результатов
- 1. 2. Существующие системы автоматической формализации текстов
- 1. 3. Оценка качества систем автоматической интерпретации
- Глава II. Применение шаблонов для формализации текстовой информации
- 2. 1. Методы автоматического формирования шаблонов идентификации сущностей и событий
- 2. 2. Структура синтакгико-семантического шаблона интерпретации
- 2. 3. Человеко-машинная технология формирования и применения синтактико-семантических шаблонов
- Глава III. Алгоритмы метода синтактико-семантических шаблонов
- 3. 1. Формирование графа синтактико-семантических отношений
- 3. 2. Автоматизированное создание шаблона интерпретации
- 3. 3. Уровни обобщения лингвистических характеристик
- 3. 4. Оптимизация набора синтактико-семантических шаблонов
- 3. 5. Автоматизированная интерпретация предложения
- Глава IV. Макет системы автоматизированной интерпретации и результаты его опытной эксплуатации
- 4. 1. Формальный язык описания предметной области
- 4. 2. Структура информационных объектов
- 4. 3. Функции интерфейса пользователя
- 4. 4. Результаты опьпной эксплуатации и пути совершенствования метода
Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов (реферат, курсовая, диплом, контрольная)
Уровень развития современных коммуникационных и информационных технологий позволяет информационным центрам ведомственного и государственного уровня оперативно получать и хранить достаточно продолжительное время первичную информацию из оперативных подразделений и средств массовой информации.
Традиционно, анализ и обобщение поступающей информации выполняется частично на каждом уровне иерархической структуры ведомства, причем результаты анализа на предыдущем уровне иерархии поступают как исходные данные на следующий уровень. Такая организация работы является естественной при обработке информации специалистами, она обусловлена ограниченными возможностями отдельного человека и характеризуется затруднениями на этапе объединения результатов работы нескольких специалистов в один документ.
Современные требования по оперативности и точности принятия управленческих решений вынуждают искать альтернативные пути анализа поступающей информации. Одним из них является применение методов ее компьютерной обработки, которые имеют многие преимущества, например:
• увеличение скорости обработки информации до уровня, при котором становится возможной обработка первичной информации на любой ступени иерархической структуры ведомства;
• исключение обобщений на промежуточных ступенях иерархической структуры ведомства позволяет уменьшить искажения и потери первичной информации.
В подавляющем большинстве случаев, первичной информацией являются тексты на естественном языке, которые создаются сотрудниками ведомства и предназначены для экспертов и руководства. Данная форма представления информации является практически неприемлемой для компьютерной обработки и нуждается в соответствующем преобразовании, которое в данной работе названо интерпретацией.
Проблемная ситуация заключается в низкой полноте и точности компьютерной интерпретации текстов на естественном языке, а также в высокой трудоемкости настройки автоматизированных систем на предметные области интерпретации и формальные языки представления ее результатов. Существующие в настоящее время системы компьютерной интерпретации носят узкоспециализированный характер. Процессы их настройки и эксплуатации строго разделены. Настройка представляет собой длительный (до нескольких месяцев) процесс, выполняемый квалифицированными специалистами и тесно связана как с предметной областью, описываемой интерпретируемыми текстами, так и с форматом представления результатов интерпретации, который зависит от специфики их дальнейшей обработки.
Объект исследования — информационная технология интерпретации текстов на естественном языке.
Предмет исследования — автоматизированная интерпретация текстов методом синтактико-семантических шаблонов.
Диссертационное исследование выполнено в соответствии с положениями п.п. 4, 5 и 7 областей исследований специальности 05.25.05: разработанный метод относится к методам семантического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями. Результаты исследования содержат новые подходы к формированию лингвистического обеспечения информационных систем и процессов в части его автоматизированной настройки на предметные области и формальные языки интерпретации.
Целью работы является совершенствование информационной технологии компьютерной интерпретации текстов на естественном языке за счет:
• разработки метода автоматизированного формирования синтактико-семантических шаблонов в процессе работы оператора, выполняющего интерпретацию текстов;
• разработки алгоритмов применения синтактико-семантических шаблонов в информационной технологии компьютерной интерпретации.
Для достижения поставленной цели необходимо решить следующие задачи:
1. на основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном языке, разработать методы и алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в человеко-машинной системе интерпретации текстов на естественном языке;
2. провести экспериментальную проверку разработанных методов и алгоритмов на макете системы автоматизированной интерпретации;
3. на основе анализа результатов опытной эксплуатации макета определить эффективность и область применения метода синтактико-семантических шаблонов, определить направления его совершенствования.
Методы исследования. Результаты диссертационной работы получены на основе анализа и научного обобщения мирового опыта в разработке систем формализации информации, содержащейся в текстах на естественном языке, использования научных положений теории графов, теории множеств, методов прикладной и структурной лингвистики.
Научная новизна исследования. В диссертационной работе получены новые научные результаты:
1. в человеко-машинной технологии интерпретации текстов предложено использовать промежуточный формальный язык, инвариантный к предметной области интерпретации и к формальному языку представления ее абстрактных состояний;
2. разработаны методы формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;
3. разработаны частные методики и алгоритмы применения, формирования, верификации и оптимизации синтактико-семантических шаблонов, предназначенных для автоматической интерпретации текстов в пределах ограниченной предметной области.
Практическая ценность работы заключается в возможности увеличения производительности человеко-машинных систем интерпретации текстов на естественном языке. Разработанные методы и алгоритмы рассчитаны на применение в составе инструментальных средств настройки систем автоматической формализации информации, содержащейся в текстах. Созданный макет системы интерпретации может использоваться при решении задач автоматизированного наполнения фактографических баз данных.
Апробация работы. Содержание отдельных разделов диссертационной работы было использовано в НТЦ «Атлас» при выполнении НИР «Услуга».
Разработанные в диссертационной работе методы, алгоритмы и макеты программных средств были использованы ФГУП «МНИИ «Интеграл» при исследованиях и разработках в области интеллектуальных информационных систем.
Созданный макет системы автоматизированной интерпретации внедрен в опытную эксплуатацию консалтинговой компанией IDS Scheer и используется для получения сведений об экономических показателях, содержащихся в текстах отчетных материалов в интересах Центрального банка РФ, ОАО.
Лукойл", ОАО «Сургутнефтегаз», ОАО «Белгородэнерго», ОАО «Тюменьэнерго» и др.
Отдельные результаты исследования докладывались на международной конференции «Развитие и защита бизнеса: практика и технологии». Работа в целом доложена на семинаре кафедры информатизации структур государственной службы Российской академии государственной службы при Президенте РФ.
Публикации. Основные результаты диссертационной работы опубликованы в четырех печатных работах.
Структура диссертационной работы.
Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 156 страницах, содержит 33 рисунка и список литературы из 38 наименований.
Заключение
.
В диссертационной работе получены следующие результаты:
1. Разработан метод интерпретации текстов на естественном языке, который предусматривает автоматизированное обучение системы в процессе интерактивной интерпретации предложения оператором.
2. Предложен и применен промежуточный формальный язык представления лингвистических характеристик текста — граф синтактико-семантических отношений, инвариантный к формальному языку описания предметной области интерпретации.
3. Разработаны алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в процессе эксплуатации человеко-машинной системы интерпретации текстов на естественном языке.
4. Предложены методы и алгоритмы автоматизированной верификации результатов интерпретации и оптимизации сформированного набора синтактико-семантических шаблонов.
5. Для экспериментальной проверки разработанных методов и алгоритмов создан макет программного комплекса. В результате опытной эксплуатации макета определены область применения предлагаемого метода интерпретации, его эффективность и основные пути дальнейшего совершенствования.
Список литературы
- Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции (Том 1. Синтаксический анализ). М.: Мир, 1978
- Белоногов Г. Г., Быстрое И. И., Козачук М. В. Новоселов А.П., Хорошилов А. А. Автоматический концептуальный анализ текстов. Сб. «Научно-техническая информация», Серия 2, № 10, ВИНИТИ, 2002
- Белоногов Г. Г., Калинин Ю. П., Хорошилов А. А., Компьютерная лингвистика и перспективные информационные технологии М.: Русский мир, 2004
- Белоногов Г. Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Козачук М. В., Рыжова Е. Ю., Гуськова Л. Ю., Каким быть машинному переводу в XXI веке. Сб. «Перевод: традиции и современные технологии». Изд. ВЦП, Москва, 2002
- Большой энциклопедический словарь «Языкознание». М.: Большая российская энциклопедия, 2000
- Виноград Т. Программа, понимающая естественный язык. М.: Мир, 1976
- Гаврилова Т.А., Червинская К. Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992
- Горелов И.Н. Разговор с компьютером: психологический аспект проблемы. М.: Наука, 1987
- Громов А.И., Чубинидзе К. А. Управление знаниями и семантический анализ текстов в системе Retrieval Ware компании Convera. М.: Информационные технологии в проектировании и производстве, 2005, № 3
- Ю.Ермаков А. Е. Компьютерная лингвистика и интеллектуальные технологии. Труды Международного семинара «Диалог-2002». Т.2. Прикладные проблемы. М.: Наука, 2002
- Искусственный интеллект: в 3-х кн. Кн. 2. Модели и методы: Справочник /Под ред. Д. А. Поспелова. М.: Радио и связь, 1990
- Калинин Ю.П., Деев В. В. и др. Распознавание ситуаций, основанное на обработке смыслов. Нетрадиционная постановка задачи. Материалы конференции «Нейрокомпьютеры и их применение» НКП-96,1996
- Киселев С.Л., Ермаков А. Е., Плешко В. В. Поиск фактов в тексте естественного языка на основе сетевых описаний. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.
- Кобрицов Б.П., Ляшевская О. Н. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.
- Кормалев Д. А. Автоматическое построение правил извлечения информации из текста. Труды первой международной конференции «Системный анализ и информационные технологии» Т.1. М.: КомКнига, 2005
- Кузнецов И.П. Семантические представления. М. Наука, 1986
- Кузнецов И.П., Шарнин М. М. Интеллектуальный редактор знаний на основе расширенных семантических сетей / Системы и средства информатики. Вып. 5 М.: Наука, 1993
- Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов. Препринт ИПМ им. М. В. Келдыша, АН СССР, № 205,1987
- Лайонз Дж. Введение в теоретическую лингвистику. «Прогресс», Москва, 1975
- Лезин Г. В., Мамедниязова Н. С. О представлении семантики концептуальных моделей в базах знаний. Труды международного семинара «Диалог-2000» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
- Лезин Г. В., Тузов В. А. О представлении результатов семантико-синтаксического анализа текста концептуальными моделями данных. Труды международного семинара «Диалог-2003» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
- Леонтьева Н.Н. Семантика связанного текста и единицы информационного анализа. НТИ, № 1,1981
- Липинский Г. В. Russian Context Optimizer: путь к возможностям Oracle interMedia в русскоязычных базах данных. Доклад на XII конференции АПО/ROUG, 1 сентября 2000
- Лозовский B.C. Семантические сети / Представление знаний в человеко-машинных и робототехнических системах. М.: ВИНИТИ, 1984
- Мельчук И.А. Опыт теории лингвистических моделей «Смысл текст». -М.: Наука, 1974
- МихайловьА.И., Черный А. И., Гиляревский Р. С. Основы информатики. -М.: Наука, 1968
- Пименов Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС /Е.Н. Пименов //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2000. No 5.
- Пиотровский Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). СПб.: РГПУ им. А. И. Герцена, 1999
- Пиотровский Р.Г. Инженерная лингвистика и теория языка. М.: Наука, 1979
- Попов Э.В. Искусственный интеллект: Справочник. В 3-х т. М.: Радиосвязь, 1990
- Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982
- ПоповЭ.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987
- Поспелов Д.А. Энциклопедия по информатике. М.: Просвещение, 1994
- Поспелов Г. С. Некоторые вопросы реализации диалоговых систем. М.: Наука, 1980
- Представление знаний и моделирование процесса понимания. -Сб.научных трудов / Под ред. А. С. Нариньяни. Новосибирск, СО АН СССР, 1980
- Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М.: Наука, 1989
- Свами М., Тхуласираман К. Графы, сети и алгоритмы. -М.: Мир, 1984
- Скрытое эмоциональное содержание текстов СМИ и методы его объективной диагностики / Под ред. А. А. Леонтьева, Д. А. Леонтьева. М.: Смысл, 2004
- Тузов В.А. Компьютерная семантика русского языка. Труды международного семинара «Диалог-2001» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
- Тузов В.А. Система семантико-синтаксического анализа предложений на русском языке // Информационные технологии в гуманитарных и общественных науках. СПб.:СПб ЭМИ РАН, 2002. Вып. 12.
- Уэно X., Кояма Т., Окамото Т. И др. Представление и использование знаний / Пер. С англ.- Под ред. У. Уэно, М.Исудзука. М.: Мир, 1989
- Филиппович Ю.Н., Филиппович А. Ю. Специальность «Компьютерная лингвистика и семиотика» // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. Выпуск 5 / Сост. и ред. Ю. Н. Филипповича. М.: Эликс+, 2003
- Филиппович Ю.Н., Родионов Е. В., Черкасова Г. А. Языковые средства диалога человека с ЭВМ- Под ред. В. Н. Четверикова М.: Высшая школа, 1990
- Филиппович Ю.Н. Метафоры информационных технологий. С предисловием Караулова Ю. Н. М.: МГУП- 2002
- Филиппович Ю.Н. Семантика информационных технологий: опыты словарно-тезаурусного описания: С предисл. А. А. Новикова / Ю. Н. Филиппович, А.В. Прохоров- М.: МГУП., 2002.
- Чубинидзе К.А. Использование технологии динамической классификации для интенсификации аналитической деятельности. М.: Информационные технологии в проектировании и производстве, 2005, № 3
- Чубинидзе К.А. Компьютерная интерпретация текстов на естественном языке на основе синтактико-семантических шаблонов. НТИ Серия 2. Информационные процессы и системы. — М.: ВИНИТИ, 2005, № 2
- Чубинидзе К.А. Структура модели событий, описываемых текстами на естественном языке. -М.: Компьюлог, 2004, № 3 (63)
- Чубинидзе К.А. Структурированная интерпретация сводок оперативной информации. Межотраслевая информационная служба, вып. 3−4 (128 129), М.:ВИМИ, 2004
- Шемакин Ю.И., Романов А. А. Компьютерная семантика. М.: Школа Китайгородской, 1995
- Шемакин Ю.И. Основы информатики и вычислительной лингвистики. -М.: МИНХ им. Г. В. Плеханова, 1983
- Шемакин Ю.И. Семантика самоорганизующихся систем. М.: Академический проект, 2003
- Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980
- Якушин Б.В. Слово. Понятие. Информация. М.: Молодая гвардия, 1975
- D.Applet, J. Hobbs, J. Bear, D. Israel, M. Kameyama, M.Tyson. FASTUS: a finite-state processor for extracting information from real-world text. In Proc. 13-th International Joint Conference on Artificial Intelligence, 1993
- A.Borthwick, J. Sterling, E. Agichtein, R.Grishman. Exploiting diverse knowledge sources via maximum entropy in named entity recognition. In Proc. 6-th Workshop on Very Large Corpora, Montreal, 1998
- D.Bikel, S. Miller, R. Schwartz, R.Weischedel. Nymble: a high-performance learning name-finder. In Proc. 5-th Conference on Applied Natural Language Processing. Washington, DC, 1997
- R.Schank, M. Lebowitz, L.Birnbaum. An integrayed understander. Amer. J. Comput. Ling., 1980, 6, № 1
- C.Freedman, G. Hripcsak, W. DuMouchel, S.B.Johnson, P.D.Clayton. Natural language processing in an operational clinical information systems. Natural Language Engineering (1), 1995
- RCO Syntactic Engine: библиотека синтаксического анализа. Copyright © ООО «Гарант-Парк-Интернет», 2003
- RCO Pattern Extractor 1.0: библиотека выделения объектов в тексте. Руководство разработчика. Copyright © ООО «Гарант-Парк-Интернет», 2003
- RCO Fact Extractor 1.0: настройка описаний фактов. Руководство администратора. Copyright © ООО «Гарант-Парк-Интернет», 2004
- E.Riloff. Automatically generating extraction patterns from untagged text. In Proc. 13-th National Conference on Artificial Intelligence, 1996
- B.Sundheim ed., Proceedings Fifth Message Understanding Conference (MUC-5), Baltimore, Maryland, August 1993. Distributed by Morgan Kaufmann Publishers, Inc., San Mateo, California
- The Oxford Handbook of Computational Linguistics. Ed. by R. Mitkov, Oxford University Press, 2003
- Tipster Text Program (Phase I). Proceedings, Advanced Research Projects Agency, September 1993
- R.Yangarber, R.Grishman. Customization of Information Extraction Systems. In Proc. International Workshop on Lexically Driven Information Extraction, Frascati, 1997
- R.Yangarber, R. Grishman, P. Tapanainen, S.Huttunen. Automatic acquisition of domain knowledge for information extraction. In Proc. 18-th International Conference on Computational Linguistics, Saarbriicken, 2000