Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

В работе описывается метод оценки семантической близости синсетов с помощью контекстных векторов, использующий информацию о совместной встречаемости слов в тексте. Оценка эффективности этого метода проводилась на нескольких наборах слов. Данный метод показывает лучшие результаты среди других методов оценки семантической близости слов на базе ресурса У/огсШе!-. Однако, практическое применение… Читать ещё >

Содержание

Глава 1. Обзор методов категоризации текстовых документов
- 1. 1. Формализация задачи
- 1. 2. Автоматическая категоризация
- 1. 3. Индексирование документов
- 1. 4. Уменьшение размерности пространства признаков
- 1. 5. Методы построения классификаторов
- 1. 6. Оценка эффективности
- 1. 7. Ансамбли классификаторов
- 1. 8. Выводы
Глава 2. Разработка классификатора
- 2. 1. Лексическая база WordNet
- 2. 2. Методы разрешения лексической многозначности
- 2. 3. Алгоритм разрешения лексической многозначности
- 2. 4. Построение классификатора
- 2. 5. Категоризация документов
- 2. 6. Выводы
Глава 3. Программная реализация и экспериментальные исследования
- 3. 1. Программная реализация
- 3. 2. Эксперименты на коллекции «Reuters-21 578»
- 3. 3. Эксперименты на коллекции «Reuters Corpus Volume 1»
- 3. 4. Анализ результатов и рекомендации
- 3. 5. Выводы

Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов (реферат, курсовая, диплом, контрольная)

Актуальность работы. Объем накапливаемой и обрабатываемой информации постоянно увеличивается, что приводит к сложности ориентирования в информационных ресурсах, и делает задачу категоризации все более актуальной. Использование классификаторов позволяет ограничить поиск необходимой информации относительно небольшим подмножеством документов. Так, например, в «автоматизированной системе тематического анализа информации» [8] классификатор используется для фильтрации результатов поиска, что повышает релевантность поисковой выдачи. Помимо сужения области поиска в поисковых системах, задача категоризации имеет практическое применение в следующих областях: фильтрация спа-ма [18], составление тематических каталогов, контекстная реклама [27], системы электронного документооборота, автоматическое реферирование [1], снятие омонимии [65, 112] в автоматическом переводе текстов.

Категоризация текстовых документов является задачей автоматического отнесения документа к одной или нескольким категориям на основании содержания документа. Существуют различные модели и методы категоризации текстов —- деревья решений, метод наименьших квадратов, адаптивные линейные классификаторы, метод ближайших соседей, метод опорных векторов и другие [97].

В последнее время активно разрабатываются способы интеграции различных баз знаний и ресурсов в методы категоризации текстовых документов с целью получения высоких результатов категоризации. Большой интерес представляет использование семантических ресурсов, таких как WordNet или УПиресНа.

WordNet [106] — это семантический словарь английского языка, базовой словарной единицей которого является синонимический ряд, так называемый «синеет», объединяющий слова со схожим значением. Синсеты связаны между собой различными семантическими отношениями. Также существуют реализации для других языков, ведутся разработки WordNet для русского языка.

Большинство методов категоризации основывается на использовании простой векторной модели описания документов, в которой признаками документов являются базовые формы слов. Использование слов в качестве признаков имеет ряд недостатков: словосочетания, такие как «European Union», разделяются на отдельные слова и обрабатываются независимослова, являющиеся синонимами, используются как самостоятельные признакимногозначные слова рассматриваются как обычные признаки, в то время как они могут иметь несколько различных значений. В работе [55] отмечается, что использование в качестве признаков документов значений слов, представленных синсетами, может приводить к улучшению качества категоризации на 28%. Такие результаты были получены на коллекции документов, где устранение лексической многозначности слов было выполнено вручную. Согласно результатам исследования, эффективность категоризации при использовании методов автоматического разрешения лексической многозначности, доля ошибок которых составляет менее 10%, сопоставима с эффективностью категоризации для вручную размеченного текста. Увеличение доли ошибок разрешения лексической многозначности с 10% до 30% приводит к резкому спаду эффективности категоризации, а для методов с ошибкой 30−60% использование в качестве признаков синсетов не приводит к заметному приросту эффективности категоризации.

Существует несколько публикаций, в которых сравниваются эффективности категоризации с использованием слов и синсетов WordNet, полученных с помощью различных методов автоматического разрешения лексической многозначности. В системе автоматической категоризации документов на базе метода /с-ближайших соседей [49] использование синсетов в качестве признаков, полученных с помощью метода на базе скрытой модели Маркова, приводит к росту эффективности категоризации на 2%. В работе [36] проводилось сравнение алгоритма категоризации «Ас1аВоо8*Ь» на нескольких коллекциях документов, а для устранения лексической многозначности слов применялся метод, суть которого заключается в выборе того синсета, слова которого в документе встречаются чаще остальных. Использование данного метода позволяет повысить эффективность категоризации на 1%.

В работе [83] описывается метод оценки семантической близости синсетов с помощью контекстных векторов, использующий информацию о совместной встречаемости слов в тексте. Оценка эффективности этого метода проводилась на нескольких наборах слов. Данный метод показывает лучшие результаты среди других методов оценки семантической близости слов на базе ресурса У/огсШе!-. Однако, практическое применение данного метода для устранения лексической многозначности не исследовалось.

Актуальность исследования обуславливается практической значимостью систем автоматической категоризации текстовых документов, в которых в качестве признаков используются значения слов, представленные синсетами А/огсШеЪ.

Цели диссертационной работы:

1. Разработать и реализовать алгоритм разрешения лексической многозначности слов с помощью контекстных векторов на базе ресурса Word.Net.

2. Реализовать программный комплекс автоматической категоризации текстовых документов с использованием синсетов WordNet в качестве признаков документов.

3. Исследовать применимость разработанного алгоритма разрешения лексической многозначности к различным коллекциям документов с помощью оценки его влияния на эффективность категоризации.

Научная новизна исследования состоит в следующем:

1. Разработан алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом.

2. Реализован программный комплекс автоматической категоризации текстовых документов, в котором используются синсеты WordNet в качестве признаков документов и контекстные векторы для разрешения лексической многозначности.

Практическая значимость заключается в формировании нового инструмента, позволяющего повысить эффективность категоризации текстовых документов.

Полученные в диссертации результаты могут быть использованы в существующих информационных системах для повышения релевантности ре. I. II 11, I. зультатов поиска, в системах электронного документооборота для тематической категоризации документов, и представляют научный интерес для специалистов в области информационного поиска и машинного обучения.

Основные положения, выносимые на защиту:

1. Алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом.

2. Алгоритм обработки текстовых документов, позволяющий выделять в тексте словосочетания произвольной длины, для которых существуют синсеты ¥-огсШе1-.

3. Повышение качества категоризации неспециализированных текстов при использовании в качестве признаков документов синсетов WordNet, полученных с помощью разработанного алгоритма разрешения лексической многозначности.

4. Влияние на качество категоризации тематики корпуса для построения пространства слов, в котором представляются контекстные векторы.

Апробация работы. Основные результаты диссертации докладывались на следующих конференциях и семинарах: XVIII всероссийский семинар «Нейроинформатика, ее приложения и анализ данных», г. Красноярск, Академгородок, 2010; II международная научно-практическая конференция «Прогрессивные технологии и перспективы развития», г. Тамбов, 2010; II международная заочная научно-практическая конференция «Современные направления научных исследований», 2010; межвузовская научно-практическая конференция «Информационные технологии и автоматизация управления», г. Омск, 2009; научный семинар кафедры информационной безопасности факультета компьютерных наук ОмГУ им. Ф. М. Достоевского, г. Омск, 2010.

Публикации. Материалы диссертации опубликованы в 10 печатных работах, из них 2 статьи в журналах из списка, рекомендованного ВАК.

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Все представленные в диссертации результаты получены лично автором.

Структура и объем диссертации

Диссертация состоит из введения, трех основных глав, заключения и библиографии. Общий объем диссертации 118 страниц, содержит 16 рисунков и 18 таблиц. Библиография.

Основные результаты диссертационной работы:

1. Разработан и реализован алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом. Построение контекстных векторов осуществляется на корпусе текстов, который получен путем объединения дефиниций синсетов.

2. Разработан и реализован алгоритм обработки текстовых документов, позволяющий выделять в тексте словосочетания произвольной длины, для которых существуют синсеты ^^УогсШе^.

3. Разработан и реализован алгоритм категоризации текстовых документов на базе метода £—ближайших соседей, в котором синсеты используются в качестве признаков документов. Предложены две стратегии определения категорий: а. Выбор наиболее встречающихся категорий среди ближайших документов (стратегия с/г). б. Построение ранжирующих функций СЭЦ, и определение множества пороговых значений т^.

4. Предложенные алгоритмы могут быть использованы в существующих информационных системах для повышения релевантности результатов поиска, в системах электронного документооборота для тематической категоризации документов.

5. Показано, что использование в текстовом классификаторе в качестве признаков документов синсетов «/Уогс1Ме1-, полученных с помощью разработанного алгоритма разрешения лексической многозначности, позволяет повысить эффективность категоризации неспециализированных текстов.

6. Показано, что эффективность категоризации зависит от размера обрабатываемых документов. Увеличение длины документов сопровождается снижением качества категоризации. Но в тоже время использование разработанного алгоритма разрешения лексической многозначности позволяет добиться улучшения качества категоризации длинных документов.

7. Выявлено, что. тематика корпуса текстов для построения пространства слов, в котором представляются контекстные векторы, оказывает влияние на качество категоризации. Отсутствие контекстных векторов первого порядка слов, определяющих контекст, приводит к некачественному построению для него контекстного вектора второго порядка.

8. Предложены рекомендации, направленные на улучшение качества категоризации документов с использованием разработанного алгоритма разрешения лексической многозначности: а. Вместо отбрасывания часто и редко-встречающихся слов в корпусе текстов при построении пространства слов, можно воспользоваться функциями взвешивания слов и выбором наиболее значимых. б. Рекомендуется использовать в качестве корпуса текстов для построения пространства слов специально разработанные тексты, чтобы пространство слов было образовано словами, которые встречаются в категоризируемых документах. в. Совместно с синсетами использовать также базовые формы слов в качестве признаков документов, так как погрешности в разрешении лексической многозначности оказывают негативное влияние на эффективность категоризации. г. Задействовать родовые отношения синсетов WordNet для категоризации, а не только для построения контекстных векторов.

Заключение

Показать весь текст

Список литературы

A.C. Епрев. Применение разрешения лексической многозначности в классификации текстовых документов // Наука и образование. 2010. №'10. С. 1−4.
A.C. Епрев. Применение контекстных векторов в классификации текстовых документов // Журнал радиоэлектроники. 2010. № 10. С. 1−7.
А. С. Епрев. Тематическая классификация документов по степени близости термов-//'Математические структуры и моделирование. 2009. № 20. С. 93−96.
А. С. Епрев. Автоматическая классификация текстовых документов // Математические структуры и моделирование. 2010. № 21. С. 65−81.t I ч. ПИнЩ .' >1 ' '
А. С. Епрев. Использование WordNet в k-NN классификаторе // Материалы XVIII Всероссийского семинара «Нейроинформатика, ее приложения и анализ данных». Красноярск, 2010. С. 68−72.
А. С. Епрев. Методы разрешения лексической многозначности на базе? огс^е! // Материалы II международной заочной научно-практической конференции «Современные направления научных исследований». Екатеринбург, 2010. С. 85−86.
А. С. Епрев. Интеграция семантического словаря WordNet в текстовый классификатор // Материалы II международной научно-практической конференции «Прогрессивные технологии и перспективы развития». Тамбов, 2010. С. 25−26.
Авдейчик В. Г., Чернявский А. Ю., Шмелев А. С. Система классификации текстов «NN03» // Российский семинар по Оценке Методов Информационного Поиска. Ярославль, 2005. С. 74−77.
Азарова И. В., Митрофанова О. А., Синопальникова А. А. Компьютерный тезаурус русского языка типа WordNet // Компьютерная лингвистика и интеллектуальные технологии. 2003. С. 43−50.
Белов А. А., Волович М. М. Автоматическое распознавание тематики сверхкоротких текстов // Труды международной конференции «Диалог 2007». Москва, 2007. С. 35−37.
Васенин В. А., Афонин С. А., Козицын А. С. Автоматизированная система тематического анализа информации // Информационные технологии. Приложение. 2009. № 4. С. 1−32.
Васильев В. Г. Комплексная технология автоматической классификации текстов // Труды международной конференции «Диалог 2008». Москва, 2008. С. 83−90.
Воронцов К. В. Лекции по методу опорных векторов. URL: http: // www.ccas.ru/voron/download/SVM.pdf (дата обращения: 12.12.2009).
Гельбух А. Ф., Сидоров Г. О., Гузмап-Аренас А. Система поиска и классификации документов с использованием иерархического словаря тем // Искусственный интеллект. 1999. № 2. С. 321−328.
Гребенкин И. М., Загоруйко Н. Г., Налетов А. М. На пути к автоматическому построению онтологии // Труды международной конференции «Диалог 2003». Протвино, 2003. С. 316−411.
Дерновой Г. Семантический анализ и РОМИП // Российский семинар по Оценке Методов Информационного Поиска. Санкт-Петербург, 2003. С. 207−213.
Добров Б. В., Иванов В. В., Лукашевич Н. В., Соловьев В. Д. Онтологии и тезаурусы: модели, инструменты, приложения. URL: http://www.intuit.ru/department/expert/ontoth/ (дата обращения: 10.11.2010).
Кобрицов Б. П., Ляшевская О. Н. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка // Труды международной конференции «Диалог 2004». Санкт-Петербург, 2004. С. 298−304.
Козеренко А. Д. Рубрикатор в борьбе со спамом // Труды международной конференции «Диалог 2004». Санкт-Петербург, 2004. С. 34−37.
Максаков А. Сравнительный анализ алгоритмов классификации и способов представления Web-документов // Российский семинар по Оценке Методов Информационного Поиска. Ярославль, 2005. С. 63−73.
Митрофанова О. А., Паничева П. В., Ляшевская О. Н. Статистическое разрешение лексико-семантической неоднозначности в контекстах для предметных имен существительных // Труды международной конференции «Диалог 2008». Москва, 2008. С. 368−375.
Панков С. В., Шебанин С. П., Рыбаков А. А. Тематическая классификация текстов // Российский семинар по Оценке Методов Информационного Поиска. Казань, 2010. С. 142−147.
Соловьев В. Д., Добров Б. В., Иванов В. В., Лукашевич Н. В. Онтологии и тезаурусы: Учебное пособие. Казань, Москва: Казанский государственный университет, МГУ им. М. В. Ломоносова, 2006. 157 с.
Сухоногов А. М., Яблонский С. А. Автоматизация построения англорусского WordNet '//"Труды международной конференции «Диалог 2005″. Звенигород, 2005. С. 46−51.
Anagnostopoulos A., Broder A. Z., Gabrilovich Е. et al. Just-in-time contextual advertising // Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Toronto, Canada, 2007. P. 331−340.
Armstrong J. Programming Erlang Software for a Concurrent World. Pragmatic Bookshelf,-20 071. ?536 p.
Baker L. D., McCallum A. K. Distributional clustering of words for text classification // Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval. Melbourne, Australia, 1998. R 96−103.
Banerjee S., Pedersen T. An adapted Lesk algorithm for word sense disambiguation using WordNet // Lecture Notes in Computer Science. 2002. Vol. 2276. P. 117−171.
Banerjee S., Pedersen T. Extended gloss overlaps as a measure of semantic relatedness // Proceedings of the Eighteenth International Conference on Artificial Intelligence. Acapulco, Mexico, 2003. P. 805−810.
Barak L., Dagan I., Shnarch E. Text categorization from category name via lexical reference // Proceedings of Human Language Technologies. Boulder, CO, USA, 2009. P. 33−36.
Bay S. D. Nearest neighbor classifiers from multiple feature subsets // Intelligent data analysis. 1999. Vol. 3. P. 191−209.
Bentaallahe M. A., Malki M. WordNet based multilingual text categorization // INFOCOMP Journal of Computer Science. 2007. Vol. 6, No. 4. P. 52−59.
Berger A. Statistical Machine Learning for Information Retrieval. Carnegie Mellon University, 2001. 143 p.
Bloehdorn S., Hotho A. Boosting for Text Classification with Semantic Features // Proceedings of the MSW 2004 Workshop at the 10th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Seattle, WA, USA, 2004. P. 70−87.
Brants T. TnT: A Statistical Part-Of-Speech Tagger // Proceedings ofthe sixth conference on Applied natural language processing. Seattle, WA, USA, 2000. P. 224−231.
Bryll R. Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets // Pattern Recognition. 2003. Vol. 36. P. 1291−1302.
Budanitsky A., Hirst G. Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures // Workshop on WordNet and other lexical resources. Pittsburgh, PA, USA, 2001. P. 76−81.
Cavnar W. B., Trenkle J. M. N-Gram-Based Text Categorization // Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, Nevada, USA, 1994. P. 161−175.
Cristianini N., Shawe-Taulor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000. 189 p.
Dietterich T. G. Machine learning research: four current directions // AI Magazine. 1997. Vol. 18. P. 97−136.
Edmonds P. SENSEVAL: The evaluation of word sense disambiguation systems // ELRA Newsletter. 2002. Vol. 7.
Elberrichi Z., Rahmoun A., Bentaalah M. A. Using WordNet for Text Categorization // The International Arab Journal of Information Technology. 2008. Vol. 5, No. 1. P. 16−24.
Ferretti E., Lafuente J., Rosso P. Semantic Text Categorization using the K Nearest Neighbours method // Proceedings of Workshop on Conceptual Information Retrieval, IICAI-2003. Hyderabad, India, 2003. P. 434−442.
Frakes B. Stemming algorithms // Information Retrieval: Data Structures and Algorithms. Prentice-Hall, Inc., 1992. P. 131−160.
Gabrilovich E., Markovitch S. Feature Generation for Text Categorization Using World Knowledge // International joint conference on Artificial Intelligence. 2005. Vol. 19. P. 1048−1053.
Gabrilovich E., Markovitch S. Computing semantic relatedness using Wikipedia-based Explicit Semantic Analysis // Proceedings of The 20th International Joint Conference on Artificial Intelligence (IJCAI). Hyderabad, India, 2007. P. 1606−1611.
Gomez J., de Buenaga M. Integrating a Lexical Database and a Training Collection for Text Categorization // Proceedings of ACL-EACL. Madrid, Spain, 1997. P. 112−123.
Gomez J. M., de Buenaga M., Urena L. A. et al. Integrating Lexical Knowledge in Learning-Based Text Categorization // Proceedings of the 6th International Conference on the Statistical Analysis of Textual Data. St. Malo, France, 2002. P. 410−419.
Gonzalo J., Verdejo F., Chugur I., Cigarrin J. Indexing with WordNet synsets can improve text retrieval // Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems. Montreal, Canada, 1998. P. 38−44.
Hayes P. J., Weinstein S. P. Construe: A System for Content-Based Indexing of a Database of News Stories // Proceedings of the Second Annual Conference on Innovative Applications of Intelligence. Washington, DC, USA, 1990. P. 49−64.
Heaps H. S. Information Retrieval: Computational and Theoretical Aspects. Academic Press, 1978. 368 p.
Heckerman D. A. A Tutorial on Learning With Bayesian Networks // Learning in graphical models. 1999. P. 301−354.
Hotho A., Staab S., Stumme G. Wordnet improves Text Document Clustering // Proceedings of the SIGIR Semantic Web Workshop. Toronto, Canada, 2003. P. 541−544.
Hull D. A. Improving text retrieval for the routing problem using latent semantic indexing // Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval. Dublin, Ireland, 1994. P. 282−289.
Jiang J., Conrath D. Semantic similarity based on corpus statistics and lexical taxonomy // Proceedings of ROCLING X. Taiwan, 1997. P. 19−33.
Joachims T. Making large-Scale SVM Learning Practical // Advances in Kernel Methods — Support Vector Learning. MIT Press, 1999. P. 41−56.
Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning. Chemnitz, Germany, 1998. P. 137−142.
Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization // Proceedings of International Conference on Machine Learning. Nashville, Tennessee, USA, 1997. 143−151 p.
Koeling R., McCarthy D., Carroll J. Text Categorization for Improved Priors of Word Meaning // Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing. Mexico City, Mexico, 2007. P. 241−252.
Koller D., Sahami M. Hierarchically classifying documents using very few words // Proceedings of ICML-97, 14th International Conference on Machine Learning. Nashville, Tennessee, USA, 1997. P. 170−178.
Lam S. L., Lee D. L. Feature reduction for neural network based text categorization // Proceedings of DASFAA-99. Taiwan, 1999. P. 195−202.
Lankhorst M. Automatic Word Categorization with Genetic Algorithms // Proceedings of the ECAI'94 Workshop on Applied Genetic and other Evolutionary Algorithms. Berkeley, CA, USA, 1995. P. 5−9.
Lewis D. D. The Reuters-21 578 text categorizationtest collection. URL: http://www.daviddlewis.com/resources/testcollections/ reuters21578/ (дата обращения: 12.12.2009).
Lewis D. D. Naive (Bayes) at forty: The independence assumption in information retrieval // Proceedings of ECML-98, 10th European Conference on Machine Learning. Chemnitz, Germany, 1998. P. 4−15.
Lewis D. D. An evaluation of phrasal and clustered representations on a text categorization task // Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval. Copenhagen, Denmark, 1992. P. 37−50.
Li Y. H., Jain A. K. Classification of Text Documents // The Computer Journal. 1998. Vol. 41, No. 8. P. 537−546.
Manning C., Raghavan P., Schutze H. Introduction to Information Retrieval. Cambridge University Press, 2008. 544 p. w l M i <�» i .
Marshall R. J. Generation of Boolean classification rules // Proceedings of Computational Statistics. Utrecht, Netherlands, 2000. P. 355−360.
Meltzer T. SVD and its Application to Generalized Eigenvalue Problems. URL: http://www.prip.tuwien.ac.at/teaching/ws/StME/apponly. pdf (дата обращения: 01.10.2010).
Miller G. A., Charles W. G. Contextual correlates of semantic similarity // Language and Cognitive Processes. 1991. Vol. 6. P. 1−28.
Mitchell Т. M. Machine Learning. New York: McGraw Hill, 1997. 414 p.
Montoyo A., Palomar M., Rigau G. Method for WordNet Enrichment Using WSD // Text, Speech and Dialogue. 2001. Vol. 2166. P. 180−186.
Navigli R. Word Sense Disambiguation: A Survey // ACM Computing Surveys. 2009. Vol. 41, No. 2. P. 1−69.
Oza N. C., Turner T. Decimated input ensembles for improved generalization // Proceedings of the International Joint Conference on Neural Networks. Washington, DC, USA, 1999.
Paliouras G., Karkaletsis V., Spyropoulos C. D. Machine Learning and Its Applications: Advanced Lectures (Lecture Notes in Computer Science / Lecture Notes in Artificial Intelligence). Springer, 2001. 325 p.
Patwardhan S., Pedersen T. Using WordNet-based context vectors to estimate the semantic relatedness of concepts // EACL 2006 Workshop Making Sense of Sense. TYento, Italy, 2006. P. 1−8.
Quinlan J. Induction of decision trees // Machine Learning. 1986. Vol. 1, No. 1. P. 81−106.
Quinlan J. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993. 302 p.
Quinlan J. R. Bagging, Boosting, and C4.5 // Proceedings of Artificial, i i 11 >. •. ' '1.telligence Conference. Budapest, Hungary, 1996. P. 725−730.
Resnik P. Using information content to evaluate semantic similarity in ataxonomy // Proceedings of the 14th International Joint Conference on Artificial Intelligence. Montreal, Canada, 1997. P. 448−453.
Rocchio J. J. Relevance feedback in information retrieval // The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice-Hall, Inc., 1971. P. 313−323.
Roget P. Roget’s Thesaurus of English Words and Phrases: Body. URL: http://www.gutenberg.org/files/10 681/10681-body.txt (дата обращения: 01.10.2010).
Rose T. G., Stevenson M., Whitehead M. The Reuters Corpus Volume 1 — from Yesterday’s News to Tomorrow’s Language Resources // Third International Conference on Language Resources and Evaluation. Las Palmas, Spain, 2002. P. 29−31.
Rubenstein H., Goodenough J. B. Contextual correlates of synonymy // Communications of the ACM. 1965. Vol. 8. P. 627−633.
Ruiz M., Srinivasan P. Hierarchical Text Categorization Using Neural Networks // Information Retrieval. 2002. Vol. 5, No. 1. P. 87−118.
Salton G., Buckley C. Term-Weighting Approaches in Automatic Text Retrieval // Information Processing and Management. 1988. P. 513−523.
Schutze H. Automatic word sense discrimination // Computational Linguistics. 1998. Vol. 24. P. 97−123.
Scott S., Matwin S. Feature engineering for text classification // Proceedings of ICML-99. San Francisco, CA, USA, 1999. P. 379−388.
Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. Vol. 34, No. 1. P. 1−47.
Sebastiani F. Text Categorization // Text Mining and Its Applications. WIT Press, 2005. P. 109−129.
Semantic Networks in Artificial Intelligence, Ed. by F. Lehmann. Perga-mon Press, 1992. 768 p.
Spearman C. Proof and measurement of association between two things // American Journal of Psychology. 1904. Vol. 15. P. 72−201.
Sussna M. .Word Sense. Disambiguation for Free-text Indexing Using a Massive Semantic Network // Proceedings of CIKM'93. Washington, DC, USA, 1993. P. 67−74.
Vossen P. EuroWordNet: A Multilingual Database with Lexical Semantic Networks // Computational Linguistics. 2003. Vol. 25, No. 4. P. 628−630.
Voutilainen A. Part-of-Speech Tagging // The Oxford Handbook of Computational Linguistics. Oxford University Press, 2005. P. 219−232.
Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques. Second edition. Morgan Kaufmann, 2005. 525 p.
Wong M. L., Cheung K. S. Data Mining Using Grammar Based Genetic Programming and Applications. Kluwer Academic Publishers, 2002. 228 p.
WordNet: An electronic lexical database, Ed. by C. Fellbaum. Cambridge, MA: MIT Press, 1998. 422 p.
WSD — Word Sense Disambiguation: Algorithms and Applications, Ed. by E. Agirre, P. Edmonds. Springer, 2006. 364 p.
Yang Y., Chute C. G. An example-based mapping method for text categorization and retrieval // ACM TYans. Inform. Syst. 1994. Vol. 12, No. 3. P. 252−277.
Yang Y., Liu X. A re-examination of text categorization methods // Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval. Berkeley, CA, USA, 1999. P. 42−49.
Yang Y., Pedersen J. O. A comparative study on feature selection in text categorization // Proceedings of ICML-97, 14th International Conference on Machine Learning. Nashville, Tennessee, USA, 1997. P. 412−420.
Zelaia A., Arregi O., Sierra B. UBC-ZAS: a k-NN based multiclassifier system to perform WSD in a reduced dimensional vector space // Proceedings of the 4th International Workshop on Semantic Evaluations. Prague, 2007. P. 358−361.

Заполнить форму текущей работой