Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке
Проблемы распознавания образов слов и словосочетаний во вьетнамских текстах исследовались в современных работах Д. Дьепа, Х. Н. Као, Х. П. Ле, К. Т. Нгуена, X. Нгуена, Л. А. Ха и др. Основные задачи обработки текстов на вьетнамском языке (лексико-грамматический анализ, синтаксический анализ и т. п.) сложны для вычислительной лингвистики в первую очередь из-за нерешенности проблемы делимитации… Читать ещё >
Содержание
- 1. Особенности обработки вьетнамских текстов
- 1. 1. Обработка естественного языка
- 1. 2. Особенности вьетнамских текстов
- 1. 2. 1. Вьетнамский язык
- 1. 2. 2. Проблемы обработки вьетнамских текстов
- 1. 3. Программные продукты для обработки естественного языка
- 2. Методы распознавания образов при графематическом анализе
- 2. 1. Извлечение графематических дескрипторов
- 2. 1. 1. Графематические дескрипторы
- 2. 1. 2. Модель извлечения графематических дескрипторов
- 2. 1. 3. Графематическая модель вьетнамского языка
- 2. 2. Распознавание слов и сегментация предложений
- 2. 2. 1. Вероятностная модель
- 2. 2. 2. Метод обучения без учителя
- 2. 2. 3. Метод распознавания фраз
- 2. 1. Извлечение графематических дескрипторов
- 3. 1. Морфологическая разметка корпусов текстов
- 3. 1. 1. Основные понятия и формальная постановка задачи
- 3. 2. Автоматический морфологический анализ
- 3. 2. 1. Постановка задачи
- 3. 2. 2. Процесс обучения
- 4. 1. Описание функционирования программ
- 4. 2. Состав программного обеспечения
- 4. 3. Результаты экспериментов
Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке (реферат, курсовая, диплом, контрольная)
Актуальность темы
В последние десятилетия методы распознавания образов находят приложения в самых разнообразных областях. Многие из них активно используются при автоматической обработке текстов (АОТ). АОТ достигла значительных успехов в лексико-грамматическом анализе, выявлении темы, в поиске информации и т. п. Большинство работ по АОТ были проведены для языков индоевропейской группы [58, 59, 75, 82, 83, 84, 94]. Их результаты не могут быть непосредственно применены к вьетнамскому языку, который, являясь разговорным языком (как китайский, японский и др.), оперирует слогами, а не словами. Границы слова определяются контекстом. Для построения новых лексических единиц или слов используются сочетания различных слогов. Роль приставок и суффиксов также выполняют слоги, что еще более запутывает процесс анализа текста. Похожие проблемы характерны и для распознавания текстов на других восточных языках. Но, например, для китайского они решаются за счет большого объема уже сформированных и подготовленных аннотированных корпусов текстов.
Проблемы распознавания образов слов и словосочетаний во вьетнамских текстах исследовались в современных работах Д. Дьепа [68], Х. Н. Као [62, 63], Х. П. Ле [80], К. Т. Нгуена [89], X. Нгуена [90], Л. А. Ха [76] и др. Основные задачи обработки текстов на вьетнамском языке (лексико-грамматический анализ, синтаксический анализ и т. п.) сложны для вычислительной лингвистики в первую очередь из-за нерешенности проблемы делимитации слова, так как слово во вьетнамском языке не является единицей, которую можно было бы всегда четко выделить по каким-либо формальным признакам. При автоматической обработке вьетнамского языка методы распознавания образов целесообразно использовать не только в традиционных сферах приложений по распознаванию символов и звуков, но и неожиданной с точки зрения обработки индоевропейских текстов сфере — распознавании образов слов и фраз.
Для вьетнамского языка серьезной проблемой для автоматической обработки является отсутствие достаточно полных словарей вьетнамских слов и вьетнамскоязычных корпусов текстов. На протяжении долгого времени вьетнамские, а также иностранные специалисты, решали эту проблему вручную. Однако построение списка слов вручную требует колоссальных усилий и все же не обеспечивает полноты словаря. Одна из причин этого — широкое использование вьетнамского языка в различных сферах со специальными словами, которые редко используется. Другая — в различных регионах используются разные диалекты и словосочетания. Кроме этого, условия жизии быстро меняются. С развитием новых технологий и увеличением объемов информации постоянно расширяется лексикон вьетнамского языка. Например, новые слова: Интернет, айфон и т. п. надо включать в словари как новые понятия. Все эти причины делают процесс построения списка вьетнамских слов вручную трудновыполнимым. По последним данным самый полный вьетнамский словарь содержит только 75 ООО слов, но в реальности по оценке специалистов количество вьетнамских слов насчитывает уже более 200 ООО. Это означает, что более половины вьетнамских слов нигде не сохранены. Цель и задачи работы. Создание математического обеспечения, реализующего методы распознавания образов для автоматической разметки текстов на вьетнамском языке, результаты применения которого могут быть использованы для дальнейшей обработки лингвистами или другими программными системами поиска и автоматического перевода.
Цель достигается в диссертации через решение следующих задач:
• разработка и обоснование математических статистических моделей распознавания образов вьетнамских слов и словосочетаний, создание на их основе математического обеспечения для сегментации предложений на слова и фразы, использующего методы теории вероятностей и математической статистики, а также алгоритмы обучения без учителя;
• разработка обеспечения методов графематического анализа вьетнамских текстов, основанных на статистических моделях распознавания образов вьетнамских слов, словосочетаний и фраз и на сопоставлении образцов в большом текстовом массиве данных, позволяющих эффективно выполнять процесс выделения различных лексем вьетнамского текста и присваивать им соответствующие гра-фематические дескрипторы;
• разработка и обоснование теоретико-вероятностной модели, использующей метод скрытых марковских моделей, для выполнения процесса морфологического анализа вьетнамских текстов;
• создание программной системы для автоматической обработки вьетнамских текстов и построение с ее помощью значительных наборов данных, включающих графематический, морфологический и статистический словари, а также аннотированный корпус вьетнамских текстов.
Методы исследования. В диссертации применяются методы распознавания образов, машинного обучения без учителя, теории вероятностей и математической статистики, имитационного моделирования и системного программирования.
Основные результаты. В работе получены следующие основные научные результаты:
1. Предложен, обоснован и реализован метод обучения без учителя для распознавания образов слов, словосочетаний и фраз во вьетнамских текстах, позволяющий производить сегментацию предложений на слова и фразы для последующей автоматической морфологической разметки вьетнамских текстов.
2. Разработано математическое и программное обеспечение, реализующее метод поиска образца, предназначенное для выделения различных лекссм вьетнамского текста и присваивания им соответствующих графематических дескрипторов. Исследованы статистические характеристики образования лексем вьетнамского текста.
3. Предложен и реализован метод скрытой марковской модели для распознавания морфологической структуры предложений во вьетнамских текстах, обоснован алгоритм оптимизации его параметров.
4. Разработана новая программная система для автоматической обработки вьетнамских текстов, с помощью которой сформированы гра-фематический, морфологический и статистический словари значительных размеров, а также аннотированный корпус вьетнамских текстов.
Научная новизна. Все основные научные результаты диссертации являются новыми.
Теоретическая ценность и практическая значимость. Теоретическая ценность работы состоит в разработке, обосновании и реализации новых алгоритмов распознавания образов слов, сегментации предложений на слова и фразы, а также автоматической морфологической разметки вьетнамских текстов.
Предложенные новые алгоритмы могут быть эффективно использованы при решении практических задачах обработки текстов на вьетнамском языке, а также на ряде других (китайском, японском, корейском и т. п.). Созданный программный комплекс для автоматической обработки вьетнамских текстов может быть использовать лингвистами для дальнейшего изучения языка. Результаты автоматической обработки текстов, получаемые с помощью разработанной системы, могут использоваться как лингвистами, так и в других системах поиска и автоматического перевода.
Апробация работы. Материалы диссертации докладывались на семинарах кафедры системного программирования математико-механического факультета СПбГУ и на международной конференции: The 2nd Asian Conference on Intelligent Information and Database Systems (Hue, Vietnamc, March 24−26, 2010).
Результаты диссертации были частично использованы в работе по НИР из средств бюджета «Математическая модель распознавания и процессинга текстов на восточных языках на основе сегментации релевантных составляющих», выполняемой в СПбГУ.
Публикации. Основные результаты диссертации опубликованы в шести работах. Из них две публикации [24, 79] в изданиях из перечня ВАК. Работы [23, 24, 79] написаны в соавторстве. В работе [24] Граничину О. Н. принадлежит общая постановка задачи, а Ле Ч. Х. реализации и обоснования описываемых методов, создание демонстрационных примеров и программных средств. В работах [23, 79] Ле Ч. Х. предложил новые статистические методы распознавания образов и теоретико-вероятностную модель для автоматической сегментации предложений на вьетнамском языке, а его соавторы участвовали в подготовке наборов текстовых данных для апробации новых методов и выполнили часть работы по созданию и доработке нового словаря вьетнамских слов.
Структура и объем диссертации
Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 105 источников. Текст занимает 102 страницы, содержит 10 рисунков и 11 таблиц.
Основные результаты.
• Создана программа распознавания вьетнамских слогов. Программа по различению вьетнамских и иностранных слогов работает на основе правил структуры вьетнамских слогов, списков вьетнамских согласных и гласных. Список вьетнамских согласных содержит 27 согласных и список вьетнамских конечных звука включает в себя 719 шт. Программа работает только с отдельным слогом, не обращая внимания на соседние, поэтому в некоторых случаях такие иностранные слоги так 1ЧНе, а, ап, ту" ошибочно считаются вьетнамскими. Разрешению этой проблемы способствует повышение качества распознавания иностранных имен, названий, аббревиатур, а также проверки орфографических ошибок.
• Создана автоматически выполняемая программа проверки орфографии. Программа работает на основе списка орфографических ошибок, который включает в себя список слов или конечных звуков с часто встречающимися ошибками и соответствующими правильными вариантами. Список орфографических ошибок создается в процессе экспериментов. В табл. 4.2 представлены некоторые орфографические ошибки вместе с соответствующими правильными вариантами.
• Одним из важнейших результатов является разрешение проблемы распознавания некоторых структурных собственных имен, которая представляет собой традиционно сложную задачу. Это связано с априорной невозможностью описания в словаре всего спектра возможных имен. Модель использует 21 контекстное правило извлечения для распознавания собственных имен, в том числе 117 090 разных имен людей, 258 названий стран, 4 707 названий городов. В.
Сл. с ошп, Пра. кор. ut uat uyyfn uyen bien bien diim diem yiep tiep.
Сл. С ОШИ. Пра. кор. ut uat jet let chuyen chuyen dien dien xung sung.
Сл. с ОШИ. Пра. кор. ау л аУ ieu ieu chyem chiim diing dung xuei SUui.
Заключение
.
В заключение перечислим основные результаты диссертационного исследования:
1. Предложен, обоснован и реализован метод обучения без учителя для распознавания образов слов, словосочетаний и фраз во вьетнамских текстах, позволяющий производить сегментацию предложений на слова и фразы для последующей автоматической морфологической разметки вьетнамских текстов.
2. Разработано математическое и программное обеспечение, реализующее метод поиска образца, предназначенное для выделения различных лексем вьетнамского текста и присваивания им соответствующих графематических дескрипторов. Исследованы статистические характеристики образования лексем вьетнамского текста.
3. Предложен и реализован метод скрытой марковской модели для распознавания морфологической структуры предложений во вьетнамских текстах, обоснован алгоритм оптимизации его параметров.
4. Разработана новая программная система для автоматической обработки вьетнамских текстов, с помощью которой сформированы гра-фематический, морфологический и статистический словари значительных размеров, а также аннотированный корпус вьетнамских текстов.
Список литературы
- Аношкина Ж. Г. Морфологический процессор русского языка // Бюллетень машинного фонда русского языка. Отв. редактор В.М. Андрющенко- М., 1996. Вып. 3. С. 53−57.
- Антонов А. В., Ваглей С. Г., Мешков В. С., Суханов А. В. Кластеризация документов с использованием метаинформации // Труды международной конференции Диалог'2006. С. 38−45.
- Апресян Ю. Д., Богуславский И. МИомдин Л. Л. и др. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — 256 с.
- Бабина О. И. Специфика процедуры автоматического анализа текстов патентов на метод // Объединенный научный журнал. Декабрь 2004. № 33(125). С. 62−66.
- Гладкий A.B. Формальные грамматики и языки. — М., 1973. — 368 с.
- Глебова И. И., Ву Дат Am. Начальный курс вьетнамского языка. Москва, ИМО, 1963. 244 с.
- Граничин О. Н., Поляк В. Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. — М.: Наука. 2003. 291 с.
- Дао Хонг Тху. К вопросу о синтаксисе научного стиля речи в целях изучения иностранного языка // Вьетнамская русистика. Вып. ХШ, Ханой, 2002. С. 32−38.
- Дашенко А. И. Искусственный интеллект: Применение в интегрированных производственных системах. — М.: Машиностроение, 1991. 539 с.
- Евдокимова И. С. Естественно-языковые системы: Курс лекций. -Улан-Удэ: Издательство ВСГТУ, 2006. 92 с.
- Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. — М.: Мир, 1976. — 165 с.
- Захаров В. П. Корпусная лингвистика: Учебно-метод. пособие. — СПб., 2005. 48 с.
- Захоров В.П. Поисковые системы Интернета как инструмент лингвистических исследований // Русский язык в Интернете. — Казань, 2003. С. 48−59.
- Кобзарева Т. Ю., Латути Д. Г., Ноэюов И. М. Сегментация русского предложения // КИИ-2000. Труды конференции — М.: Физ-матлит, 2000. Т.1. С. 339−344.
- Кобзарева Т. Ю., Лахути Д. Г., Ноэюов И. М. Модель сегментации русского предложения // Труды конференции Диалог'2001 — Аксаково, 2001. — Т.2. С. 185−194.
- Кормалев Д. А., Кушев Е. П., Сулейманова Е. А., Трофимов И. В. Приложения технологии извлечения информации из текста: теория и практика // Прикладная и компьютерная математика: Вестник
- Российского унив. дружбы народов. 2003. Серия 2. Вып. 1. С. 120— 127.
- Кормалев Д. А. Обобщение и специализация при построении правил извлечения информации // Тр. Десятой нац. конф. по искусственному интеллекту с междунар. участием КИИ-2006, Обнинск, 25−28 сентября 2006 г.: ВЗт. М.: Физматлиг, 2006. — Т.2. С. 572 579.
- Ле Ч. X., Ле А. В., Ле Ч. К. Автоматическое выделение слов и словосочетаний из вьетнамских печатных текстов// Стохастическая оптимизация в информатике. 2008., Вып. 4. С. 171−186.
- Ле Ч. X., Граничин О. Н. Статистический способ выделения и словосочетаний из вьетнамских печатных текстов // Вестник. СПбГУ. 2009. Серия 10. Вып. 3. С. 161−169.
- Ле Ч. X. Обучение без учителя и статистический подход для сегментации и распознавания вьетнамских слов // Стохастическая оптимизация в информагике. 2009. Вып. 5. С. 193−208.
- Леонтьева Н. Н. Информационная модель системы автоматического перевода // НТИ. Сер. 2. М., 1985. — № 10. С. 22−29.
- Леонтьева Н. Н. Автоматическое понимание текста: системы, модели, ресурсы. Учебное пособие. — М.: Издательский центр Академия, 2006. — 304 с.
- Леонтьева Н. Н. Корпусная лингвистика и системы автоматического понимания текста// Московский лингвистический журнал. 2006. — Т.9/1. — С. 5−15.
- Мельчук И. А. Опыт теории лингвистических моделей Смысл-Текст. — М.: Наука, 1974. — 314 с.
- Михаилян А. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах / / НПЦ Интелтек Плюс. 2001 г. http: / / www.inteltec.ru / publish / articles / textan / natlang/shtml
- Мхитарян T. T. Фонетика вьетнамского языка. — M., 1959
- Налимов В. В. Вероятностная модель языка. — 2 изд. — М.: Наука. 1979. 303 с.
- Найханова Л. В., Евдокимова И. С. Метод и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы: Монография. — Улан-Удэ: Изд-во ВСГТУ, 2004. — 148 с.
- Найханова Л. В., Евдокимова И. С. Обзор методов синтаксического анализа етественно-языкового предложения // Тезисы VI конференции по проблемам информатизации региона ПИР'2000. — Красноярск. 2000. С. 77−80.
- Нариньяни A.C. Лингвистические процессоры и представление знаний: Сб. науч. тр. Новосибирск: ВС СО АН СССР, 1981. — 138 с.
- Ножов И. М. Прикладной морфологический анализ без словаря // КИИ-2000. Труды конференции — М.: Физматлит, 2000. — Т.1. С. 424−429
- Ножов И. М. Процессор автоматизированного морфологического анализа без словаря. Деревья и корреляция // Труды конференции Диалог'2000. Т.2. С. 284−290.
- Ножов И. М. Проектирование сегментационного анализатора русского предложения // КИИ-2002. Труды конференции — М.: Физматлит, 2002. — Т.1. С. 212−222.
- Панфилов В. С. Грамматический строй вьетнамского языка. М., 1993 412 с.
- Преображенский А. Б. Лингвистический процессор для реализации общения с базами данных // Изв. АН СССР. Техн. кибернетика. 1982. — № 5. С. 121−129.
- Рыков В. В. Корпус текстов как новый тип словесного единства ' // Труды Междурнар. семинара, Диалог-2003. — М.: Наука, 2003.1. С. 15−23.
- Саввина Г. В., Саввин И. В. Лемматизация слов русского языка в применении к распознаванию слитной речи// Труды международного семинара по компьютерной лингвистике и ее приложениям Диалог'2001. Аксаково, 2001. — Т.2. С. 343−346.
- Симаков К. В. Метод обучения модели извлечения знаний из естественно-языковых текстов// Вестник МГТУ. Приборостроение. 2007. № 3. С. 75−94.
- Симаков К. В. Модель извлечения знаний из естественноязыковых текстов// Информационные технологии. 2007. — № 12. С. 57−63.
- Седунов А. А. Модель графематического анализа в системе обработки естественного языка// Системный анализ и информационные технологии. Вестник. ВГУ.: Изд-во Воронежский государственного ун-та. 2007. № 2. С. 69−77
- Тестелец Я. Г. Введение в общий синтаксис. — М., РГГУ, 2001. — 800 с.
- Тузов В. А. Компьютерная семантика русского языка. — СПб.: Изд-во СПбГУ, 2003. 391 с.
- Федоров Е. Е. Алгоритм синтаксического анализа предложения // Мат-лы Междунар. науч.-технич. конф. СуперЭВМ и многопроцессорные вычислительные системы. — Таганрог: Изд-во ТРТУ. — 2002. С. 343−346.
- Федоров Е. Е., Шелепов В. Ю. Автоматическое определение начала и конца записи речи // Искусственный интеллект. — 2002. — № 4. С. 295−298.
- Хашан Т. С. Сегментация речевого сигнала // Искусственный интеллект. 2002. — № 3. С. 450−458.
- Abramson N. M. Information Theory and Coding. McGraw-Hill, New York. 1963. 201 p.
- Bahl L., Mercer E. L. Part-of-speech assignment by a statistical decision algorithm // IEEE International Symposium on Information Theory, 1976. P. 88−89.
- Baker L. D., Mccallum, A. K. Distributional clustering of words for text categorization //In Proceedings of the 21st, Annual International Conference on Research and Development in Information Retrieval (SIGIR'98), 1998. P. 96−103.
- Baum L. E An inequality and associated maximization technique in statistical estimation on probabilistic functions of a markov process // IEEE Transactions on Pattern Analysis and Machine Intelligence. V.22, Issue: 4, April 2000. P. 371−377.
- Berger A., Pietra, S. D., Ptetra V. D. A maximum entropy approach to natural language processing // Computat. Ling. 22. 1996. P. 39−71.
- Brants T. TNT — a statistical part-of-speech tagger //In Proceedings of the 6th Applied NLP Conference (ANLP-2000), Seattle, WA, 2000. P. 224−231.
- Brill E. Transformation-based error-driven learning and natural language processing: a case study in part of speech tagging // Computational Linguistics. 1995. P. 543−565.
- Brill E. Some advances in transformation-based part of speech tagging //In Proceedings of A A AI-94, 1994. P. 722−727.
- Brill E. Unsupervised learning of disambiguation rules for part of specch tagging // In Processing of the 3rd Workshop on Very Large Corpora. Kluwer Academic Press, 1997. P. 1−13.
- Brill E. Automatic grammar induction and parsing free text: A transformation-based approach //In Processing of the 31st Annual Meeting of the Association for Computational Linguistics, 1993. P. 259 265.
- Cao X. H. Some preliminaries to the syntactic analysis of the Vietnamese sentence //In Proceeding of the Prague Congress of 1990. P. 137−152.
- Cao X. H. Vietnamese — Some questions on phonetics, syntax and semantics. Nxb Giao due, Hanoi. 2000.
- Church K. W., Hanks P., Gale W., Hindle D. Using statistics in lexical analysis // In Zernik Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon. Lawrence Erlbaum Associates, New Jersey, 1991. P. 115−164.
- Church K. W., Rau L. F. Commercial applications of natural language processing // Communications of the ACM. 1995. — V.38, Ml. P. 7179.
- Covington M. A. A fundamental algorithm for dependency parsing // In Proceeding of the 39th Annual ACM Southeast Conference. ACM. New York, 2001. P. 95−102.
- Cutting D.} Kupiec J., Pederson J., Sibun P. A practical part-of-speech tagger //In Proceeding of the Third Conference on Applied Natural Language Processing, ACL, TYento, Italy, 1992. P. 133−140.
- Dien D., Idem H., Toan N. V. Vietnamese word segmentation // The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan. 2001. P. 749−756.
- Dinh Le Thu. Structure of Vietnamese phonetics. — VNU-HCMC. 1999.
- Dmitry Z., Chinatsu A. Kernel methods for relation extraction // Journal of Machine Learning Research 3, 2003. P. 1083−1106.
- Eugene Charniak Statistical Language Learning. The MIT Press, 1993. 170 p.
- Foo S., Li H. Unsupervised Chinese word segmentation and its effect on information retrieval // Information Processing and Management: An International Journal, 2004. 40(1): P. 161−190.
- Frederick Jelinek Statistical Methods for Speech Recognition. The MIT Press, 1997. — 283 p.
- Giap N. T. Til viing hoc tieng Viet. H., Nxb DH va THCN, 2003. — 389 p.
- Grune D., Jacobs C. Parsing techniques: A practical guide. Vrije Universiteit, Amsterdam, 1990. — 318 p.
- Ha L. A. A method for word segmentation in Vietnamese //In Proceedings of Corpus Linguistics, Lancaster, UK. 2003. P. 282−287.
- Herve Dejean. Learning rules and their exceptions // Jounrnal of Machine Learning Research 2, 2002. P. 669−693.
- Kanevsky D. A generalization of the Baum algorithm to functions on non-linear manifolds //In Proceedings Internat. Conf. On Acoustics, Speech and Signal Processing, Detroit, MI, 1995. — V.l. P. 473−476.
- City, Vietnam, March 24−26, 2010. Proceedings, Part II" / Ngoc Thanh Nguyen, Manh Thanh Le and Jerzy Swiatek editors. Vol. 5991 — Springer, 2010. P. 195−204.
- On-line. http://www.springeiiink.com/content/7q97147rl8158844/
- Le H. P., Nguyen T. M. H. r B. oussanaly A., Ho T. V. A hybrid approach to word segmentation of Vietnamese texts // In 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain. 2008. P. 240−249.
- Joachims T. Text categorization with support vector machines: Learning with many relevant features // European Conferences on Machine Learning ECML'98. 1998. P. 137−142.
- Jurafsky D. S.} James H. M. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prectice Hall, Englewood Cliffs, New Jersey, 1999. — 934 p.
- Manaris B. Z. Natural Language Processing: A human-computer interaction perspective // Advances in Computers, Academic Press, New York, 1998. V.47. P. 1−66.
- Manning C., Schutze H. Foundations of Statistical Language processing. The MIT Press, 1999." — 718 p.
- Megyesi B. Shallow parsing with pos taggers and linguistic features // Journal of Machine Learning Research 2, Sweden, 2002. P. 639−668.
- Mikheev A. Automatic rule induction for unknown word guessing //In Computational Linguistics, 1997. — V.23(3) P. 405−423.
- Mitchell P. M. Building a large annotated corpus of English: The Penn Treebank //In Computational Linguistics, 1993. P. 313−330.
- Nakagawa T., Kudoh T., Matsumoto Y. Unknown word guessing and part-of-speech tagging using support vector machines //In Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium, 2001. P. 325−331.
- Nguyen H., Vu T., Tran N., Hoang N. Internet and genetics algorithm-based text categorization for documents in Vietnamese // In Proceedings of 3rd International Conference Research, Innovation and Vision of the Future. 2005. P. 168−172.
- Orphan os G. S., Christodoulakis D. N. POS disambiguation and unknown word guessing with decision trees //In Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics, Bergen, Norway, 1999. P. 134−141.
- Palmer, David. A trainable rule-based algorithm for word segmentation // In Proceedings of ACL. Madrid. 1997. P. 321−328.
- Sag I. A., Wasow T. Syntactic Theory: A Formal Introduction. Stanford University, 1999. — 475 p.
- Shannon C. E. A mathematical theory of communication // Bell System Technical Journal. 1948. V.27 P. 379−423.
- Shankar S., Karypis G. Weight adjustment schemes for a eentroid-based classifier // Text Mining Workshop on Knowledge Discovery in Data (KDD'OO). 2000.
- Sproat R., Shih C. A statistical mathod for finding word boundaries in Chinese text // Computer Processing of Chinese and Oriental Languages, 1990. P. 336−351.
- Sproat R,., Shih C., Gale W., Chang N. A stochastic finite-state word-segmentation algorithm for Chinese // Computational Linguistics, 1996. — V.22(3). P. 377−404.
- Stein B., Meyer zu Eissen S. Document categorization with MajorClust //In Proceedings of the 12th Workshop on Information Technology and Systems (WITS-02). Barcelona, Spain: 2002. P. 91−96.
- Thede S. Tagging Unknown Words using Statistical Methods. Purdue University, 1998.
- Thede S. M., Harper M. P. Second-order hidden Markov model for part-of-speech tagging //In Proceedings of the 28th Annual Meeting of the Association for Computational Linguistics, June 1999. P. 175
- Van Guilder L. Automated Part of Speech Tagging: A Brief Overview.
- Department of Linguistics, Georgetown University, 1995.
- Vasilakopoulos A. Improved unknown word guessing by decision tree induction for POS tagging with TBL //In Proceedings of CLUK 2003.1. Edinburgh, 2003.
- Viterbi A. J. Error bounds for convolutional codes and an asymptotically optimal decoding algorithm Recognition // IEEE Trans. Informat. Theory, 1967. V. IT (13). P. 260−269.182.