Исследование устойчивости лексико-статистических характеристик текста
Легко заметить, что даже при использовании всего пяти параметров каждая группа текстов характеризуется сугубо индивидуальным набором рангов, разграничивающим не только тексты различных авторов, но и тексты, реализованные одним автором, но принадлежащие к разным типам речи. При этом ранг одного из параметров для отдельной группы текстов вовсе не обязательно соответствует такому же рангу другого… Читать ещё >
Содержание
- ГЛАВА I. ОСНОВНЫЕ НАПРАВЛЕНИЯ ИЗУЧЕНИЯ ЛЕКСИКО-СТАТИСТИЧЕСКОЙ СТРУКТУРЫ ТЕКСТА
- 1. 1. Задачи и методы статистической лексикографии
- 1. 2. Поиск обобщающих параметров лингвистических распределений
- 13. Лсксико-сгагистичеекие методы стилеметрии
- 1. 4. Некоторые общие вопросы представления линг вистических распределений
- 1. 5. Роль автоматизации в решении лингвостатиетических задач
- 2. 1. Описание материала. Выборка
- 2. 2. Обработка материала. Лемматизация
- 2. 3. Отбор параметров для исследования
- 2. 4. Сводные графики изменения исследуемых статистических характеристик
- 2. 5. Выводы
- 3. 1. Аппроксимация и ее результата
- 3. 2. Отличия теоретических кривых от кривых эмпирических распределений для словаря словоформ рассказов А.П.Чехова
- 3. 3. Отличия теоретических кривых от кривых эмпирических распределений для словаря лексем рассказов А.П.Чехова
- 3. 4. Экстраполяция и ее результаты
Исследование устойчивости лексико-статистических характеристик текста (реферат, курсовая, диплом, контрольная)
Слова, встретившиеся более двух раз. 128.
Слова, встретившиеся два раза. 180.
Слова, встретившиеся один раз. 186.
Таблица распределения рангов и частот слов. 199.
Имена, собственные, встретившиеся более двух раз.202.
Имена собственные, встретившиеся два раза. 205.
Имена собственные, встретившиеся один раз. 205.
Таблица распределения рангов и частот имен собственных 207 Перечень омонимов .208.
В современной филологии все большее внимание уделяется поиску общих принципов, лежащих в основе различный языковых явлений и раскрывающих логику их внутрисистемных связей, в том числе — природу организации художественного текста и индивидуального авторского стиля.
Одним из основных методов такого рода исследований является моделирование с помощью статистических распределений, частным случаем которого является создание частотных словарей.
Развитие междисциплинарных контактов привело к появлению ряда систем автоматической обработки лингвистических данных, позволяющих быстро и эффективно составлять частотные словари различного объема.
Поиск характеристик, наглядно отражающих и обобщающих различные виды распределений с целью их дальнейшего анализа и сопоставления, является одной из наиболее актуальных задач в современной статистике вообще, и лингвостатистике в частности.
Это обстоятельство и определяет прежде всего актуальность данной диссертации, в которой рассматриваются проблемы устойчивости лексико-статистичееких характеристик текста.
В качестве материала исследования привлекался представительный корпус произведений признанных мастеров русского рассказа конца XIXначала XX веков: А. П. Чехова, А. И. Куприна, В. В. Набокова, Л. Н. Андреева, общим объемом более 700 тысяч словоупотреблений.
Основные результаты диссертации, определяющие ее новизну и теоретическую значимость заключаются в следующем:
— впервые на обширном материале русской художественной прозы проведено многопараметрическое исследование с целью качественного и количественного анализа различных обобщающих характеристик словаря;
— ряд исследованных параметров никогда не применялся прежде для изучения лексико-статистической структуры текста (например, коэффициент равномерности и номинальный коэффициент вариации по Трофимову и др.);
— математически доказаны и экспериментально подтверждены факты состоятельности и несостоятельности (в вероятностно-статистическом смысле) более десятка различных статистических параметров, проведен анализ их стилеразличающей способности, показана возможность использования данных параметров в стилистическом анализе, выявлены некоторые универсальные закономерности в организации частотных словарей художественной прозы;
— накоплен обширный практический материал, представляющий собой результаты статистико-лексикографической обработки исследованных текстовэтот материал позволяет в дальнейшем проводить на его основе разнообразные исследования не только в области статистической лингвистики, но и в области стилистики, литературоведения и других гуманитарных дисциплин.
Практическая значимость диссертации определяется тем, что ее основные результаты и методологические приемы могут быть широко использованы в работах, рассматривающих вопросы авторской стилистики, статистической лексикографии, стилеметрии и квантитативной лингвистики, особенно когда речь идет об обработке больших корпусов текстов с использованием вычислительной техники. Важным является также и то, что одним из основных средств обработки материала стали существующие программы автоматической обработки текстов, разработанные на кафедре математической лингвистики СПбГУ и в Институте русского языка РАН.
В диссертации используются следующие методы:
— методы теории вероятностей и математической статистики, включая теорию распределений и теорию оценивания;
— лексикометрические методы стилеметрии;
— некоторые разделы математического анализа (теория функций, дифференциальное исчисление);
— экстраполяционные методы прогнозирования /Гражданни-ков Е.Д., 1988, Haustein H.-D., 1970/.
Все трудоемкие расчеты и сложные алгоритмические процедуры реализованы с использованием ЭВМ.
По теме диссертации в опубликованы 2 работы: «Частотный словарь рассказов А.П.Чехова» и статья «О состоятельности статистик частотного словаря художественной прозы» .
Диссертация состоит из Ведения, трех Глав, Заключения, Списка цитируемой литературы и Приложений.
3.5 Выводы.
Принимая во внимание графики зависимости изменения значений статистических характеристик от объема выборки, приводящиеся в Главе И, мы могли бы обобщить полученные в данной главе результаты и распространить их не только на словарь рассказов А. П. Чехова, но и, в определенной степени, на словарь языка художественной прозы вообще, по крайней мере, на словарь языка русского рассказа конца XIXначала XX веков. Это означает, что исследование словаря языка писателя целесообразнее проводить на материале словаря лексем, т.к. большее число параметров для такого словаря являются хотя бы относительно устойчивыми. Словарь языка писателя невозможно исчерпать до его предельного объема, т.к. сами авторы не до конца реализовали его в своих произведениях. Однако такой словарь обладает конечными значениями концентрации частот в слов верхней зоне словаря и меры упорядоченности (энтропии), причем на материале реально существующего наследии писателя мы можем получить словарь со значениями этих параметров, равными асимптотическим. Возможно, кроме того, получить словарь, покрывающий 99% редкочастотных слов, хотя отразить абсолютно все их количество невозможно, что, вероятно, следует из факта «недореализованности» словаря автором. При этом предел процентной доли таких слов недостижим даже приблизительно. Что касается показателей вариации частот, мер аналитичности/ синтетичности, и значения медианы то они даже в первом приближении не достигают своих максимальных значений, и, следовательно, не могут определенно характеризовать словарь языка писателя.
Исходя из вышесказанного, нам представляется возможным установить некоторые общие связи между стилистикой рассказов.
А.П.Чехова (основные черты которой освещены в Главе II) и их статистиками.
Интерес Чехова к самым разнообразным сторонам жизни, многотемность его произведений находит свое выражение, как уже отмечалось выше, в уменьшении значений лексической концентрации, значительном (уступающим только Куприну) количестве редкочастотных слов и, хотя и сокращающейся, но большей чем у других авторов (кроме Куприна) их доле, в увеличении значений энтропии.
При этом лаконизм, краткость и точность Чеховского языка со всей очевидность лежат в основе относительно небольшого (в особенности в сравнении с Куприным) объема его словаря и, отчасти, в основе относительной стабилизации числа редкочастотных слов. Тематическая разносторонность Чехова оказывает свое влияние и здесь, так как словарь его рассказов во много раз богаче словаря его пьес и значительно превосходит словарь Андреева.
С другой стороны, хотя значения энтропии, т. е неопределенности в рассказах Чехова и возрастают, они значительно ниже аналогичных величин в словарях Набокова и Куприна, а главное — весьма быстро (вероятно быстрее, чем в словарях Набокова и Куприна) достигают своих предельных значений. Аналогичное соотношение наблюдается и при сравнении данных по изменению значения рангового среднего и его отношения к объему словаря, т. е — лексической концентрации. На наш взгляд именно эти факты, в сочетании с не очень значительным объемом словаря, как нельзя лучше иллюстрируют точность и емкость лаконизма Чехова, концентрацию художественно-речевой семантики в его произведениях.
Таким образом, словарь рассказов Чехова не слишком велик по своему объему, имеет в своем составе значительное число и довольно высокую (почти такую же как и у Куприна при значительно большем объеме словаря) долю слов с частотой 1 и обладает средними и достаточно быстро стабилизирующимися значениями неопределенности и лексической концентрации. Все эти факты, вместе взятые, и представляют на наш взгляд отражение «импрессионистичности» стиля Чехова, т.к. с одной стороныотражают «случайность», «дисгармоничность и хаотичность» в палитре лексических «мазков» (значительное число и доля слов с частотой 1, увеличение неопределенности, уменьшение лексической концентрации), а с другой стороны — указывают на наличие мощного организующего начала (незначительный объем словаря, быстрая стабилизация уровней неопределенности и лексической концентрации, относительная устойчивость числа редкочастотных слов).
Кроме того, полученные нами результаты, касающиеся стилеразличительной способности различных статистических характеристик, дают нам возможность проведения формального стилистического анализа различных групп текстов. Возьмем, например, пять из исследуемых параметров и проранжируем по убыванию их эмпирические значения для отдельных авторов. Результаты можно представить в виде следующей таблицы:
Объем Ранговое Доля самого Энтропия Число слов с словаря среднее частого слова част. 1.
Куприн Набоков Андреев Набоков Куприн.
Набоков Куприн и -.V. ТТ * Л ' I '. Ж I Х у 11 рйй Чехов. ?
Чехов. Р2 Чехов. Р Чехов. Р Чехов. Р Набоков.
Андреев Андреев Куприн Андреев Андреев.
Чехов. П3 Чехов. П Набоков ТТ Т" Т ЧСАОЬ. 11 тт.,., тт «И/Лио. XI.
2 Рассказы А. П. Чехова.
3 Пьесы А. П. Чехова или, иначе, приписывая каждой группе текстов набор чисел, показывающий места, занимаемые статистическими параметрами при ранжировании их значений по убыванию:
Объем словаря Ранговое среднее Доля самого частого слова Энтропия Число слов с част. 1.
Чехов. Рассказы 3 3 3 3 2.
Чехов. Пьесы ч 5 2 з 5.
Андреев 4 4 1 4 4.
Набоков >>• 1 1 5 ч I л.
Куприн 1 2 4 2 1.
Легко заметить, что даже при использовании всего пяти параметров каждая группа текстов характеризуется сугубо индивидуальным набором рангов, разграничивающим не только тексты различных авторов, но и тексты, реализованные одним автором, но принадлежащие к разным типам речи. При этом ранг одного из параметров для отдельной группы текстов вовсе не обязательно соответствует такому же рангу другого (например, для рассказов Л. Н. Андреева большинство параметров находится на четвертом месте, а доля самого частого слова — на первом, напротив, для рассказов А. П. Чехова ранг большинства параметров 3, а числа слов с частотой 1 — 2, и т. д.).
Конечно, подобные процедуры предстают здесь в значительно упрощенном, можно даже сказать примитивном виде, и не претендует на установление окончательных истин, но, тем не менее, такой способ представления наглядно иллюстрирует возможность применения результатов статистического исследования текста по нескольким параметрам в качестве одной из составных частей его стилистического анализа.
ЗАКЛЮЧЕНИЕ
.
1. Исследование языка художественной прозы целесообразнее проводить на материале частотного словаря лексем, а не словоформ, т.к. именно в словаре лексем обнаруживают свою устойчивость исследованные статистические характеристики, служащие для обобщенного представления распределений в такого рода словарях. При этом словарь должен быть составлен на материале случайной выборки из всего объема творческого наследия писателя, объемом около 200 000 словоупотреблений, по возможности отражающей различные периоды его творчества.
2. Процедура составления словарей значительно облегчается применением методов автоматического анализа текста, в частности, существующих автоматизированных систем обработки лингвистических данных — «ЛИНДА» и «УНИЛЕКС-Т». Однако использование такого рода систем, избавляя исследователя-филолога от наиболее трудоемких участков работы, все же предполагает дальнейшее устранение ошибок структуризации в диалоге с компьютером.
3. При аппроксимации параметров, имеющих графиком своего изменения асимптотически возрастающую кривую, наиболее близкое соответствие между теоретическими и эмпирическими данными обнаруживается при использовании функции Вейбуллаа параметров, имеющих графиком своего изменения асимптотически убывающую кривую — при использовании модификации гиперболической функции у = Ь + с! ха > где лобъем выборки, Ъ — асимптотическое значение исследуемой характеристики, с, й — параметры распределения.
4. Большинство исследованных параметров (объем словаря, ранговое среднее, отношение рангового среднего к объему словаря, энтропия, доля самого частого слова, число слов с частотой 1, доля слов с частотой 1) обладает способностью дифференцировать различные типы речи на выборках ограниченного объема.
5. Объем словаря является лишь относительно устойчивой статистической характеристикой частотного словаря художественной прозы. Несмотря на установление факта постепенной сходимости данного параметра к предельной величине, данная сходимость является довольно медленной. Полная стабилизация объема словаря наступает лишь при таких объемах выборки, которые значительно превышают существующее творческое наследие писателя. На реально существующем материале представляется возможным лишь 99%-ое «вычерпывание'' объема словаря. Несмотря на это, сопоставление графиков нарастания объема словаря является удобным и наглядным инструментом сравнения словарного богатства различных авторов.
6. Наиболее устойчивой характеристикой словаря, обладающей при этом максимальной стилеразличающей способностью, является энтропия, которую можно рассматривать как меру упорядоченности текста. Полная стабилизация значения энтропии наступает при реально достижимом объеме выборки, а 99%-ая стабилизация — при объеме выборки, покрывающем меньше четверти существующего объема произведений автора.
7. Другой характеристикой, обнаруживающей абсолютную устойчивость для частотного словаря художественной прозы, и также обеспечивающей неплохую базу для стилеразличения, является ранговое среднее — мера концентрации частот в верхней зоне словаря. Увеличение значения рангового среднего соответствует увеличению значения энтропии. При этом величина, харктеризующая частотный перепад между головой и хвостом распределения — отношение рангового среднего к объему словаря, хотя и имеет некоторую етилеразличающую силу, но не обнаруживает устойчивости.
8. Устойчивость рангового среднего подтверждает работспособность теории сосотоятельности при описании совокупностей, описываемых ранговым распределением.
9. Хотя частота самого частого слова неуклонно нарастает при увеличении объема выборки и установить максимальное значение этого параметра не представляется возможным, его доля является, по-видимому, постоянным числом, индивидуальным для каждого автора.
10. В подтверждение выводов, полученных ранее Г. Я. Мартыненко, установлено, что для частотного словаря художественной прозы абсолютная величина параметра, характеризующая крайнюю границу периферийных элементов в словаре — количество слов с частотой 1, является только относительно состоятельной характеристикой, обладающей при этом такой же как и у рангового среднего стилеразличительной силой. Таким образом, при изучении языка художественной прозы обозреть все элементы, принадлежащие периферийной зоне словаря возможно лишь на 99%. Доля же таких элементов при возрастании выборки стремится к нулю.
11. Использование предложенных В. П. Трофимовым коэффициента равномерности и номинального коэффициента вариации, а также традиционной обобщенной характеристики вариационного ряда — медианы, не оправдывает себя в лингвистических исследованиях. Данные параметры не являются устойчивыми и не обладают никакой стилеразличительной силой. Характер изменения этих характеристик наглядно подтверждает негауссовый характер лингвистических распределений.
12. Часто применяемые в статистической лексикографии меры синтетичности/ аналитичности, несмотря на присущую им до некоторой степени способность разграничивать на материале выборок ограниченного объема различные подъязыки и языки, также не являются устойчивыми.
13. Данные, касающиеся величин выборок, необходимых для полного «вычерпывания» отношения рангового среднего к объему словаря, медианы, доли слов с частотой 1, коэффициента равномерности, номинального коэффициента вариации и меры синтетичности/ аналитичности, свидетельствуют о том, что данные параметры не являются состоятельными не только для словаря подъязыка художественной прозы, но и для словаря языка в целом.
14. Установление фактов состоятельности параметров и определение их стилеразличительной силы открывает широкие возможности их использования в качестве одного из элементов стилистического анализа различных групп текстов.
Список литературы
- Алексеев П.М. Квантитативная типология текста. Л., ЛГПИ, 1988. — 76с.
- Алексеев П.М. Квантитативные аспекты речевой деятельности. // Языковая норма и статистика. М., «Наука», 1977. — С. 43−58.
- Алексеев П.М. Статистическая лексикография. Л., ЛГПИ, 1975. — 118 с.
- Алексеев П.М. Учебные материалы по русской некодифицированной речи. Л., ЛГПИ, 1981.-79 с.
- Алексеев П.М. Частотный словарь автобиографической трилогии М.Горького. СПб., СПбГУ, 1996.
- Аношкина Ж.Г. Подготовка частотных словарей и конкордансов на компьютере. М., 1995. — 60 с.
- Арапов М.В. Квантитативная лингвистика. М., «Наука», 1989. — 184 с.
- Барлас Л.Г. Язык повествовательной прозы Чехова. Ростов-на-Дону, Рост, университет, 1991. — 202 с.
- Белоногов Г. Г., Богатырев В. И. Автоматизированные информационные системы. М., «Советское радио», 1973. — 328 с.
- Венецкий И.Г., Венецкая В. И. Основные математико-статистические понятия и формулы в экономическом анализе. М., «Статистика», 1979. -448 с.
- Ворончак Е. Методы вычисления показателей лексического богатства текстов. // Семиотика и искусствометрия. М., 1972. — С. 232 — 249.
- Генкель М.А. Частотный словарь романа Д.Н.Мамина-Сибиряка «Приваловские миллионы». Пермь, 1977. — 509 с.
- Герд A.C. К вопросу о роли низкочастотных фактов в лингвистическом исследовании. // Структурная и прикладная лингвистика. Вып. 4. СПб., СПбГУ, 1993. — С. 75−98.
- Герд A.C. Типы русских текстов и организация машинного фонда русского языка. // Машинный фонд русского языка: идеи и суждения. -М., «Наука», 1986. С. 65−75.
- Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М, «Прогресс», 1976. — 495 с.
- Горькова В.И. Статистические оценки параметров совокупностей документальных информационных потоков. НТ.И. Сер. 2. — М., 1972, № 12.
- Гражданников Е.Д. Экстраполяционная прогностика. Новороссийск, «Наука», сибирское отделение, 1988. — 143 с.
- Гринбаум О.Н., Мартыненко Г. Я., Фитиалов С. Я. Проект ЛИНДА -автоматизированная система обработки лингвистических данных. // Прикладная лингвистика и автоматический анализ текста: Тезисы доклада. Тарту, 1988. — С. 31 — 33.
- Дерман А.Б. О мастерстве Чехова. М., «Советский писатель», 1959. 207 с.
- Казакевич O.A. Использование текстовых баз данных в лингвистических исследованиях: опыт зарубежных работ. НТ.И. Сер. 2. — М., 1988, № 6. -С. 9−17.
- Карпова О.М. Словари языка писателей. М., МПИ, 1989. — 108 с.
- Катаев В.Б. Проза Чехова. Проблемы интерпретации. М., МГУ, 1979. -326 с.
- Кузнецова М. В. Эволюция стиля повествовательных произведений
- A.П.Чехова: Автореф. дис. докт.филол.наук. М, МГПИ им. 1. B.И.Ленина, 1975. 38 с.
- Линков В.Я. Художественный мир прозы А.П.Чехова. М., МГУ, 1982. -126 с.
- Майнулов В.А. Лермонтовская энциклопедия М., 1981. — 784 с.
- Мандельброт Б. О рекуррентном кодировании, ограничивающем влияние помех. // Теория передачи сообщений. М., 1967. — С. 111−133.
- Мартыненко Г. Я. О статистических характеристиках ранговых распределений . // Ученые записки Тартуского университета. Вып. 872. Квантитативная лингвистика и автоматический анализ текста. Тарту, 1989.- С. 50 — 68.
- Мартыненко Г. Я. Основы стилеметрии. Л., ЛГУ, 1988. — 173 с.
- Мартыненко Г. Я., Фомин C.B. Ранговые моменты. НТ.И. Сер. 2, М., 1989, № 8.- 14 с.
- Нешитой В.В. Длина текста и объем словаря. Показатели лексического богатства текстов // Методы изучения лексики. Минск, 1975. — С. 110 -118.
- Ненгитой В.В. Математические модели роста словаря и информационных потоков. // Ученые записки Тартуского университета. Вып. 872. Квантитативная лингвистика и автоматический анализ текстов. Тарту, 1989. — С. 83 — 102.
- Орлов Ю.К. О статистической структуре сообщений, оптимальных для человеческого восприятия (к постановке вопроса). НТ.И. Сер. 2, М., 1970,№ 8.-С. 11−16.
- Паперный З.С. А.П.Чехов. Очерк творчества. М., Гослитиздат, 1960. -302 с.
- Пиотровский Р.Г. Автоматическая переработка текста: теория, эксперимент, внедрение. // Автоматическая переработка текста методами прикладной лингвистики. Кишинев, КПИ, 1977. — С. 3−5.
- Пиотровский Р.Г. Информационные измерения печатного текста. // Энтропия языка и статистика речи. Минск, МГПИ, 1966. — С. 5 — 88.
- Пиотровский Р.Г. Информационные измерения языка. Л., «Наука», 1968.- 116 с.
- Пиотровский Р.Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., «Высшая школа», 1977. — 383 с.
- Полоцкая Э.Д. А.П.Чехов. Движение художественной мысли. М., «Советский писатель», 1979. 340 с.
- Поцепня Д.М. Образ мира в слове писателя. СПб, СПбГУ, 1997. 270 с.
- Трофимов В.П. Логическая структура статистических моделей. М., «Финансы и статистика», 1985. — 190 с.
- Тулдава Ю.А. К вопросу об аналитическом выражении связи между объемом словаря и объемом текста. // Ученые записки Тартуского университета. Вып. 549. Лингвостагистика и квантитативные закономерности текста. Тарту, 1980. — С. 113 — 144.
- Тулдава Ю.А. О квантитативных характеристиках богатства лексического состава художественных текстов. // Ученые записки Тартуского университета. Вып. 437. Lingvistica, IX. Тарту, 1977. — С. 159 — 175.
- Тулдава Ю.А. О теоретико-методологических основах квантитативно -системного анализа лексики (3): Методика исследования // Ученые записки Тартуского университета. Вып. 619. Тарту, 1982. — С. 123 — 143.
- Тулдава Ю.А. Проблемы и методы квантитативно системного исследования лексики. Таллин, «Валгус», 1987. — 204 с.
- Тюпа В.И. Художественность Чеховского рассказа. М., «Высшая школа», 1989. — 135 с.
- Фрэнсис У.Н. Проблемы формирования и машинного представления большого корпуса текстов. // Новое в зарубежной лингвистике. Вып. XIV. М., «Прогресс», 1983. — С. 334−352.
- Фукс. В., Молль А. Искусство и ЭВМ. М., «Мир», 1975. — 556 с.
- Хайтун С.Д. Наукометрия. Состояние и перспективы. М., «Наука», 1983. — 344 с.
- Частотный словарь романа Л. Н. Толстого «Война и мир». Тула, Тул. ГПИ, 1978. — 380 с.
- Частотный словарь русского языка. Под ред. Засориной Л. Н. М., «Русский язык», 1977. — 935 с.бО.Черный А. И. Общая методика построения тезаурусов. // НТ.И. Сер. 2. -М., 1968. № 5. С. 9 — 32.
- Чистяков В.Ф. Словарь комедии «Горе от ума». Вып. 1. Смоленск, 1939. — 234 с.
- Чудаков А.П. Мир Чехова. М., «Советский писатель», 1986. — 380 с.
- Чудаков А.П. Поэтика Чехова. М., «Наука», 1971. — 290 с.
- Шайкевич А.Я. Дифференциальные частотные словари и изучение языка Достоевского. // Слово Достоевского. М., ИРЯ РАН, 1996. — С. 197 — 253.
- Яблонский А.И. Стохастические модели научной деятельности. // Системные исследования. Ежегодник, 1975. М., 1975. — С. 5 — 42.
- Charniak Е. Statistical language learning. London, MIT press, 1993. — 170 с.
- Guiraud P. Les caracteres statistiques du vocabulaire. Paris, Presses Universitaires de France, 1954. — 111 c.
- Haustein H.-D. Prognosverfahren in der Sozialistischen Wirtschaft. Berlin, 1970. — 384 c.
- Kucera H., Francis N.W. Computational anaiisis of present-day American English. Providenca, Brown Univ. press, 1967. — 424 с.
- Pala К., Rychly P., Smrz P. Annotated Corpus for Czech. // Proceedings of SOFSEM'97. N.Y., Springer Verlag, 1997.
- Shannon С. The mathematical theory of communication. Illinois, Univ. of Illinois press, 1949. — 117 c.
- Spevack M. Complete and Systematic Concordance to the Works of Shakespeare. Vol. 1−6. N.Y., Hildesheim, 1968−1970.
- Tesitelova M. a kol. Kvantitativni charakteristiky soucasne cestiny. // Studie a prace lingvisticke. Praha, Academia, 1985.110