Стилеметрия и ее методы
Рассмотрим математические аспекты обработки и анализа филолого-статистических данных. В традиционной статистике различаются 2 группы методов: описательные методы и методы оценивания. Задача первых том, чтобы представить исходные данные в компактной и наглядной форме (таблицы, графики) и обобщить эти данные с помощью различного рода статистик. К описательным тесно примыкает метод моделирования… Читать ещё >
Стилеметрия и ее методы (реферат, курсовая, диплом, контрольная)
МИНОБРНАУКИ РОССИИ ФГБОУ ВПО «ПЕРМСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ»
Кафедра общего и славянского языкознания Стилеметрия и ее методы Реферат студентки
3 курса филологического факультета очной формы обучения Зелениной А. Е.
Преподаватель Ерофеева Е. В.
Пермь 2012
Введение
Одно из актуальных направлений современной прикладной филологии — освоение и разработка методик систематизации и обработки текстовых данных. Уже созданы автоматизированные системы извлечения, поиска, обработки филологической информации.
Важной областью приложения методов и средств обработки больших массивов данных в филологии является стилистика, в особенности та ее часть, которая занимается счетом и измерением стилистических явлений.
Стилеметрия (стилометрия) — прикладная филологическая дисциплина, занимающаяся измерением стилевых характеристик с целью систематизации и упорядочения (типологии, атрибуции, датировки, диагностики, реконструкции и т. д.) текстов и их частей.
История изучения стилеметрии
Впервые исследование стиля текста с целью атрибуции было предпринято еще в XV веке. Итальянский филолог Лоренцо Валла опубликовал трактат «Рассуждение о подложности так называемой дарственной грамоты Константина», в котором на основе различных, в том числе стилистических критериев доказывалось, что данный текст является подделкой.
История современной статистической стилистики начинается в середине XIX в., когда английский математик Аугустус де Морган в 1851 г. высказал предположение, что различные авторы могут быть определены посредством скрытых статистических черт. Рассматривая проблемы греческой прозы, Морган утверждал, что средняя длина слов в произведении автора может быть характерной чертой авторского стиля. Однако, насколько нам известно, сам де Морган никаких вычислений не делал.
В середине XIX в. также существовала группа ученых, разрабатывающая так называемый метод «стилометрики» (Ф.Г. Фриари, Дж. К. Инграм, Ф.У. Фурнивал). Они подсчитывали количество повторений определенного слова и изменение размера в стихах. Главным результатом их работы было открытие медленного, но постоянного изменения стиля Шекспира в течение 22-х лет.
Термин «стилеметрия» был изобретен германским филологом Вильгельмом Диттенбергером (1880), который сделал попытку решить проблему атрибуции и хронологии диалогов Платона. Он исследовал частоту употребления слов, особенно служебных, в текстах Платона, реализация которых не зависит от тематики текста. Позже его исследования на различных материалах продолжили Е. Зеллер (1887), Ф. Чада (1901), Ц. Риттер (1903).
В России впервые Н. А. Морозов поднял проблему отличия плагиата от оригинальных работ известных авторов и применил вероятностно-статистический метод в целях атрибуции. В 1915 г. он опубликовал статью «Лингвистические спектры». Предшествующие ему исследователи опирались, главным образом, на частоту употребления знаменательных слов. Н. А. Морозов, применяя простые вычислительные способы, рассматривал частоту употребления служебных слов и их вариаций в индивидуальных текстах.
В 20-е гг. ХХ в. можно назвать только несколько серьезных исследователей по стилостатистике, таких как Р. Е. Паркер (1925), З. Е. Чендлер (1928), М. Пэрри (1928), и, в особенности, А. Бусман (1925), автора так называемого соотношения глагол-прилагательное.
В 30-е гг. ХХ в. был сделан новый шаг в применении статистических методов в стилистике такими лингвистами, как Дж. В. Флетчер (1934), рассматривавшим развитие стиля Спенсера, Г. М. Боллинг (1937), с критическим эссе по статистическому исследованию языка Гомера, Дж. Б. Кэрролл (1938), поднимавший проблему разнообразия словаря, и У. Г. Юл (1938), первым исследовавший дистрибуцию длины предложений как статистическую характеристику стиля.
Именно с него начинается применение современных статистических методов в стилистике. С этого периода применение статистических методов в исследовании стиля распространяется по всему миру. Резко возрос интерес к статистической лингвистике, особенно в 1960;70 гг. (Дж. Б. Кэрролл, Г. Хердан, Х. Х. Сомерс, Ч. Мюллер, Б. Келман, Л. Т. Милик, Дж. Мистрик, Л. Долежел, К. Б. Уильямс, Б. Н. Головин, Й. Краус, М. Н. Кожина и др.). Именно в этот период возникают и развиваются разнообразные идеи анализа авторского стиля.
С появлением компьютеров в 60-е гг. ХХ в. стало возможным их применение в лингвистических исследованиях, в частности, в решении проблемы авторства и идиостиля. Привлечение внимания лингвистов к компьютеру связано с его способностью хранить большие объемы информации и находить употребления слов, групп слов, повторяющихся слогов и т. д. Таким образом, компьютер может обрабатывать огромные объемы информации в доли секунды. С. И. Сиделоу и У. А. Сиделоу ввели новый термин «вычислительная стилистика», под которым они понимают количественно строгое и глубокое изучение стиля в естественном языке. Вычислительная стилистика имеет обширное практическое применение для различных сфер — от машинного перевода и автоматического реферирования до общественных и гуманитарных наук. Одним из частных ее применений, безусловно, является исследование идиостиля и решение проблем атрибуции.
М.Х. Т. Элфорд сделал вывод о том, что слова, являющиеся низкочастотными в общем измерении, становятся высокочастотными в частном измерении. Таким образом, компьютерные данные показывают, что если низкочастотное слово однажды встретилось в тексте, то дальнейшая частотность его употребления будет примерно в десять раз больше, чем в общем употреблении. Такой вывод позволяет утверждать, что можно выявить стилистические особенности автора на основании частотности употребления определенных лексем.
К подобным выводам приходит и Г. Хердан в работе «Quantitative Linguistics» (Квантитативная лингвистика): стиль, по его мнению, может быть охарактеризован постоянным соотношением между однородностью и разнообразием частотности слов. Г. Хердан говорит о следующих соотношениях: специальная лексика/общая лексика, специальные случаи употребления/общие случаи употребления, специальная лексика/ общие случаи употребления.
В 1970;90-е гг. все больше исследователей проявляют интерес к применению компьютерной обработки данных при анализе текстов, как в синтаксическом, так и в грамматическом, лексическом аспектах.
Обязательное применение автоматической обработки данных лежит в основе работ Ю. В. Сидорова, И. О. Тарнопольской, Д. В. Хмелева. В исследованиях текстов, проводимых под руководством Л. В. Милова, атрибуция текстов проводится при помощи построения графов «сильных связей» по матрице частот парной встречаемости грамматических классов слов и происходит при помощи специальной компьютерной программы.
Современным отечественным лингвистом, занимающимся статистическими методами атрибуции текста, является М. А. Марусенко. Ему принадлежит идея теории распознавания образов. Он разделяет процедуру атрибуции на три относительно самостоятельных этапа: формирование литературно-критической гипотезы, проверка литературно-критической атрибутивной гипотезы методами теории распознавания образов, интерпретация результатов проверки атрибутивной гипотезы. В данной работе статистико-вероятностные методы анализа языка и стиля произведения используются автором для проверки атрибутивной гипотезы.
Одним из значительных отечественных лингвистов, занимающихся стилеметрией, является Г. Я. Мартыненко. В 1988 г. он написал монографию «Основы стилеметрии» и на протяжении более чем двадцати лет занимается статистическим методами в лингвистике. Некоторые научные работы по стилеметрии написаны в соавторстве с Сергеем Викторовичем Чебановым.
Объект и предмет стилеметрии Объектом стилеметрии является текст, созданный конкретным автором в конкретное время в конкретной ситуации.
С точки зрения теории множеств объект стилеметрии — собирательное множество, а с точки зрения теории систем текст может быть отнесен к классу внутренних систем, являющихся целостными образованиями, к которым можно применять процедуры членения, представляя их в виде некоторой структуры составляющих их частей. С точки зрения теории статистики текст может рассматриваться как реальная совокупность.
Предметом исследования являются элементы стиля, которые понимаются как особенности периферии характеристики объекта. Стиль может быть описан через факультативные, поверхностные признаки текста, которые лишь неявным образом затрагивают его сущностные, глубинные характеристики. Разные уровни стилевой организации можно соотнести с разными уровнями достоверности выводимости признаков из существенных.
Понятие о категории «стиль»
Слово «стиль» имеет самые разные значения в зависимости от того, в какой области оно используется.
В литературоведении под стилем понимается устойчивая целостность приемов, характеризующих художественное произведение или их совокупность.
В языкознании господствует телеологическая трактовка категории «стиль», согласно которой язык используется в различных сферах общения со специфическими целями, образуя деловой стиль, научный, публицистический и прочие стили, включая художественный.
По определению Г. Хердана, стиль — общая характеристика индивидуального способа выражения личности в языке. Стиль понимается им как подсознательный фактор, которому автор не может не подчиняться. Следовательно, языковое выражение является в меньшей степени намеренным выбором, как это может показаться на первый взгляд. Человек сам не осознает своего стиля, и его можно распознать так же четко, как и отпечатки пальцев, если только он не намерен скрыть его.
Приведем еще одно, упрощенное, определение стиля, предложенное В. Винтером. Стиль может быть охарактеризован как система периодически повторяющихся выборок из перечня произвольных черт языка. Типы выборки могут быть различными: абсолютное исключение произвольных элементов, обязательное включение произвольных черт куда-либо еще, различные степени включения особого варианта без полного исключения конкурирующих черт.
Таким образом, из этих двух определений следует, что стиль — это система периодически повторяющихся выборок, характеризующая индивидуальный способ выражения в языке конкретного человека. Именно такое определение оправдывает применение количественных методов при анализе авторского стиля.
Методы стилеметрии Стилеметрия имеет дело с количественным классифицированием, а эта область классификационных занятий тесно соприкасается с несколькими научными направлениями: теорией группировок, теорией оценивания, распознаванием образов, теорией корреляции, количественной таксономией, методами психологического тестирования и др. Границы между этими направлениями стираются, и сегодня можно говорить о комплексе подходов и методов, занимающихся теми или иными видами количественной систематизации объектов произвольной природы.
В последние годы круг решаемых стилеметрией задач и репертуар применяемых ею методов существенно расширились. Практической повседневностью стала количественная таксономия текстов, стилистическое приложение нашли дешифровочные модели, относительно самостоятельное направление образовала квантитативная типология текста, начала формироваться стилистическая диагностика, большое развитие получили методы реконструкции древних текстов.
Ведущую роль в стилеметрическом исследовании играет статистический метод. Статистический метод — это комплекс приемов и принципов, согласно которым производятся сбор, систематизация, обработка и интерпретация статистических данных с целью получения научных и практических выводов. В филологии этот метод сочетается с основными методами научного познания: наблюдением и экспериментом. Но в стилеметрии господствует наблюдение — слежение за теми явлениями, которые заданы только и только в тексте (или в корпусе текстов).
Рассмотрим математические аспекты обработки и анализа филолого-статистических данных. В традиционной статистике различаются 2 группы методов: описательные методы и методы оценивания. Задача первых том, чтобы представить исходные данные в компактной и наглядной форме (таблицы, графики) и обобщить эти данные с помощью различного рода статистик. К описательным тесно примыкает метод моделирования, заключающийся в выборе вероятностно-статистической модели, адекватно описывающей эмпирический материал. Методы оценивания распадаются на 2 группы: методы оценивания неизвестных параметров распределения и методы проверки статистических гипотез. Что касается метода статистических гипотез, то здесь в последние годы большое распространение получили непараметрические методы, основанные на весьма слабых допущениях о природе и законе распределения исследуемых совокупностей.
Статистические ряды — это единственный надежный инструмент, с помощью которого можно обнаружить правильность, регулярность, устойчивость в переменчивой стилистической картине текста, выявить характер, направление и силу стилистической связи, измерить степень стилистического сходства или различия между текстами и т. д. Это основной рабочий инструмент стилеметрии, с помощью которых осуществляется свертка и обобщение стилистических данных. Г. Я. Мартыненко выделяет следующую систему типов распределений.
Вероятностная теория — лингвистическая реальность Гауссовость — негауссовость стилеметрия текст статистический Типичность — нетипичность Ранг — частота Разнообразие — ограничение разнообразия Строение — поведение Элемент — совокупность элементов Виртуальность — актуальность Однородность — неоднородность Устойчивость — неустойчивость Редкость — частость Симметрия — ассиметрия Одновершинность — многовершинность Классификация — важный элемент научной деятельности. Основные задачи стилеметрии (атрибуция, датировка, диагностика, периодизация и др.) должны рассматриваться в контекте форм упорядочивающей и систематизирующей работы, исследуемых современной теорией классификации.
Р. В. Манекин выделяет в современном стилеметрическом исследовании 3 этапа:
анализ нескольких фрагментов текстовой действительности, в соответствии с установками «идеологии изучения феномена смысла»;
процедура экстраполяции полученных выводов, в соответствии с установками идеологии «квантитативной нарратологии»;
сопоставление полученных результатов.
Пример стилеметрического анализа В качестве примера стилистического анализа приведем лингвистический этюд Н. А. Морозова.
Стилеобразующим элементом автор считает распорядительные частицы (служебные слова): «даже и при разнородности сюжетов, есть во всех языках ряд слов, которые употребляются почти одинаково во всех родах литературы и которые по своему характеру могут быть названы, как я уже выражался ранее, служебными или распорядительными частицами человеческой речи. Это прежде всего союзы, предлоги и отчасти местоимения и наречия, а затем и некоторые вставные словечки, в роде: „т.-е.“, „например“ или „и mak далее“.»
Такие частицы взяты из первой тысячи слов из произведений нескольких авторов XIX века — Гоголя («Майскую ночь», «Страшную месть» и «Тараса Бульбу»), Пyшkuнa («Капитанскую дочку», «Дубровского» и «Барышню-крестьянку»), Толстого («Смерть Ивана Ильича», «Корнея Васильева», «Три смерти» и «Три старца»), Тургенева («Малиновую воду»), Карамзина («Бедную Лизу») и Загоскина («Юрия Милославского»). Исследователь составил графики для каждого автора, обозначая каждую распорядительную частицу на горизонтальной линии, а число ее повторения на вертикальной. Эти графики он и назвал «лингвистическими спектрами» и предложил «исследование по ним назвать лингвистическим анализом, соответственно спектральному анализу состава небесных светил».
В числе употребляемых авторами служебных частиц (союзов и предлогов) оказались ясные процентные различия (слоговые типы).
Автор выделил разные виды спектров: «Чтоб не давать очень сложных общих спектров при нанесении этих цифр на графики, я разделил их здесь на предложные, союзные, местоименные cпектpы и т. д., судя по тому, что они представляют.» Все естественные спектры автор обратил в приведенные, следуя такому правилу: «Среднее число повторений каждой служебной частицы на тысячу слов данного произведения нужно разделить на среднюю повторяемость той же частицы, вычисленную по многим авторам данной эпохи. Тогда вместо предыдущих абсолютных цифр получатся Коэффициенты индивидуальности авторов, величиною своею то более, то менее единицы.» (см. таблицу).
Таковы общие основы лингвистического анализа, предлагаемого Морозовым, необходимому «для доказательства плагиатов и апокрифов, которыми полна литература, приписываемая авторам древности и начала средних веков. Лингвистический анализ дает нам здесь объективные основы для суждений об одноавторности и разноавторности произведений.»
Заключение
В данном докладе мы рассмотрели объект, предмет стилеметрии, ее методы, привели пример лингвистического анализа.
Стилеметрию мы определили как прикладную лингвистическую дисциплину, занимающуюся измерением стилевых характеристик с целью упорядочивания и систематизации текстов и их частей. Объектом стилеметрии является текст, предметом — стиль как совокупность измеримых симптоматических признаков. Основным рабочим инструментом стилеметрии являются статистические распределения. Основные задачи стилеметрии должны рассматриваться в контексте с помощью современной теории классификации.
Список литературы
Журавлева Н. Н. Применение количественных методов при анализе стиля автора и решении проблем атрибуции. //Вестник Тюменского гос. Университета, 2012, № 1 с. 150 — 155
Итальянские гуманисты XV века о церкви и религии. М.: АН СССР, 1963. С. 139−216. Пер. с латинского И. А. Перельмутера Манекин Р. В. Когнитивная стилометрия: к постановке проблемы. URL: http://www.rvmanekin.ru
Мартыненко Г. Я. Основы стилеметрии. — Л.: Изд — во Ленингр. Ун-та, 1988. — 176 с.
Морозов Н. А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилометрический этюд./ Известия отд. Русского языка и словесности Имп. Акад. Наук. Т. XX, кн.4.1915. URL: http://www.textology.ru