Методы и программные средства выделения и численного оценивания вариативности языковых единиц
Изучены закономерности варьирования, имеющие место при переводе одного текста разными людьми. Анализ совместных 1,-граммных спектров параллельных переводов позволяет провести их количественное сравнение без предварительного выравнивания (процедуры выравнивания до конца не формализованы, достаточно трудоемки и хорошо работают лишь на близких текстах). Наиболее информативными в плане выявления… Читать ещё >
Содержание
- Глава 1. Обзор исследований вариативности структурных единиц в различных языковых системах
- 1. 1. Исследование вариативности в лингвистике
- 1. 1. 1. Варьирование в «узком» и «широком» смысле
- 1. 1. 2. Вариативность на разных уровнях языковой системы
- 1. 2. Вариативность и меры близости символьных последовательностей
- 1. 2. 1. Метрика Левенштейна (редакционное, эволюционное расстояние)
- 1. 2. 2. Теоретико-множественные меры сходства
- 1. 2. 3. Корреляционные и ранговые меры близости
- 1. 3. Описание вариативности на языке «образцов» (шаблонов)
- 1. 4. Исследование вариативности в других языковых системах
- 1. 5. Актуальность количественных подходов к анализу проявлений вариативности
- 1. 6. Выводы по первой главе
- 1. 1. Исследование вариативности в лингвистике
- Глава 2. Методика количественного исследования вариативности языковых единиц
- 2. 1. Формирование обучающих подборок. Предобработка текста
- 2. 2. Анализ редакционных операций. Выбор мер сходства
- 2. 3. Представление обучающих подборок: «¿-граммы на словах»
- 1. 2.4. Выделение структурных единиц из текста
- 2. 4. 1. Алгоритм выделения устойчивых цепочек слов
- 2. 4. 2. Выявление аспектных маркеров
- 2. 4. 3. Выделение сверхфразовых единств
- 2. 5. Способы описания вариантов ЯЕ
- 2. 5. 1. Формирование ближайших окрестностей ЯЕ
- 2. 5. 2. Представление вариантов в виде образцов
- 2. 6. Алгоритмы получения количественных оценок вариативности ЯЕ
- 2. 7. Программная реализация методики
- 2. 8. Выводы по второй главе
- 3. 1. Количественные характеристики 1 -окрестностей корней и слов
- 3. 1. 1. Зависимость числа соседей от длины ЯЕ, редакционной операции и номера позиции
- 3. 1. 2. Количественная и качественная характеристика векторов замен
- 3. 1. 3. Количественная и качественная характеристика векторов вставок
- 3. 2. Создание тестовых словарей для систем распознавания речи на основе словаря паронимов
- 3. 2. 1. Сравнение количественных характеристик графической и фонетической версий словаря паронимов
- 3. 2. 2. Выбор «трудных» подсловарей из словаря квазиомонимов
- 3. 3. Количественные характеристики слов с несколькими искажениями
- 3. 3. 1. 2-окрестности слов для разных типов редакционных операций
- 3. 3. 2. Кластеризуемость множественных искажений
- 3. 3. 3. Перестановки и переносы символов в словах
- 3. 3. 4. Случай трех искажений в слове
- 3. 4. Вариативность морфемных моделей слов
- 3. 4. 1. Интегральные характеристики типовых морфемных структур
- 3. 4. 2. Характеристики 1-окрестностей морфемных моделей
- 3. 5. Выводы по главе 3
- 4. 1. Количественный анализ и варьирование индикаторных словарей
- 4. 1. 1. Количественные характеристики и оценка эффективности индикаторных словарей
- 4. 1. 2. Пополнение индикаторных словарей путем варьирования маркерных словосочетаний
- 4. 2. Анализ вариативности заголовки, построенные на «игре слов»
- 4. 2. 1. Описание исходных данных
- 4. 2. 2. Классификация прототипов и их источников
- 4. 2. 3. Качественная и количественная характеристика схем. варьирования
- 4. 2. 4. О возможности автоматизации моделирования заголовков из прототипов
- 4. 3. Выводы по главе 4
- 5. 1. Сравнение разных переводов одного текста
- 5. 1. 1. Анализ совместного частотного спектра двух переводов
- 5. 1. 2. Анализ расхождений переводов с оригиналом и друг другом
- 5. 2. Формирование и сравнение различных квазирефератов текста
- 5. 2. 1. Профиль кластеризуемое&trade- языковых единиц в тексте
- 5. 2. 2. Построение квазирефератов текста с использованием профиля кластеризуемости, веса фраз и аспектных маркеров
- 5. 2. 3. Экспериментальная проверка и сравнение методов
- 5. 3. Выводы по главе 5
Методы и программные средства выделения и численного оценивания вариативности языковых единиц (реферат, курсовая, диплом, контрольная)
Известно, что объемы текстовой информации в электронных хранилищах данных удваиваются каждые три года. В связи с этим возникает потребность в разработке человеко-машинных интерфейсов, а также систем автоматического извлечения фактов и знаний из текстов различной языковой природы. Серьезные трудности при этом создает вариативность языковых единиц (ЯЕ), проявляющаяся в разных формах на всех уровнях иерархии. Проблема вариативности структурных единиц является одной из центральных для различных языковых систем [4, 14, 22, 35, 36]. В частности, вариативность лежит в основе эволюционного процесса, определяющего наиболее вероятные пути трансформации структурных единиц. Всестороннее изучение вариативности способствует углублению понимания организации, функционирования и эволюции языковой системы.
Для автоматического обнаружения и отоэ! сдествления вариантов ЯЕ в тексте необходимо разрабатывать специальные программные средства с опорой на алгоритмы, формализующие понятие ЯЕ и ее ближайшей окрестности. В основе таких алгоритмов лежит изучение закономерностей варьирования ЯЕ, в частности, выявление допустимых преобразований (редакционных операций), а также получение количественных характеристик вариативности ЯЕ. Они включают в себя формальные оценки близости двух ЯЕ, доминирующие типы редакционных операций, оценки устойчивости различных позиций внутри ЯЕ, характеризующие возможности ее членения на более мелкие единицы и др.
Отождествление вариантов языковых единиц (ЯЕ) производится программными средствами самых разных пользовательских систем — от информационно-поисковых до автоматических корректоров ошибок. Например, все интерфейсы, имеющие дело с текстами на естественном языке, сталкиваются с ошибками в написании слов в виде пропущенных, лишних или замененных букв, их перестановок и т. п. Существующие корректоры не всегда обнаруживают такие ошибки, поскольку написанное слово может совпасть с другим, также содержащимся в словаре системы: («подробно осуждается пример.», «рассматриваются классификационные рублики и рубрики предметного каталога.»). Обнаружение и исправление ошибок такого типа и других, требующих привлечения семантики и использования контекста, является актуальной задачей компьютерной лингвистики.
Трудности информационного поиска во многом обусловлены высокой вариативностью представления поисковых объектов в текстовой форме. Например, если нас интересует такой аспект содержания научной работы как «цель исследования», то его поисковыми маркерами могут служить такие комбинации слов как «в настоящей работе», «в данной работе», «в данной статье», «в работе рассматривается», «целью работы является», «в статье описывается», «данная работа посвящена» и многие другие. Исследование закономерностей варьирования помогает расширить поисковый запрос, повысить полноту и точность поиска.
Объектом исследования в данной работе являются ЯЕ разных иерархических уровней: корни, канонические формы слов, устойчивые словосочетания, фразы, построенные на «игре» слов, сверхфразовые единства, авторские аннотации и формально построенные квазирефераты текста. Традиционные лингвистические исследования вариативности языковых систем носят преимущественно качественный характер. Отличительной чертой данного исследования является получение количественных характеристик вариативности ЯЕ и ориентация на единицы разных иерархических уровней, в том числе высоких — слабо формализованных. Эти особенности определяют широкую сферу применимости программно-алгоритмического комплекса, созданного для анализа вариативности ЯЕ. Он может быть использован для обнаружения дубликатов, заимствований (в том числе в текстах программ), оптимизации информаг{ионного поиска (обогащение запроса путем варьирования, формирование шаблонов), сегментации длинных неструктурированных текстов, обнаружения ошибок и стилеметрии (формализация понятий «норма», «отклонение от нормы»).
Сложность исследования вариативности ЯЕ проявляется также и в том, что программный комплекс должен включать широкий набор средств автоматической обработки текстов (АОТ). Отнюдь не все ЯЕ фиксируются в тексте в явном виде с помощью формальных разделителей, относящихся к разным иерархическим уровням (пробелы, запятые, точки и т. п.). Некоторые типы ЯЕ, активно изучаемые в последнее время (например, устойчивые словосочетания, максимально длинные внутрии межтекстовые повторы, сверхфразовые единства), требуют разработки специальных алгоритмов для своей идентификации, что также нашло отражение в данной работе. Поскольку многие из интересующих нас ЯЕ имеют значительную длину, для их выделения из текста использовался аппарат ¿—граммного анализа, где под 1,-граммой понимается цепочка из Ь подряд следующих слов текста* (возможно, нормализованных). В [29] показано, что по параметру Ь спектр /,-грамм целесообразно ограничивать длиной максимального повтора в тексте (Ьтах). Информация о частоте и местах вхождения различных ¿—грамм в текст, является основой для выделения ЯЕ более высоких, чем слово, уровней. Кроме того, необходимы программы для фильтрации не представляющих интереса вариантов, возникающих, в частности, при словоизменении.
В соответствии с вышеизложенным целями исследования являются:
— разработка и программное обеспечение методики выделения и количественного анализа вариативности ЯЕ;
— исследование закономерностей варьирования ЯЕ на разных уровнях иерархии и использование этих закономерностей в приложениях.
Это достигается путем:
— формирования достаточно представительных обучающих подборок по каждому изучаемому классу ЯЕ, в которых наряду с самими ЯЕ представлены их различные варианты. В общем случае эта процедура может включать в себя Термин ¿—грамма был, по-видимому, впервые употреблен Шенноном [75] применительно к цепочке из? подряд следующих символов, но позднее его стали использовать и применительно к более крупным ЯЕ, хотя это и не совсем корректно. работу непосредственно с текстом (вычисление полного спектра Х-грамм, ?=1,2,. Ьтах,) с последующей целенаправленной их фильтрацией);
— фиксации допустимых редакционных операций, используемых при варьировании каждой ЯЕ;
— введения формальных мер близости между ЯЕ, учитывающих спектр допустимых редакционных операций и позволяющих для каждой ЯЕ определить ее ближайшую окрестность;
— количественной характеризации окрестности каждой ЯЕ (статистика использования допустимых редакционных операций и др.). В частности, окрестности ЯЕ могут быть представлены в виде шаблонов («образцов с переменными»), в которых зафиксированы неизменяемые ядра и варьируемые компоненты.
В качестве материала для получения количественных оценок вариативности использовались: деривационный словарь русского языка объемом свыше 100 тыс. канонических форм при исследовании низких уровней языковой иерархии (морфемы и лексемы) — подборка из более чем 2500 заголовков, построенных путем варьирования известных (находящихся на слуху) прототипов (словосочетания и короткие фразы) — индикаторы отдельных аспектов содержания научного текста (словосочетания и образцы, полученные в полуавтоматическом режиме с привлечением человека эксперта на заключительном этапе), а также тексты разных жанров для рассмотрения ЯЕ более высоких уровней (максимально длинные повторы, сверхфразовые единства, авторские аннотации и программно построенные квазирефераты, параллельные тексты).
На защиту выносятся следующие основные результаты.
1. Предложена методика количественного исследования проявлений вариативности ЯЕ разных уровней иерархии, реализованная в виде совокупности методов и программ предобработки текста (фонетический, морфологический, Х-граммный и позиционный анализ), выделения ЯЕ из текста, формирования обучающих подборок по изучаемым классам ЯЕ, определения ближайших окрестностей (в смысле редакционного расстояния) каждой ЯЕ и получения числовых оценок вариативности, таких как частота использования при варьировании различных типов редакционных операций, степень устойчивости каждой позиции в исследуемой ЯЕ, степень позиционной класт-ризуемости искажений, когда их число превышает 1, и др.
2. Впервые с помощью разработанных программных средств получены количественные оценки вариативности ЯЕ разных уровней: корней, слов, морфемных моделей, аспектных словосочетаний, крылатых фраз и выражений, параллельных текстов. Отмечено расширение спектра редакционных операций при переходе от нижних уровней иерархии к верхним, а также их усложнение от простейших универсальных (вставка, замена, устранение элемента структуры) до сугубо специфичных (например, контаминации1).
3. На базе 100-тысячного словаря русского языка построен уникальный электронный словарь паронимов «в широком смысле», где каждое слово представлено своими 1-, 2-окрестностями, содержащими слова из исходного словаря, отличающиеся от заданного, соответственно, одним или двумя искажениями типа «вставка», «замена» или «устранение» символа в любой их комбинации. Словарь предназначен для изучения процессов словообразования, поиска и моделирования ошибок паронимического типа, генерации комбинаторных лингвистических задач, моделирования заголовков, построенных на «игре слов».
4. Сформирован словарь квазиомонимов — фонетическая версия словаря паронимов — для случая однократного (допустимого) искажения слова заменой, вставкой или удалением символа. На его основе предложена и реализована методика автоматического формирования трудных тестовых словарей для систем распознавания и синтеза речи с возможностью их многократного обновления. Словари содержат последовательности слов, мало разли.
1 В данном случае имеется в виду возникновение новой ЯЕ путем специфического объединения элементов двух известных яе. чающихся по артикуляционно-акустическим характеристикам несовпадающих в них звуков.
5. Предложен новый алгоритм выделения в тексте сверхфразовых единств, основанный на использовании сканирующих статистик. Введено понятие профиля кластеризуемости текста, аккумулирующее информацию обо всех выявленных в нем сверхфразовых единствах и дающее представление о макроструктуре текста. Профиль кластеризуемости отражает динамику развертывания текста с опорой на автоматически выделяемые слова и словосочетания, значимость которых определяется исходя из совместного учета частотной и позиционной информации. На его основе программно строятся квазирефераты неструктурированного (в общем случае) текста.
6. Разработана и реализована методика автоматизированного создания и обогащения (путем варьирования) индикаторных словарей, предназначенных для выявления отдельных аспектов содержания научных текстов. Она позволяет экспертам отбирать аспектные маркеры без прочтения полных текстов и обеспечивает приемлемые результаты по полноте и точности поиска.
Все процедуры: а) предобработка текстов (фонетическая транскрипция, морфологический анализ, Х-граммное представление (Ь — 1,2,., Ьтах), позиционный анализ), б) выделение ЯЕ промежуточных иерархических уровней (устойчивые словосочетания, сверхфразовые единства и др.), в) получение количественных характеристик вариативности ЯЕ — оформлены в виде программных модулей, схема сборки которых для получения конкретного результата представлена на рис. 1 (см. гл. 2). Все прикладные продукты, включая электронный словарь паронгшов, словари для тестирования систем распознавания и синтеза речи, индикаторные словари для извлечения информации об отдельных аспектах содержания научных текстов, получены с помощью этих программных средств.
Работа состоит из пяти глав, введения, заключения. Во введении сформулирована цель исследования, обоснована его актуальность, указаны подходы и методы достижения цели, изложены основные результаты.
В главе 1 приведены обзорные сведения, дающие представление об исследовании вариативности в лингвистике и в других языковых системах, о возможностях формального определения и описания вариантов.
В главе 2 изложена методика проведения количественных исследований. Сформулированы принципы формирования обучающих подборок, обоснован выбор метрик, описаны алгоритмы предобработки текстов, методы выделения структурных ЯЕ, а также способы получения количественных оценок их вариативности.
В главе 3 исследуется вариативность ЯЕ нижних уровней иерархии — корней и слов, рассмотренных на фонемном, графемном и морфемном уровне, в зависимости от их длины, а также типа и локализации искажений. Описана методика формирования тестовых словарей для систем распознавания и синтеза речи.
В главе 4 систематизированы схемы варьирования ЯЕ высоких уровней иерархии: фраз и словосочетаний из подъязыка заголовков, основанных на «игре слов», и аспектных маркеров. Рассмотрена специфика образования вариантов «маркерных» словосочетаний, предложена схема автоматизированного формирования и обогащения индикаторных словарей, описаны эксперименты по использованию этих словарей для поиска информации об отдельных аспектах содержания текста.
В пятой главе исследуются закономерности варьирования на уровне текстов. Описаны схемы варьирования, встречающиеся при переводе одного текста разными людьми, а также проведено сравнение вариантов смыслового сжатия текста (в виде квазирефератов), полученных на основе профилей кластеризуемое&trade-, отражающих макроструктуру текста и других подходов.
В заключении представлены развернутые выводы по работе.
5.3. Выводы по пятой главе.
1. Законченные тексты (сообщения, научные статьи, газетные публикации, литературные произведения и др.) представляют высший уровень в системе иерархии ЯЕ. Они чрезвычайно разнообразны по жанру, объему, тематике, структуре и другим показателям, поэтому любое формальное их исследование обычно ограничено достаточно узкими подклассами. Рассматриваются два таких подкласса: параллельные переводы одного и того же текста на другой язык, сделанные разными людьми, и различные варианты сжатия текста до уровня квазиреферата, сохраняющие в той или иной степени его смысл и реализованные разными людьми и (или) программами. Схемы варьирования на этом уровне затрагивают более крупные единицы и имеют специфические особенности, связанные с учетом макроструктуры текста (явной или скрытой) и его семантики.
2. Изучены закономерности варьирования, имеющие место при переводе одного текста разными людьми. Анализ совместных 1,-граммных спектров параллельных переводов позволяет провести их количественное сравнение без предварительного выравнивания (процедуры выравнивания до конца не формализованы, достаточно трудоемки и хорошо работают лишь на близких текстах). Наиболее информативными в плане выявления различий в переводах являются «контрастные» /-граммы, представленные исключительно или преимущественно в одном из текстов. Количественная информация, сопровождающая выявленные различия, позволяет разделить их на случайные (неизбежные при независимом переводе одного и того же текста разными людьми) и систематические (подразумевающие целенаправленную стратегию дистанцирования от имеющегося известного перевода). Сделан вывод о том, что в сравниваемых переводах «Винни-Пуха» (раннем — Заходера и позднем — Вебера) превалирует второй тип различий.
3. Многие методы построения квазирефератов отталкиваются от авторской («явленной») структуры текста, которая не всегда адекватно отражает его содержание. Предложен новый метод построения квазирефератов, который может работать и с плохо структурированными текстами, часто встречающимися на Интернет-сайтах. Он основан на оценивании макроструктуры текста с помощью характеристики, названной профилем кластеризуемости лексических едингщ в тексте. Профиль отражает совокупное распределение сверхфразовых единств в тексте. Отбор фраз для квазиреферата производится в местах существенного нарастания и/или убывания значений профиля. Такая стратегия присуща позиционным методам отбора значимых фрагментов в тексте, но они работают с явленной структурой, а не со скрытыми сверхфразовыми единствами.
4. Проведено экспертное" 1 оценивание рефератов и квазирефератов, построенных человеком или с помощью компьютерных программ. Отмечено многообразие вариантов в обоих случаях. Для научных текстов перспективным.
1 Удовлетворительных формальных методик оценивания качества квазирефератов не существует. Мнения экспертов также часто расходятся. представляется метод квазиреферирования с использованием многоаспектных индикаторных словарей, однако процедура их формирования достаточно трудоемка. Для плохо структурированных текстов любого жанра приемлем подход с использованием профиля кластеризуемости, но он требует значительных вычислительных затрат. Ряд заметных дефектов обнаружен и в квазирефератах, полученных с использованием известных коммерческих продуктов. Оценивая ситуацию в целом, можно сказать, что желательна комбинация различных подходов, поскольку ни один из рассматриваемых методов по отдельности не гарантирует получения квазиреферата должного качества во всех случаях.
Заключение
.
Проблема выделения структурных единиц и анализа их вариативности является актуальной для многих языковых систем, представленных последовательностями символов из элементов конечного алфавита, не содержащего формальных разделителей. Примером могут служить иероглифические тексты, ДНКи аминокислотные последовательности, знаменные песнопения, траектории динамических систем, представленные в символьной форме и т. п. Не теряет своей актуальности эта проблема и при анализе уже структурированных текстов. Речь идет о введении промежуточных уровней иерархии в уже сложившихся иерархических системах. В частности, в естественном языке или в ограниченных его подъязыках, где уровни иерархии задаются делением текста на слова, предложения, абзацы и т. д., часто возникает необходимость в рассмотрении промежуточных уровней с такими структурными единицами как «устойчивые словосочетания», «коммуникативные фрагменты», «летучие фразы», «межфразовые единства» и др.
Эти структурные единицы, образуемые достаточно длинными цепочками слов, как правило, не имеют формального определения и чрезвычайно вариативны. Обычно они описываются на качественном уровне и иллюстрируются примерами. Несмотря на слабую степень формализованное&trade-, данные объекты все чаще фигурируют в задачах информационного поиска (варьирование запросов на уровне синонимичных преобразований), тематической классификации (использование терминологических словосочетаний), машинного перевода (разработка систем типа «Translation Memory» (память переводчика), накапливающих билингвы в виде структурных единиц более высокого уровня, чем слово), смыслового сжатия текстов (формализованное реферирование с использованием словесных клише — маркеров того или иного аспекта содержания), обнаружения заимствований (поиск структур типа «текст в тексте»).
В работе с единых позиций рассмотрены вопросы выделения и анализа вариативности структурных единиц на разных иерархических уровнях. Отличительной особенностью работы в плане выделения ЯЕ является ориентация на достаточно крупные и слабо изученные структурные единицы, представленные отдельными цепочками слов или конструкциями более общего вида — шаблонами. Другой особенностью является описание ЯЕ вместе с ее «ближайшим» (в определенном смысле) окружением, что позволяет ввести ряд количественных характеристик, отражающих степень вариативности ЯЕ. Количественные оценки вариативности могут быть использованы для повышения качества информационного поиска, обнаружения ошибок, оценки информативности структурных единиц и других целей.
По итогам выполнения работы получены следующие основные результаты.
1. Предложена методика выделения и количественного исследования вариативности ЯЕ разных иерархических уровней, реализованная в виде совокупности методов и программ предобработки текста (фонетический, морфологический, ¿—граммный и позиционный анализ) — выделения ЯЕ из текстаформирования достаточно представительных обучающих подборок, содержащих образцы функционирования изучаемых ЯЕ и их вариантов в текстеанализа допустимых редакционных операций и выбора соответствующих им мер близостиопределения ближайших (в заданном смысле) окрестностей каждой ЯЕ и получения количественных оценок вариативности, таких как частота использования при варьировании различных типов редакционных операций, размер окрестности в зависимости от заданного уровня допустимых искажений, степень устойчивости каждой позиции в исследуемой ЯЕ, степень позиционной кластеризуемости искажений, когда их число превышает 1, и др.
2. Получены количественные оценки вариативности ЯЕ разных уровней: корней, канонических форм слов, морфемных моделей, аспектных словосочетаний, летучих фраз и выражений, параллельных текстов. Существенным моментом является расширение спектра используемых редакционных операций при переходе с низких уровней иерархии на более высокие, а также их усложнение от простейших универсальных (вставка, замена и устранение элемента структуры) до сугубо специфичных (двойные разнесенные замены с сохранением определенного отношения между элементами пар — заменяемых и заменяющихконтаминации, синтезируемые на основе двух исходных ЯЕ и др.). Степень проявления вариативности на всех уровнях весьма существенна. В частности, непустые 1-окрестности имеют более трети слов и почти две трети корней. Превалирующий тип искажений — замены. Выявлено, что существуют доминирующие типы вставок и замен для разных (но не всех!) позиций слов и корней. Показано, что векторы замен и вставок в агрегированном алфавите из гласных (Г) и согласных © в большинстве своем однородны, т. е. состоят из элементов одного типа (С или Г). На этом свойстве может быть основана дифференциация алфавита неизвестного языка на гласные и согласные.
3. На базе 100-тысячного словаря русского языка построен электронный многофункциональный словарь паронимов «в широком смысле», где каждое слово представлено своими 1-й 2-окрестностями, содержащими слова исходного словаря, отличающиеся от заданного, соответственно, одним или двумя искажениями типа «вставка», «замена» или «устранение» символа в любой их комбинации. Выявлен важный в методологическом отношении эффект пози-г^ионной кластеризуемости (двух или большего числа) искаэ1сений внутри ЯЕ, что указывает на взаимосвязь определенных позиций. Словарь паронимов может быть использован для обучения иностранцев русскому языку, поиска (и моделирования) ошибок паронимического типа, не выявляемых существующими корректорами, генераъщй комбинаторных лингвистических задач, сжатия словарей, поиска рифм и заголовков, построенных на «игре слов».
4. Получены количественные оценки вариативности слов на фонемном уровне. Сформирован словарь квазиомонимов (фонетическая версия словаря паронимов) для случая однократного допустимого искажения слова путем замены вставки или удаления символа (элемента фонетической транскрипции). На его основе предложена методика автоматического формирования трудных тестовых словарей для систем распознавания и синтеза речи с возможностью их многократного обновления. Словари содержат пары слов, мало различающиеся по артикуляционно-акустическим характеристикам несовпадающих в них звуков.
5. Предложен формальный алгоритм выделения в тексте сверхфразовых единств, основанный на использовании сканирующих статистик. Введено понятие профиля кластеризуемости текста, аккумулирующее информацию обо всех выявленных в нем сверхфразовых единствах и дающее представление о макроструктуре текста. Профиль кластеризуемости отражает динамику развертывания текста с опорой на автоматически выделяемые слова и словосочетания, значимость которых определяется на основе совместного учета частотной и позиционной информации. Предложены и реализованы различные формальные, процедуры построения квазирефератов неструктурированного (в общем случае) текста на основе профиля кластеризуемости и весовых коэффициентов фраз.
6. Разработана человеко-машинная методика формирования индикаторных словарей (или словарей «подсказок») для выявления определенных аспектов содержания научных текстов (цель работы, новизна, полученные результаты и др.). Она позволяет экспертам отбирать аспектные маркеры без прочтения полных текстов, что существенно снижает объем ручной работы. Для просмотра им предоставляются автоматически найденные потенциально возможные маркеры (чаще всего в виде устойчивых словосочетаний), снабженные короткими контекстами. Этой информации обычно оказывается достаточно для принятия решения о включении маркера в словарь или его игнорировании. Анализ вариативности маркерных цепочек позволил предложить схему обогащения индикаторных словарей маркерами, отсутствующими в исходной обучающей подборке текстов. Поиск различных аспектов содержания научных текстов с помощью построенных индикаторных словарей демонстрирует приемлемые результаты по полноте и точности.
7. Собраны и продолжают пополняться уникальные подборки обучающего материала для исследования вариативности ЯЕ на нижних и (в ограниченном объеме) верхних уровнях иерархии. В их числе: коллекция паронимических и иных типов ошибок, не выявляемых существующими корректорами 1000 примеров с контекстами из 1−2 предложений) — коллекция газетных заголовков, построенных на «игре слов» 2,5 тыс. примеров), коллещия структур типа «текст в тексте» с сопутствующими им индикаторами и др.
Основные процедуры, реализующие методику количественного анализа вариативности и носящие универсальный характер, доведены до программной реализации, включая предобработку текста (фонетическая транскрипция, морфологический анализ, ¿—граммное представление одного и группы текстов), выявление ЯЕ промежуточных иерархических уровней (устойчивые словосочетания, сверхфразовые единства и др.), выявление ближайших окрестностей ЯЕ, а также получение количественных характеристик вариативности ЯЕ. С помощью указанных программных средств получен ряд прикладных продуктов, включая электронный словарь паронимов, словари для тестирования систем распознавания и синтеза речи, индикаторные словари для извлечения информации об отдельных аспектах содержания научных текстов.
Список литературы
- Ахманова, О.С. Словарь лингвистических терминов / О. С. Ахманова. -М.: Сов. энциклопедия, 1969: — 606 с.
- Бабенко, Н.С. К теории вариантности: современное состояние и некоторые перспективы изучения / Н. С. Бабенко, Э. Ф. Володарская и др. // Вопросы филологии. 2000. — № 2 (5). — С. 8−18.
- Бахмутова, И. В. Синонимичные замены в знаменных песнопениях / И. В. Бахмутова, В. Д. Гусев, Т. Н. Титкова // Искусственный интеллект и экспертные системы. Вычислительные системы, вып. 160. Новосибирск, 1997. -С. 147−165.
- Бахмутова, И.В. L-граммные азбуки для дешифровки знаменных песнопений / И. В. Бахмутова, В. Д. Гусев, T. Hi Титкова // Сибирский журнал индустриальной математики. 1998. — Т. 1, № 2. — С. 51−66.
- Бахмутова, И.В. Количественный анализ взаимосвязи «текст-мелодия» на материале русских народных песен / И. В. Бахмутова, В. Д. Гусев, Т. Н. Титкова // Компьютерный анализ музыки. Изд-во НТК, Новосибирск, 2003.-С. 114−145.
- Белоногов, Г. Г. Системы фразеологического машинного перевода. Состояние и перспективы развития / Г. Г. Белоногов, Ю. Г. Зеленков,
- A.П. Новоселов и др. // НТИ, сер. 2. Москва: ВИНИТИ, 1998 г. — № 12.
- Белоногов, Г. Г. Системы фразеологического машинного перевода RETRANS и ERTRANS в сети Интернет / Г. Г. Белоногов, P.C. Гиляревский,
- B.C. Егоров и др. // НТИ, сер. 1. Москва: ВИНИТИ, 2000 г. — № 3.
- Белоногов, Г. Г. Автоматический концептуальный анализ текстов / Г. Г. Белоногов, И. И. Быстров, А. П. Новоселов и др. // НТИ, сер. 2. Москва: ВИНИТИ, 2002. — № 3. — С. 26−32.
- Бельчиков, Ю.А. Словарь паронимов современного русского языка / Ю. А. Бельчиков, М. С. Панюшева. М.: Рус. яз., 1994. — 455 с.
- Березина, Ф.М. Проблемы языковой вариативности / Ф. М. Березина, Ю. Н. Марчук и др. // Сборник обзоров. М., 1990. — 189 с.
- БСЭ Т. 19, М.: Советская энциклопедия. — 1975. — 647 с.
- Блюменау, Д.И. Развитие индикаторного метода компьютерного свертывания текстов / Д. И. Блюменау, JI.H. Афанасьева // НТИ, сер. 2. — Москва: ВИНИТИ. 1981. — № 2. — С. 16−20.
- Блюменау, Д.И. Формализованное реферирование с использованием словесных клише (маркеров) / Д. И. Блюменау, Н. И. Гендина и др. // НТИ, сер. 2. Москва: ВИНИТИ, 2002. — № 5. — С. 29−36.
- Большаков, И. А. Какие словосочетания следует хранить в словарях? / И. А. Большаков // Труды Межд. сем. Диалог'2002. Изд.-во «Наука», 2002. -Т. 2.-С. 61−69.
- Бондаренко, Г. В. Распределение повторов в связном тексте как основа для обнаружения суперсинтаксических единиц / Г. В. Бондаренко // НТИ, сер.2.-Москва: ВИНИТИ, 1975.-№ 12.-С. 20−31.
- Бондаренко, Г. В. Использование структурных закономерностей текста при автоматической обработке информации / Г. В. Бондаренко, О.И. Яровен-ко // НТИ, сер.2. Москва: ВИНИТИ, 1984. — № 3. — С. 23−29.
- Борисенко, А. Песни невинности и песни опыта. О новых переводах
- Вариативность как свойство языковой системы // Тезисы докл. Всес. конф. М.: Наука (Гл. ред. вост. лит-ры). — 1982. — Ч. 1 и 2.
- Вишневская, Г. М. Межкультурная коммуникация, языковая вариативность и современный билигвизм / Г. М. Вишневская. — http.7/www.yspu.yar.ru/vestnik/novyeIssledovaniy/13l/
- Словарь паронимов русского языка. М.: Рус. Яз., 1984. — 348 с.
- Газе-Рапопорт, М. Г. Порождение структур волшебных сказок / М.Г. Гаазе-Рапопорт, Д. А. Поспелов, Е. Т. Семенова. М.: Научный совет по кибернетике АН СССР, 1980.
- Гаспаров, Б.М. Язык, память, образ / Б. М. Гаспаров. М., 1996.
- Гиндин, С.И. Позиционные методы автоматического фрагментирова-ния текста, их теоретико-текстовые и психолингвистические предпосылки / С. И. Гиндин // Семиотика и информатика, вып. 10. М.: ВИНИТИ, 1978. -С. 32−73.
- Гусев, В.Д. Характеристики символьных последовательностей / В. Д. Гусев // Машинные методы обнаружения закономерностей. Вычислительные системы, вып.88.-Новосибирск, 1981.-С. 112−123.
- Гусев, В.Д. Механизмы обнаружения структурных закономерностей в символьных последовательностях / В. Д. Гусев // Проблемы обработки информации. Вычислительные системы, вып.100. — Новосибирск, 1983. —1. С. 47−66.
- Гусев, В. Д. Сложностной анализ генетических текстов (на примере фага X) / В. Д. Гусев, В. А. Куличков, О. М. Чупахина // Препринт № 20. Новосибирск: ИМ СО РАН, 1989. — 50 с.
- Гусев, В.Д. Хеширование символьных цепочек в режиме скользящего окна / В. Д. Гусев, Т. Н. Титкова // Вычислительные системы, вып. 150. Новосибирск, 1994. — С. 94−106.
- Гусев, В.Д. Алгоритм поиска в текстовых базах данных по групповому частично специфицированному запросу / В. Д. Гусев, JT.A. Немытикова // Искусственный интеллект и экспертные системы. Вычислительные системы, вып. 157.-Новосибирск, 1996.-С. 12−39.
- Деркач, М.Ф. Динамические спектры речевых сигналов / М. Ф. Деркач и др. Львов, ИО «Вища школа», 1983. 166 с.
- Зализняк, A.A. Грамматический словарь русского языка / A.A. Зализняк. М.: Русский язык, 1977. — 879 с.
- Зарипов, Р.Х. Машинный поиск вариантов при моделировании творческого процесса/ Р. Х. Зарипов. — М.: Наука, 1983. 232 с.
- Земская, Е.А. Цитация и виды ее трансформации в заголовках современных газет / Е. А. Земская // Поэтика. Стилистика. Язык и культура. Памяти Татьяны Григорьевны Винокур. М.: Наука, 1996. — С. 157−168.
- Кендэл, М. Ранговые корреляции / М. Кендэл. М., Статистика. — 1975.
- Кнут, Д. Искусство программирования для ЭВМ / Д. Кнут. М., Мир, 1977.-Т. 1,3.
- Князев, Ю.П. Инвариант и варианты: пути преобразования прецедентных текстов в газетных заголовках / Ю. П. Князев // Обработка текста и когнитивные технологии. Казань: Отечество, 2001. — С. 73−81.
- Коваль, С. А. Системы переводческой памяти и оценка их эффективности / С. А. Коваль, О. Ф. Каткова // НТИ, сер. 2. М.: ВИНИТИ, 2002. — № 3. -С. 17−26.
- Козлов, H.H. Математический анализ девиантности генетического кода / Н. Н. Козлов // ДАН, 2007. Т. 415, № 4. — С. 441−445.
- Колесников, Н.П. Словарь паронимов русского языка / Н. П. Колесников. — Тбилиси, 1971. 427 с.
- Колмогоров, А.Н. Три подхода к определению понятия «количества информации»/ А. Н. Колмогоров // Проблемы передачи информации, вып 1. — 1965. -Т.1. — С. 3−11.
- Костомаров, В.Г. Русский язык на газетной полосе / В. Г. Костомаров. -М.: МГУ, 1971.
- Красиков, Ю.В. Теория речевых ошибок: (на материале ошибок наборщика) / Ю. В. Красиков. М.: Наука, 1980.
- Кузнецов, В.И. Вокализм связной речи / В. И. Кузнецов. Санкт-Петербург, издательство С.-ПбУ, 1997. — 239 с.
- Кузнецова, А. И. Словарь морфем русского языка / А. И. Кузнецова, Т. Ф. Ефремова. М.: Русский язык, 1986. — 1133 с.
- Левенштейн, В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В. И. Левенштейн // ДАН СССР, 1965. Т. 1'63, № 4. — С. 845−848.
- Маковский, М. М: Лингвистическая комбинаторика / М. М. Маковский. -М., 1988.-219 с.
- Мелерович, А. М. Фразеологизмы в русской речи. Словарь / A.M. Ме-лерович, В. М. Мокиенко М.: Русские словари, 1997. — 864 с.
- Михайлов, М.М. Стыковка параллельных текстов в автоматическом режиме: иллюзии и перспективы / М. М. Михайлов // НТИ, сер. 2. — М.: ВИНИТИ, 2003. -№ 10. С.18−26.
- Найму шина, Т. А. Приемы окказиональной трансформации пословиц и поговорок / Т. А. Наймушина // Лингвистические этюды. Памяти проф.
- A.M. Моисеева. СПб, 2004. — С. 270−276.
- Немытикова, Л. А. Методы сравнения символьных последовательностей / Л. А. Немытикова // Методы обработки символьных последовательностей и сигналов. Вычислительные системы, вып. 132. Новосибирск, 1989. -С. 3−34.
- Немытикова, Л.А. Использование недетерминированных конечных автоматов для ускорения поиска в текстовых базах данных / Л. А. Немытикова // Вычислительные системы, вып. 160. Новосибирск, 1997. — С. 188−209.
- Пащенко, H.A. Проблемы автоматизации индексирования и реферирования / H.A. Пащенко, Л. В. Кнорина, Т. В. Молчанова и др. // Итоги науки и техники. Информатика. 1983 г. — Т. 7. — С. 7−164.
- Проблемы теории молекулярной эволюции / под ред. В. А. Ратнера. -Новосибирск: Наука, 1983. 263 с.
- Протопопов, В. Вариационные процессы в музыкальной форме /
- B. Протопопов. М.: Музыка, 1967. — 150 с.
- Ратнер- В.А. Молекулярно-генетические системы управления' / В. А. Ратнер. — Новосибирск, Наука, 1975. 286 с.
- Сложеникина, Ю.В. К вопросу о метаязыке теории вариантности / Ю. В. Сложеникина // Филологические науки. 2005. — № 2. — С. 50−58.
- Солнцев, В.М. Вариативность как общее свойство языковой системы / В. М. Солнцев // Вопросы языкознания. 1984. -№ 2. — С. 31−42.
- Сухотин, Б. В. Оптимизационные методы исследования языка / Б. В. Сухотин. М.: «Наука», 1976. — 169 с.
- Сэлтон, Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон. М., Советское радио, 1973. — 560 с.
- Трифонов, Э. Н. Генетическое содержание последовательности ДНК определяется суперпозицией многих кодов / Э. Н. Трифонов // Молекулярная биология. 1997. — Т. 31, № 4. — С. 759−767.
- Уотермен, М.С. Выравнивание последовательностей / М. С. Уотермен // В кн. «Математические методы для анализа последовательностей ДНК» (под ред. М.С. Уотермена). М.: Мир, 1999. — С. 85−120.
- Фразеологический словарь русского языка / Под ред. А. И. Молоткова // Изд. 4-е. М.: Русский язык, 1986. — 543 с.
- Циммерман, М. Русско-английский научно-технический словарь переводчика / М. Циммерман, К. Веденеева. Изд.-во «Наука», М., 1991. — 735 с.
- Шеннон, К. Предсказание и энтропия печатного английского текста / К. Шеннон // В кн.: Работы по теории информации и кибернетике. М., ИЛ, 1963.-С. 669−686.
- Шигапова, С.М. К трактовке понятия синтаксического варианта в плане решения дихотомии «инвариант-вариант"'/ С. М. Шигапова //http ://www.amursu.ru/vestnik/4/4 8499 .html
- Штерн, A.C. Специфика восприятия синтезированных слов / A.C. Штерн // Автоматическое распознавание слуховых образов, тезисы докладов 15-го всесоюзного семинара (АРСО 15), 1989. — Таллинн, 1989.1. С. 303−304.
- Advance in Automatic Text Summarization / Ed: I. Mani, Inderjeet, Maybury, Mark T. The MIT Press Cambridge, Massachusetts, 1999. — 433 p.
- Altschul, S. F. A basic local alignment search tool / S.F. Altschul, W. Gish, W. Miller et al // J. of Molecular Biology. 1990. — V. 215. — P. 403−410.
- Bafna, V. Genome rearrangements and sorting by reversals / V. Bafna and P. Pevzner. // Proc. Of 34th IEEE Symposium on Foundations of Computer Science. 1993.-P. 48−157.
- Bakhmutova, I. V. The search for adaptations in song melodies / I.V. Bakhmutova, V.D. Gusev, T.N. Titkova // Computer Music Journal. 1997. -Vol. 21, N1.-P. 58−67.
- Bennett, C. Chain letters and evoluarionary histories / C. Bennett, M. Li and
- B. Ma // Scientific Amer., June 2003. 2003. — P. 71−76.
- Burge, С. Prediction of complete gene structure in human genomic DNA /
- C. Burge and S. Karlin // J. of Molecular Biology. 1997. — V. 268, N 1. -P. 78−94.
- Calin, G.A. Human micro RNA are frequently location at fragile site and genomic regions involved in cancers / G. A. Calin et al // PNAS USA. 2004. -V. 101, N9,-P. 2999−3004.
- Chen, X. Shared Information and Program Plagiarism Detection / X. Chen, B. Francia, M. Li // IEEE Trans, on Inform. Th. 2004. — Vol. 50, No 7.1. P. 1545−1551.
- Church, K. Parsing, word associations and typical predicate-argument relations / K. Church, W. Gale, P. Hanks and D. Hindle // In M. Tomita, editor, Current Issues in Parsing Technology. Kluwer Academic, Dordrecht, Netherlands. — 1991.
- Dayhoff, M. D. Atlas of protein sequence and structure / M.D. Dayhoff et al. 1979. —V. 5, suppl. — P. 345.
- Findler, N.V. A Family of Similarity Measures Between Two Strings / N. V. Findler N.V., Van Leeuwen // PAMI (l), January. 1979. — No. 1.1. P. 116−118.
- Greengrass, E. Information Retrieval: A Survey / E. Greengrass. -November 2000. http://www.csee.umbc.edu/cadip/readings/IR.report.120 600.book.pdf
- Gusev, Vladimir D. On the complexity measures of genetic sequences / Vladimir D. Gusev, Lubov A. Nemytikova and Nadia Chuzhanova // Bioinformat--ics. 1999. — Vol. 15, № 12. — P. 994−999.
- Handbook of Formal Language // G. Posenberg, F. Salomaa (Eds). 1996. -Vol. 1., Ch 4.
- Karlin, S. Pattern in DNA and Amino Acid sequences and their statistical significance / S. Karlin, F. Ost, B.E. Blaisdell // Mathematical methods for DNA sequences. Ed. By M. S. Waterman. CRC, Boca Raton, Fl. — 1989. — Ch. 6., P. 133−158.
- Li, M. An information-based sequence distance and its application to whole mitochondrial genome phylogeny/ M. Li, J. Budger, et al. // Bioinformatics. -2001.-Vol. 17, No 2.-P. 149−154.
- Luhn, H.P. The automatic creation of literature abstracts / H.P. Luhn // IBM Journal of Research and Development. 1958. — Vol. 2, № 2. — P. 159−165.
- Lyon, C. Detecting short passages of similar text in large document collections / C. Lyon and J. Malcolm J., B. Dickerson // Proc. of the 2001 Conference on Empirical Methods in Natural Language Processing. 2001. — P. 118−125.
- Manber, U. Finding similar files in a large file system / U. Manber // Proc. of the USENIX Winter 1994 Technical conference. San Francisco, CA, USA. -1994.-P. 1−10.
- Manning, Christopher. Foundation of Statistical Natural Language Processing / Christopher Manning, Heinrich Schutze // Cambridge, Mass.: MIT Press. -1999.
- Martin A., Hugnen. Measuring genome evolution / A. Hugnen Martin and Bork Peer // PNAS USA. 1998. — Vol. 95. — P. 5849−5856.
- McCreight, E.M. A space-economical suffix tree construction algorithm / E. M. McCreight // J. ACM. 1976. — Vol. 23, № 2. — P. 262−272.
- Melodic Similarity. Concepts, Procedures and applications / Ed. By W. B. Hewlett and Selfrige Field // Computing in Musicology. — The MIT Press. — 1998.-No 11.-P. 1−246.
- Naus, J.I. The distribution of the size of the maximum cluster of points on a line / J.I. Naus // J. Amer. Statist. Assoc. 1965. — Vol. 61, № 310. — P. 532−538.
- Parker, A. Computer algorithms for plagiarisms detection / A. Parker and J. Hamblen // IEEE Trans, on education. 1989. — Vol. 32. — P. 94−99.
- Pearson, W.R. Rapid and sensitive sequence comparisons with FASTP and FASTA / W. R. Pearson // Methods in Enzymology. 1985. — V. 183. — P. 63−98.
- Roy Scott, William. Rate of intron loss and gain: Implications for early eu-karyotic evolution / William Roy Scott and Gilbert Walter. // PNAS USA. 2005. -Vol. 102, N 16.-P. 5773−5778.
- Sankoff, D. Gene order comparisons for phylogenetic inference: evaluation of the mitochondrial genome / D. Sankoff, G. Leduc, et al. // PNAS USA. 1992. -Vol. 89.-P. 6575−6579.
- Sellers, P. H. On the theory and computational of evolutionary distance / P.H. Sellers // SIAM J, Appl. Math, 26. 1974. -N 4. -P. 787−793.
- Smadja, F.A. Automatically extracting and representing collocations for language generation / F.A. Smadja and K.R. McKeown // In Proc. of the 28th Annual Meeting of the ACL. 1990. — P. 25−29.
- Tsuyoshi, Kitani. Pattern Matching and Discourse Processing in Information Extraction from Japanese Text / Kitani Tsuyoshi, Yoshio Eriguchi, Masami Hara // Journal of Artificial Intelligence Research. 1994. — N 2. — P. 89−110.
- Wagner, R.A. The string to — string correction problem / R.A. Wagner, MJ. Fisher//J. ACM.-Jan. 1974. — Vol. 21, № 1.-P. 168−173.
- Wallenstein, S.R. Probabilities for a k-th nearest neighbor problem on the line / S.R. Wallenstein, J.I. Naus // The Annals of Probability. 1973. — Vol. 1, № 1. — P. 188−190.
- Weitzman, M. P. The evolution of Manuscript Traditions / M. P. Weitzman // J. Royal Statist. Soc. A. 1987. — Vol. 150, Part 4. — P. 287−308.
- Worth, D. Russian Derivation Dictionary /D. Worth, A. Kozak, D. Jonson //New-York. 1970. — 747 p.
- Xing, Yi. Evidence of functional selection pressure for alternative splicing events that accelerate evolution of protein subsequences / Yi Xing and Christopher Yi. //PNAS USA.-2005.-V. 102, N38,-P. 13 526−13 531.
- Xung, Gu. Estimation of evolution distance under stationary and nonstation-ary models of nucleotide substitution / Gu Xung and Wen-Hsung Li. // PNAS USA. 1998. — Vol. 95. — P. 5899−5905.
- Саломатина, H.B. О некоторых статистических характеристиках префиксов / H.B. Саломатина, JI.C. Юдина // Анализ текстов и сигналов. Вычислительные системы, вып. 123. Новосибирск: ИМ СО РАН, 1987.1. С. 84−100.
- Саломатина, Н.В. Фонетическая организация морфем (на статистическом материале суффиксов) / Н. В. Саломатина, JI.C. Юдина // Тез. докл. 15-го Всесоюзного семинара (АРСО-15), 1989. Таллин, 1989. С. 297−298.
- Саломатина Н.В. Создание и исследование компьютерного словаря паронимов / Н. В. Саломатина // Анализ данных и сигналов. Вычислительные системы, вып. 163. Новосибирск, 1998. — С. 97−112.
- Гусев, В.Д. Определение и анализ ближайших окрестностей корней слов русского языка / В. Д. Гусев, Н. В. Саломатина // Обнаружение эмпирических закономерностей. Вычислительные системы, вып. 166. -Новосибирск, 1999. С. 80−103.
- Гусев, В.Д. Электронный словарь паронимов: версия 1 /В.Д. Гусев, Н. В. Саломатина // НТИ, серия 2, Информационные процессы и системы. -М.: ВИНИТИ, 2000. № 6. — С. 34−41.
- Саломатина, Н.В. Создание тестовых словарей для систем распознавания речи на основе электронного словаря паронимов / Н. В. Саломатина // Квантитативная лингвистика и семантика. Сб. научных трудов. Вып. 2. Новосибирск, 2000. — С. 63−72.
- Гусев, В.Д. Количественные характеристики электронного словаря паронимов / В. Д. Гусев, Н. В. Саломатина // Квантитативная лингвистика и семантика. Вып. 3. Новосибирск, 2001. — С. 18−30.
- Гусев, В.Д. Количественные исследования вариативности языковых единиц / В. Д. Гусев, Н. В. Саломатина // Труды международной научно-практической конференции KDS-2001. Санкт-Петербург, 2001. — Том 1. -С. 186−193. «
- Гусев, В.Д. Электронный словарь паронимов: версия 2 / В. Д. Гусев, Н. В. Саломатина // НТИ, сер.2, Информационные процессы и системы. М. ВИНИТИ, 2001. — № 7. — С. 26−33.
- Гусев, В.Д. Выявление аномалий в распределении слов или связных цепочек символов по длине текста / В. Д. Гусев, JI.A. Немытикова, Н. В. Саломатина // Интеллектуальный анализ данных. Вычислительные системы, вып. 171. Новосибирск, 2002. — С. 51−74.
- Гусев, В.Д. Язык заголовков: количественный анализ прототипов и схем варьирования / В. Д. Гусев, Н. В. Саломатина // Интеллектуальный анализ данных. Вычислительные системы, вып. 171. Новосибирск, 2002. — С. 103−121.
- Гусев, В.Д. Использование L-граммных характеристик для-- анализа вариативности параллельных текстов / В. Д. Гусев, Н. В. Саломатина // Интеллектуальный анализ данных. Вычислительные системы, вып. 171. -Новосибирск, 2002. С. 75−102.
- Гусев, В.Д. Анализ L-граммных словарей параллельных текстов / В. Д. Гусев, Н. В. Саломатина // Труды межд. конференции Диалог-2003 «Компьютерная лингвистика и интеллектуальные технологии" — Протвино, 11−16 июня 2003. М.: Наука, 2003. — С. 578−582.
- Гусев, В.Д. Язык заголовков как модель изучения вариативности цитируемых словосочетаний / В. Д. Гусев, Н. В. Саломатина //
- Лингвистические этюды. Памяти проф. A.M. Моисеева. Санкт-Петербург, 2004. — С. 203−222.
- Саломатина, Н.В. Комбинированный алгоритм морфологического анализа для нормализации неизвестных системе слов / Н. В. Саломатина // Анализ структурных закономерностей. Вычислительные системы, вып. 174. -Новосибирск, 2004. С. 61−75.
- Гусев, В.Д. Выявление аномалий в распределении лексических единиц по тексту / В. Д. Гусев, Л. А. Мирошниченко, Н. В. Саломатина // Вестник СПбУ, сер. 9. Вып. 3. Санкт-Петербург, 2005. — С. 64−69.
- Гусев, В.Д. Формально близкие слова и ошибки // MegaLing2007. Горизонта прикладно1 лшгвютжи та лшгвютичних технолопй. Доповдо м! жнародно1 конференцн. 24−28 вересня 2007, Украша, Крим, Партешт. -амферополь: Вид-во «ДиАйПи», 2007. С. 166−167.