Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Содержание

Условные обозначения (сокращения)
Глава 1. Анализ методов эффективного кодирования речи в телекоммуникационных системах
- 1. 1. Речевой сигнал и слуховое восприятие речи
- 1. 2. Качество телефонной передачи и его оценка
- 1. 3. Методы эффективного кодирования речи
- 1. 4. Сравнительная оценка качества методов эффективного кодирования речи
- 1. 5. Выводы и постановка задач исследования
Глава 2. Модели и идентификация параметров источника речеобразования
- 2. 1. Анализ известных моделей речеобразования
- 2. 2. Разработка новой модели речеобразования на основе динамической частотно-импульсной модуляции
- 2. 3. Идентификация параметров авторегрессионной модели голосового тракта по речевому сигналу
- 2. 4. Идентификация параметров источника голосового возбуждения с динамической частотно-импульсной модуляцией
- 2. 5. Основные результаты
Глава 3. Методы эффективного кодирования речи в классе ЛПАС с полиномиальным синтезом сигнала погрешности предсказания
- 3. 1. Принципы кодирования
- 3. 2. Оптимизация метода линейного предсказания на основе рекуррентного МНК со взвешиванием
- 3. 3. Исследование метода преобразования коэффициентов линейного предсказания в коэффициенты линейных спектральных пар
- 3. 4. Анализ работы долговременного фильтра основного тона
- 3. 5. Анализ и синтез сигнала погрешности предсказания на основе ортогональных полиномов Чебышева
- 3. 6. Анализ работы оптимизатора кодера и оценка качества синтеза речи
- 3. 7. Основные результаты
Глава 4. Метод эффективного ЛПАС кодирования речи в системе автоматического слежения с учетом ДЧИМ модели голосового возбуждения
- 4. 1. Принцип функционирования кодера
- 4. 2. Математическая модель кодера
- 4. 3. Линейное предсказание с учетом сигнала управления в системе слежения за речевым сигналом
- 4. 4. Структурная схема и исследование системы адаптивного слежения за речевым сигналом
- 4. 5. Структурная схема и исследование системы ДЧИМ
- 4. 6. Анализ работы оптимизатора кодера и оценка качества синтеза речи
- 4. 7. Основные результаты

Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования (реферат, курсовая, диплом, контрольная)

Современный этап развития общества характеризуется увеличением потоков речевых сообщений, передаваемых по телекоммуникационным системам и сетям, имеющим ограниченную пропускную способность [4]. Большие трудности возникают также при решении задачи хранения речевых данных, возрастающий поток которых требует все больших объемов памяти запоминающих устройств. С другой стороны, цифровая передача или запись речевых сообщений методом импульсно-кодовой модуляции (ИКМ) со стандартной скоростью 64 кбит/с связаны с избыточным их представлением.

В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей [11,15,31,61,99].

Для технического решения задачи сжатия речевых данных разработано много методов. В значительной мере они представлены в трудах Н.Н. Акин-фиева, С. П. Баронина, А. И. Величкина, М. Д. Бенедиктова, В. И. Галунова, Е. Г. Жилякова, Ю. А. Косарева, В. И. Куля, В. Г. Михайлова, В. Е. Муравьева, М. В. Назарова, А. А. Пирогова, Ю. Н. Прохорова, В. Г. Санникова, М. А. Сапожкова, В. А. Свириденко, И. В. Ситняковского, А. Н. Собакина, О. И. Шелухина, В. П. Яковлева, Б. С. Атала, Дж. Д. Гибсона, Б. Голда, А. Х. Грея, Н. С. Джайанта, Ф. Итакуры, Р. В. Кокса, П. Круна, Ж. И. Макхоула, Дж. Маркела, JI. Р. Рабинера, Ч. Рейдера, А. С. Спаниаса, Г. Фанта, Дж. Фланагана, Р. В. Шафера, М. Р. Шредера и других российских и зарубежных ученых.

С целью повышения качества кодеков с линейным предсказанием для передачи речевых сигналов на скоростях 4−16 (кбит/с) Международным Союзом Электросвязи (МСЭ) и другими организациями разрабатываются кодеры, относящиеся к классу адаптивных кодеров с линейным предсказанием на основе анализа через синтез (ЛПАС) (linear prediction analysis-by-synthesis (LPAS) coders) [61,76,78,81,91]. При данном методе обработки в кодере по параметрам долговременного и кратковременного фильтров-предсказателей производится синтез PC, сравнение его с исходным PC и минимизация взвешенной разности между ними подбором структуры сигнала голосового возбуждения фильтра-предсказателя. Основной особенностью указанных методов кодирования речи является искусственная замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя.

Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения эффективности работы ЛПАС кодеков встает проблема поиска новых моделей сигнала погрешности предсказания, адекватных голосовому возбуждению системы речеобразования.

Цель работы.

Разработка методов низкоскоростного кодирования речи, передаваемой по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новых моделей формирования сигнала погрешности предсказания в голосовых кодеках класса ЛПАС.

Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи:

• Разработка и оптимизация параметров модели речеобразования на основе авторегрессии с динамической частотно-импульсной модуляцией.

• Разработка метода спектральной оценки частоты основного тона речи на основе полиномов Чебышева.

• Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и полиномиальным синтезом сигнала погрешности предсказания.

• Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и синтезом сигнала погрешности предсказания на основе динамической частотно-импульсной модуляции.

Методы исследований.

Методы теории оптимальных и адаптивных системметоды сжатия данныхметоды статистического моделирования и предсказания речевых сигналовметоды оценки качества систем передачи речиметоды цифровой обработки сигналовметоды теории речеобразования и слухового восприятия речиметоды машинного моделирования.

Научная новизна работы.

• Усовершенствована модель речеобразования, состоящая из источника голосового возбуждения и голосового тракта, отличающаяся от ранее известной новым методом голосового возбуждения на основе динамической частотно-импульсной модуляции.

• Разработан новый метод спектральной оценки частоты основного тона речи на основе сегментной интерполяции речевого сигнала ортогональными полиномами Чебышева.

• Проведена оптимизация (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной оценки коэффициентов линейного предсказания для нестационарной речи.

• Модернизирован метод расчета линейных спектральных пар по коэффициентам линейного предсказания.

• Разработан новый метод линейного предсказания с учетом сигнала управления в системе автоматического слежения за изменением речевого сигналадоказана его устойчивость.

Практическая значимость работы.

Результаты выполненных исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений — MatLAB. Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при её хранении в запоминающих устройствах с ограниченной емкостью.

Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51 061−97 первый класс качества по разборчивости на скоростях 3,5 — 16 кбит/с. Это в 4 — 16 раз меньше скорости, обеспечиваемой кодеком на основе стандартной ИКМ, и в 2 — 8 раз меньше скорости, равной 32 кбит/с, обеспечиваемой кодеком адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений.

Изложенные в работе методы и алгоритмы низкоскоростного кодирования речи были использованы при проведении научно-исследовательских работ МТУ СИ с ОАО «ТРАНСТЕЛЕКОМ» и Группой Телекоммуникационных Компаний «ТЕЛЕСЕТИ» («Фирма РИАЛ») и применены при разработке и организации доступа абонентов к услугам местной и междугородной телефонной связи посредством интеллектуальной платформы речевого сопровождения.

Апробация работы.

Основные результаты работы были представлены на следующих научно-технических конференциях:

1. Международные научно-практические конференции «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2004, INTERMATIC-2005, Москва, 2004 г., 2005 г.

2. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2005 г.

3. VI Международная научно-техническая конференция «Перспективные технологии в средствах передачи информации», Владимир, 2005 г.

4. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2006 г.

5. Международная научно-техническая школа-конференция «Молодые ученые — науке, технологиям и профессиональному образованию в электронике, Москва, 2006 г.

6. Московская отраслевая научно-техническая конференция «Технологии информационного общества», Москва, 2007 г.

7. XV Межрегиональная научно-техническая конференция «Обработка сигналов в системах наземной радиосвязи и оповещения», Нижний Новгород, 2007 г.

Краткое содержание работы.

Диссертационная работа содержит: введение, четыре главы, заключение и список использованных источников.

3.7. Основные результаты.

• Разработан новый метод низкоскоростного кодирования речи в классе ЛПАС на основе модели голосового возбуждения с динамической частотно-импульсной модуляцией (ДЧИМ).

-• Па скоростях 3,5 — 4 и более кбит/с он обеспечивает первый класс качества по разборчивости в соответствии с ГОСТ Р 51 061 -97.

• На основе разработанной математической модели метода кодирования получены алгоритмы его функционирования, реализованные на ПЭВМ.

• Разработан новый метод линейного предсказания с учетом сигнала управления в системе слежения за речевым сигналом, позволивший при порядке фильтра предсказателя, равным 10, увеличить отношение сигнал/погрешность идентификации по сравнению с отношением сигнал/погрешность прогноза на 6,2 дБ.

• Разработан новый метод анализа и синтеза сигнала погрешности предсказания на основе ортогональных полиномов Чебышева.

• Разработана функциональная схема и алгоритм работы, реализованный на ПЭВМ, подсистемы ДЧИМ, состоящей из динамического фильтра, блока адаптации динамического фильтра и импульсного устройства.

• Усовершенствован метод весовой формантой фильтрации с учетом кривой порога слышимости слуховой системы, позволяющий повысить качество синтеза речевого сигнала.

ЗАКЛЮЧЕНИЕ

В ходе выполнения диссертационной работы были получены следующие основные результаты:

1. Разработана новая авторегрессионная (АР) модель речеобразования с возбуждением на основе динамической частотно-импульсной модуляции, позволяющая более адекватно описывать процесс синтеза речевого сигнала при создании современных голосовых кодеков. В рамках этой модели оптимизирован метод оценки параметров АР модели речи на основе рекуррентного метода наименьших квадратов и усовершенствован корреляционный метод оценки основного тона (ОТ) речевого сигнала.

2. Разработан новый метод спектральной оценки частоты ОТ речи на основе интерполяции речевого сигнала ортогональными полиномами Чебышева. Достоинство метода — простота реализации и повышенная помехоустойчивость.

3. Разработаны новые методы эффективного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС), основанные на синтезе сигнала погрешности предсказания ортогональными полиномами Чебышева как в спектральной, так и во временной областях. На скоростях 8−16 кбит/с данные методы кодирования обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51 061−97. Повышенное качество синтеза речи здесь обеспечивается за счет оптимизации (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной со взвешиванием оценки коэффициентов линейного предсказания для нестационарной речи. Получены оптимальные оценки множителя забывания.

4. Разработан конструктивный метод оценки линейных спектральных пар по коэффициентам линейного предсказания, основанный на цифровом представлении нулей системной функции фильтра предсказателя.

5. Разработан новый метод низкоскоростного кодирования речи в классе ЛПАС на основе модели голосового возбуждения с динамической частотно-импульсной модуляцией (ДЧИМ). На скоростях 3,5−4 кбит/с он обеспечивает первый класс качества по разборчивости в соответствии с ГОСТ Р 51 061−97. По сравнению с адаптивной дифференциальной ИКМ (АДИКМ), здесь достигается сжатие цифрового представления речи в 8 и более раз.

6. Разработан новый метод линейного предсказания с учетом сигнала управления в системе слежения за речевым сигналом, позволивший при порядке фильтра предсказателя, равным 10, увеличить отношение сигнал/погрешность идентификации по сравнению с отношением сигнал/погрешность предсказания на 6,2 дБ.

7. На основе математической модели ДЧИМ разработаны новые алгоритм и функциональная схема подсистемы ДЧИМ, состоящей из динамического фильтра, блока адаптации динамического фильтра и импульсного устройства.

8. Усовершенствована методика и алгоритм текущей оценки качества синтеза речи на основе машинного моделирования. Новизна заключена в учете характеристики порога слышимости при весовой формантной фильтрации в оптимизаторе кодера. Это позволило повысить качество синтеза речевого сигнала.

9. Результаты экспериментальных исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений — MatLAB.

Показать весь текст

Список литературы

Адаптивные фильтры: Пер. с англ. / Под ред. К.Ф. Н. Коуэна, П. М. Гранта -М.: Мир, 1988.-392 с.
Архипов И.О., Гитлин В. Б. Оценка точности выделения основного тона методом GS // Современные речевые технологии. Сборник трудов IX сессии РАН. М.: ГЕОС, 1999. — С. 38−42.
Артюшенко В.М., Шелухин О. И., Афонин М. Ю. Цифровое сжатие видеоинформации и звука. М.: ИТК «Дашков и К0», 2003. — 426 с.
Беллами Дж. Цифровая телефония: Пер. с англ. / Под ред. А. Н. Берлина, Ю. Н. Чернышова. М.: Эко-Трендз, 2004. — 640 с.
Большев Л.Н., Смирнов Н. В. Таблицы математической статистики. М.: Наука, ГР ФМЛ, 1983.-416 с.
Величкин А.И. Передача аналоговых сообщений по цифровым каналам связи // Статистическая теория связи Вып. 19. М.: Радио и связь. — 240 с.
Вемян Г. В. Передача речи по сетям электросвязи. М.: Радио и связь, 1985.-272 с.
Вокодерная телефония. / Под ред. А. А. Пирогова. М.: Связь, 1974. -536 с.
Гибсон Дж. Д. Адаптивное предсказание в системах дифференциального кодирования речи. // ТИИЭР. 1980. — № 4. — С. 65−110.
ГОСТ Р 50 840−95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. 200 с.
ГОСТ Р 51 061−97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. 21 с.
Градштейн И.С., Рыжик И. М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука, ГР ФМЛ, 1971. — 1108 с.
Громаков Ю.А. Стандарты и системы подвижной радиосвязи. М.: ЭКО -ТРЭНЗ, 1998.-240 с.
Жиляков Е.Г., Белов С. П., Прохоренко Е. И. О сжатии речевых сигналов // Вестник Национального технического университета «ХПИ». Харьков.: Изд-во НТУ «ХПИ». — 2005. — Вып. 56. — С. 32 — 41.
Зюко А.Г., Банкет B.JL, Лехан В. Ю. Методы низкоскоростного кодирования при цифровой передаче речи. // Зарубежная радиоэлектроника. 1986. -№ 11.-С. 53−69
Исаев А.Н., Раков А. С., Дотолев В. Г. Актуальные вопросы развития техники звукового радиовещания в деятельности исследовательской комиссии 10 Международного Союза Электросвязи. // Труды НИИР. 1995. — № 6. -С. 33−38.
Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991.-220 с.
Ковалгин Ю.А., Вологодин Э. И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА-принт, 2004. — 240 с.
Коротаев Г. А. Эффективный алгоритм кодирования речевого сигнала на скорости 4,8 кбит/с и ниже. // Зарубежная радиоэлектроника. 1996. — № 3.
Ли Р. Оптимальные оценки, определение характеристик и управление. М.: Наука, ГР ФМЛ, 1966. — 176 с.
Льюнг Л. Идентификация систем. Теория для пользователя: Пер с англ. / Под ред. Я. З. Цыпкина. М.: Наука, ГР ФМЛ, 1991. — 432 с.
Маркел Дж., Грей А. Х. Линейное предсказание речи: Пер. с англ. / Под ред. Ю. Н. Прохорова, B.C. Звездина. М.: Связь, 1980. — 308 с.
Мартин-Санчес X. Новое решение задачи адаптивного управления. //ТИИЭР.- 1976.-Том 64.- № 8.-С. 106−117.
Медведев О.Н., Санников В. Г. Оценка мелодии основного тона речи в шумах // VI международная НТК: «Перспективные технологии в средствах передачи информации»: Матер, конф. Владимир.: РОСТ, 2005. — С. 216 218.
Медведев О.Н., Санников В. Г. Оптимизация метода кодирования речевых сигналов на основе адаптивной дифференциальной ИКМ // Международная НТШС «МОЛОДЫЕ УЧЕНЫЕ"-2006: Матер, конф. М.: МИРЭА, 2006. -С. 172−174.
МСЭ-R. Рекомендация BS.1196. Кодирование звука в наземном цифровом телевизионном вещании. -1995.
МСЭ-Т. Рекомендация G.701. Общие аспекты цифровых систем передачи. Названия терминов по цифровой передаче, цифровому группообразованию и импульсно-кодовой модуляции (ИКМ). 1993.
Назаров М.В., Прохоров Ю. Н. Методы цифровой обработки и передачи речевых сигналов. -М.: Радио и связь, 1985. 176 с.
Немчинов B.C. Полиномы Чебышева и математическая статистика. М.: СХА им. К. А. Тимирязева, 1946. — 146 с.
Нехаев А.Л., Перцева В. А., Ситняковский И. В. Результаты исследования адаптивных речевых кодеков // ЭЛЕКТРОСВЯЗЬ. 1984. — № 1. — С. 37−39.
Орищенко В.И., Санников В. Г., Свириденко В. А. Сжатие данных в системах сбора и передачи информации. / Под ред. В. А. Свириденко. М.: Радио и связь, 1985.- 184 с.
Пилипчук Н.И., Яковлев В. П. Адаптивная импульсно-кодовая модуляция // Статистическая теория связи Вып. 25. М.: Радио и связь, 1986. — 296 с.
Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связьиз-дат, 1962.-391 с.
Попков Ю.С., Ашимов А. А., Асаубаев К. Ш. Статистическая теория автоматических систем с динамической частотно-импульсной модуляцией. М.: Наука, ГР ФМЛ, 1988. — 256 с.
Прокис Дж. Цифровая связь. Пер. с англ. / Под ред. Д. Д. Кловского. М.: Радио и связь, 2000. — 800 с.
Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов //Статистическая теория связи Вып. 20. М.: Радио и связь, 1984.-240 с.
Рабинер JT.P., Шафер Р. В. Цифровая обработка речевых сигналов: Пер с англ./ Под ред. М. В. Назарова, Ю. Н. Прохорова М.: Радио и связь, 1981. -496 с.
Санников В.Г. Теоретический анализ заметности искажений речевых сигналов по громкости их слухового восприятия // ЭЛЕКТРОСВЯЗЬ. 2002. -№ 12.-С. 38−42.
Санников В.Г., Медведев О. Н. Исследование метода синтеза речи через её анализ в системе автоматического слежения // Международная НПК 1NTERMATIC-2004: Матер, конф. М.: МИРЭА, ЦНИИ «Электроника». -2004.-Часть2.-С. 67−71.
Санников В.Г. Статистический анализ методов формирования речевых сигналов. М.: МТУ СИ, 2005. — 140 с.
Санников В.Г., Медведев О. Н. Сегментный анализ основного тона речи на основе аппроксимации спектра многочленами Чебышева // Деп. в ЦНТИ «Информсвязь» от 26.05.06 № 2279 св. 2006. С. 15−20.
Санников В.Г., Медведев О. Н. Спектральный анализ основного тона речи на основе многочленов Чебышева // Международная НТК INTERMATIC-2005: Матер, конф. -М.: МИРЭА. 2006. — Часть 2. — С. 13−15.
Санников В.Г., Медведев О. Н. Эффективный голосовой кодер с полиномиальным синтезом спектра погрешности предсказания речевого сигнала // МОБИЛЬНЫЕ СИСТЕМЫ. 2007. — № 3. — С. 38−42.
Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.
Сапожков М.А., Михайлов В. Г. Вокодерная связь. М.: Радио и связь, 1983.-248 с.
Сейдж Э., Меле Дж. Теория оценивания и ее применение в связи и управлении: Пер с англ./ Под ред. Б. Р. Левина. М.: Связь, 1976. — 496 с.
Ситняковский И.В., Мейкшан В. И., Маглицкий Б. Н. Цифровая сельская связь / Под ред. М. Д. Бенедиктова. М.: Радио и связь, 1994. — 248 с.
Ситняковский И.В., Порохов О. Н., Нехаев А. Л. Цифровые системы передачи абонентских линий. М.: Радио и связь, 1987. — 216 с.
Скляр Б. Цифровая связь. Теоретические основы и практическое применение.: Пер. с англ. -М.: ИД «Вильяме», 2003. 1104 с.
Соболев В.Н. Сокращение объёма передаваемой информации о мелодическом параметре в вокодерных системах // Телекоммуникации.-2002.-№ 12. -С. 11−13.
Сэломон Д. Сжатие данных, изображений и звука: Пер. с англ. М.: Техносфера, 2006. — 365 с.
Технология кодирования речи в высококачественных цифровых телефонных системах // CHIP NEWS. 1996. — № 5. — С. 8−10.
Уидроу Б., Стирнз С. Адаптивная обработка сигналов: Пер. с англ. М.: Радио и связь, 1989. — 440 с.
Устойчивость адаптивных систем: Пер. с англ. / Б. Андерсон, Р. Битмид, К. Джонсон и др. М.: Мир, 1989. — 263 с.
Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. — 283 с.
Фланаган Дж. JT. Анализ, синтез и восприятие речи: Пер. с англ. / Под ред. А. А. Пирогова М.: Связь, 1968. — 396 с.
Фомин А.Ф., Прохоров Ю. Н., Неклюдов Ю. Н., Нго Куанг Минь. Сравнение адаптивных линейных устройств предсказания для кодеков речи с АДИКМ и АДМ // ЭЛЕКТРОСВЯЗЬ. 1994. — № 10. — С. 27−29.
Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. М.: «Связь», 1971.-255 с.
Шелухин О.И., Лукьянцев Н. Ф. Цифровая обработка и передача речи. -М.: Радио и связь, 2000.-456 с.
Шеннон К.Э. Работы по теории информации и кибернетике: Пер. с англ./ Под ред. Р. А. Добрушина, О. В. Лупанова. М.: ИЛ, 1963. — 830 с.
Ярлыков М.С. Применение Марковской теории нелинейной фильтрации в радиотехнике. М.: Советское радио, 1980. — 360 с.
Abut Н., Gray R.M., Reboledo G. Vektor Quantization of Speech and Speechlike Waveform // IEEE Tr, ASSP. 1982. — V. 30. — № 3. — P. 423−435.
Atal B.S. Predictive Coding of Speech at Low Bit Rates // IEEE Tr., COM. 1982.-V.30.-№ 4. -P. 600−614.
Atal B.S. et all. Spectral Quantization and Interpolation for CELP Coders // ICASSP. 1989. -V. 1. — P. 211- 220.
Bertorello L., Copperi M. Design of a 4,8 / 9,6 kbps Base Band LPC Coder using Split-Band and Vector Quatization // ICASSP. 1983. -V. 3. — P. 13 121 315.
Campbell J.P. et all. An Expandeble Errorprotected 4800 bps CELP Coder (U.S. Federal Standart 4800 Voice Coder) // ICASSP. 1989. -V. 2. — P. 1111−1200.
Casajus-Quiros F.J., Hernandes-Gomes L.A., Carcia-Mateo C. Analysis and Quantization Procedures for a Real-Time Implementation of a 4,8 kbps CELP Coder // ICASSP. 1990. — V. 1. — P. 221−225.
Castellano P.J., Sridharm S., Boland S. Effects of speech coding on speaker verification // Electron Lett. 1996. — 32 — № 6. — P. 517−518.
Chiu K.M., Ching P.C. Quan-band excitation for low bit rate speech coding. // J. Acoust. Sot. Amer. 1996. — 99, № 4. Pt.l. — P. 2365−2369.
CC1TT. Recommendation G.711 .Red Book, VIII.3. 64 kbps PCM.
CCITT. Recommendation G.721. Red Book. VIII. 3. 32 kbps Adaptive Differential Pulse Code Modulation (ADPCM).
CCITT. Recommendation G.726. -40, 32, 24, 16 kbps Adaptive Differential Pulse Code Modulation (ADPCM).
CCITT. Recommendation G.727. -5-, 4-, 3-, and 2 bits Sample Embedded Adaptive Differential Pulse Code Modulation (ADPCM).
CCIR GSM Rec T/L/03/11. A 13 kbps Regular Pulse Excitation Long Term Predic- tion-Linear Predictive Coder for the Pan-European Digital Mobile Radio System, 1988.
Cox R.V. Draft Recommendation G.723.1 Dual Rate Speech Coder for Multimedia Telecommunication Transmitting at 5,3 and 6,4 kbps. — ITU, Telecomm. Standartization Sector, LBC95- 085, — 1995. — P. 1−24.
Cox R.V., Kroon P. Low bit-rate Speech Coders for Multimedia Communication //IEEE Communications Magazine. December 1996.-P. 34−41.
Draft Recommendations G.726, G.727. CCITT Group XV Report 38, 1990.
Hasib A., Hacioglu K. Source combined linear predictive analysis in pulse-based speech coders // IEE Proc. Vision, Image and Signal Process.-1996.-№ 3.
Federal Standard 1016. Telecommunications: Analog to Digital Conversion of Radio Voice by 4800 bps Code Excited Linear Prediction (CELP). General Serv. Adm., Office oflnf. Resources Mangm., Febr., 14,1991. -P.1−12.
Gallard C., Rosso M. et all. MPE/LPE Speech Coding for Mobile Radio Applications//Speech Communication. 1988.-V. 7.-№ 2.-P. 167−178.
Gersho Allen. Advances in speech and audio compression // Proc. IEEE. 1994. -82.-№ 6. -P. 900−918.
Guyader A., Manaloux D., Zureher. A Robust and Fast CELP Coder at 16 kbps // Speech Communication. 1988. — V. 7. — № 2. — P. 217−226.
Haagen J., Nielsen H., Hansen S.D. A 2,4 kbps High-Ouality Speech Coder // ICASSP, S9. 1991.-V. 5. -P. 589−592-
Itakura F. Minimum prediction residual applied to speech recognition // IEEE Trans. ASSP.- 1975.-V. 23.- № 1.-P. 67−72.
International Standard ISO/IEC 15 938−4. Information technology Multimedia content description interface — Part 4: Audio, 2002.
ISO/IEC FCD 14 496−3. Subpart 1. Information technology Very Lov Bitrate Audio-Visual Coding. — Part 3: Audio, 1998−05−10 (ISO/JTC 1/SC 29. — N 2203).
Kabal P., Ramachandar R.P. Joint Optimization of Linear Predictors in Speech Coders // IEEE J., ASSP. 1989. — V. 37. — P. 642−650.
Kleijn W. B. On the periodicity of speech coded with linear-prediction based analysis coders // IEEE Trans. Speech and Audio Process. 1994. -V. 2. — № 4. -P. 136−138.
Kroon P., Deprettere F. A Class of Analyses by Synthesis Predictive Coders for High Quality Speech Coding of Rates Between 4,8−16 kbs // IEEE J., SAC. -1988.-V. 6.- № 2.-P. 9−14.
Levine S. Audio Representation for Data Compression and Compressed Domain Processing // Departament of Electrical Engineering and the Committee on Graduate Studies of Stanford University. Dezember. — 1998.-215 p.
Lox R., Kleugn В., Kroon P. Robust CELP Coders for Noisi Backgrounds and Noisy Channels // ICASSP. 1989. — V. 1. — P. 310−314.
Mc Aulay R.J., Quantieri T.F. Multirate Sinusoidal Transform Coding at Rate from 2,4 to 8 kbps // ICASSP. -1987. V. 3. — P. 744−754.
Musman H.G., Werner O., Fuchs H. Kompressions algoritmen fuer interactive Multimedia Systeme // Informationstechnik und Technische Informatik. -1993.-№ 2. -P. 4−18.
Painter Т., Spanias A. Perceptual Coding of Digital Audio // Proceedings of the IEEE. 2000. — V. 88. — № 4. — P. 451−513.
Spanias A.S. Speech Coding: A Tutorial Review // Proc. of the IEEE. 1994. -V. 82.-№ 10. -P. 1539−1994.
Tavatia S., Porayath R., Doherty J F. Lattice CELP for low bit rate speech coding //Mil. Commun. Global Inf. Age: Synergies, Innov. and Monmouth Chapter Symp., Fort Monmouth, N. J. 1994. — V. 3. — Piscataway (N. J.). — 1994. -P.703−707.
The Past, Present and Future of Speech Processing // IEEE Signal Processing Magazine. May 1998. -P. 24−48.
Verpek P., Scordilis M.S. Analysis, enhancement and evaluation of five pitch determination techniques // Speech Communication. 2002. -№ 3. — P. 249 270.
ITU-T Recommendation P.800. Methods for Subjective Determination of Speech Quality. 1996.
Picovici D., Mahdi A.E. and Murphy T. Ah Enhanced Single-Ended Method for Objective Speech Quality Assessment for Telephony Systems // SPECOM 2005. Proceedings 10th International Conference SPEECH and COMPUTER. 2005. Patras, Greece. — P. 633−636.
Rabenstein R., Spors S. and Steffen P. Wave field Synthesis Techniques for Spatial Sound Representation // Acoustic Echo and Noise Cancellation / E. Han-sler and G. Schmidt eds. Springer Verlag. 2006. — P. 1−15.

Заполнить форму текущей работой