Л. В. САВЧЕНКО

Нижегородский государственный лингвистический университет

им.

*****@***ru

АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ СЛОГОВ

НА ОСНОВЕ ЛИНЕЙНОЙ АВТОРЕГРЕССИОННОЙ

НЕЙРОННОЙ СЕТИ И ТЕОРИИ НЕЧЕТКИХ МНОЖЕСТВ

В рамках информационной теории восприятия речи предложено определение фонемы как нечеткого множества минимальных речевых единиц. На основе данного определения и линейной авторегрессионной нейросетевой модели синтезирован алгоритм распознавания слогов в развитие метода фонетического декодирования слов. Приведены примеры практического применения в задаче распознавания гласных фонем в слогах.

Ключевые слова: речевой сигнал, фонема, автоматическое распознавание речи, критерий минимума информационного рассогласования, алгоритм на основе операций с нечеткими множествами, линейная авторегрессионная модель

Введение

Задача автоматического распознавания речи (АРР) является одним из наиболее актуальных направлений в области человеко-машинного взаимодействия. Среди множества алгоритмов решения задачи АРР особый интерес представляет теоретико-информационный подход, основанный на принципе минимума информационного рассогласования Кульбака-Лейблера (МИР) [1]. Его эффективность и преимущества над другими подходами продемонстрированы в работе [2]. Метод фонетического декодирования слов (ФДС) [2] воплощает принцип МИР в задаче распознавания изолированных слов и словосочетаний, путем их разбиения на последовательность минимальных речевых единиц (МРЕ). Для повышения эффективности вычислений метода ФДС широко используется линейная авторегрессионная модель [3]. Для практического применения ФДС часто возникает необходимость объединить несколько фонем в один кластер. Такой подход приводит к значительному сокращению количества различимых фонем и, как следствие, к увеличению числа альтернативных решений на выходе алгоритма АРР, особенно для коротких по длительности слов. Поиску пути преодоления указанной проблемы и посвящена данная работа. В ней предлагается определять фонему как нечеткое множество [4] МРЕ, степень принадлежности которых определяется на основе матрицы попарных расстояний между эталонными МРЕ. Для распознавания слогов используется математический аппарат теории нечетких множеств [4], который, хотя и нашел широкое применение в современных алгоритмах АРР [5, 6], до настоящего времени еще не использовался совместно с принципом МИР.

Задача распознавания слогов на основе линейной авторегрессионной модели

Пусть задано множество из R > 1 эталонных МРЕ . Здесь – номер эталона в базе данных фонем. Задача состоит в том, чтобы отнести вновь поступающую на вход МРЕ к одной из R эталонных МРЕ .

Вначале разбивается на непересекающиеся сегменты длиной мс. Далее каждый полученный сигнал отождествляется с той из фонем-эталонов, которая отвечает принципу минимума некоторого рассогласования между сигналом и эталоном

. (1)

Для выбора меры близости в (1) воспользуемся гауссовой аппроксимацией распределения сигнала . Тогда асимптотически оптимальное решение [7] в пользу гипотезы о том, что порожден тем же случайным процессом, что и эталон , дает критерий (1) с рассогласованием

. (2)

Здесь – выборочная оценка (по методу Берга [8]) спектральной плотности мощности (СПМ) входного сигнала как функция дискретной частоты , а – СПМ эталона , F – верхняя граница частотного диапазона речевого сигнала или используемого канала связи. Выражения (1), (2) описывают алгоритм сопоставления СПМ в метрике Кульбака–Лейблера.

Для упрощения выражения (2) воспользуемся важнейшим достоинством АР-модели в АРР [7] – нормировкой сигналов по дисперсии порождающего процесса . Тогда асимптотически оптимальное решение [7] дает рассогласование

. (3)

Здесь – выборочная оценка дисперсии отклика r-го обеляющего фильтра (ОФ) , где p – порядок АР-модели, а

. (4)

Выражение (4) представляет собой линейную авторегрессионную нейронную сеть [9]. В ней каждый ИЦ-эталон из ФБД задается своим вектором АР-коэффициентов , полученным, например, с помощью алгоритма Берга и рекурсивной процедуры Левинсона-Дурбина.

В результате для каждого сегмента получаем вектор расстояний

. Тогда для автоматического распознавания гласной фонемы в слоге требуется по набору этих векторов для всех принять решению в пользу принадлежности к одному из R классов .

В работе [2] для решения поставленной задачи предложено использовать метод ФДС. В нем каждой МРЕ ставится в соответствие некий числовой код c(r), где , в общем случае . Для каждого сегмента в момент времени t решение принимается по принципу МИР:

(5)

Итоговое решение принимается в пользу наиболее часто встречающегося кода с*:

, (6)

где – дискретная дельта-функция.

Таким образом, формулы (2)-(6) описывают алгоритм распознавания гласной фонемы в слоге на основе метода ФДС [2].

Алгоритм распознавания слогов на основе операций

с нечеткими множествами

В методе ФДС существует большая вероятность пропуска истинной фонемы [2], поэтому будем рассматривать фонему как нечеткое множество эталонных МРЕ: j-й () МРЕ ставится в соответствие не один информационный центр-эталон как в методе ФДС, а нечеткое множество вида , где – степень принадлежности эталона к j-й МРЕ. Таким образом, предлагаемый алгоритм является обобщением метода ФДС, так для ФДС , если и принадлежат одному классу и в противном случае.

Определим степень принадлежности как

. (7)

Здесь – условная вероятность принадлежности к j-й МРЕ. Для ее определения используется матрица попарных рассогласований :

. (8)

Известно [10], что статистика информационного рассогласования (3) имеет распределение , где число степеней свободы, поэтому

. (9)

Входному сигналу также ставится в соответствие нечеткое множество вида , где

. (10)

Далее для каждого сегмента , используя операцию нечеткого пересечения [4] множеств (7) и (10) получаем результирующее множество , где

. (11)

Здесь определяется согласно (5).

На следующем шаге алгоритма на основе всех (11) принимается итоговое решение в пользу одной из эталонных МРЕ по критерию:

. (12)

В результате на выходе алгоритма распознавания гласной фонемы в слоге получаем нечеткое множество . Таким образом, решение в алгоритме на основе операций с нечеткими множествами (АНМ) принимается по формулам (7)–(12).

Результаты экспериментальных исследований

Известно, что наиболее хорошо распознаются ударные гласные [7]. Поэтому, исследование эффективности предложенного обобщения АНМ (7)–(12) проводились на изолированно произнесенных десяти различных реализациях десяти слогов с гласными МРЕ (а, я, у, ю, о, ё, э, е, ы, и) одного диктора женского пола. В качестве эталонов брались десять изолированно произнесенных фонем другого диктора мужского пола. Например, для звука “ё” распознавались следующие слоги: мё, лё, ёж, слё, дё, ёл, пёс, всё, тёс, вё. Распознавание слогов проводилось средствами программной системы в среде Scilab 5.3 на современном ноутбуке (процессор Intel Core i3, 1,7 GHz, ОЗУ 2 Гб). Для записи сигнала применялся встроенный в ноутбук микрофон. Частота дискретизации F установлена равной 8 кГц. Длина одного сегмента данных составляла L=120 отсчетов ( мс), порядок АР-модели (4) p = 20. Далее представлены результаты сравнительного анализа методов ФДС (5)–(6) и АНМ (7)–(12).

Сначала для ФДС и АНМ проводилось сравнение скорости распознавания гласной фонемы в слогах для рассогласования (2) и (3). Результаты представлены в табл. 1.

Таблица 1. Среднее время распознавания гласной фонемы в слоге

Время распознавания (с) для рассогласования (2)

Время распознавания (с) для рассогласования (3)

ФДС

2,55±0,085

0,6±0,075

АНМ

2,7±0,11

0,65±0,05

Как видно из таблицы, алгоритмы распознавания на основе авторегрессионной модели (рассогласование (3)) работают в 4–5 раз быстрее, чем на основе СПМ.

На рис. 1 представлена средняя ошибка перепутывания, усредненная по всем тестовым реализациям слогов. Под ошибкой перепутывания e МРЕ х, принадлежащей тому же классу, что и эталон , понимается количество МРЕ , которые имели более высокую степень принадлежности, чем истинная , т. е. , где – функция Хэвисайда.

Рис. 1. Средняя ошибка перепутывания слогов

Из рис.1 видно, что АНМ превосходит метод ФДС по такому показателю качества как средняя ошибка перепутывания слогов. Так, для слогов с МРЕ “а” e = 3,3 % , в то время как для метода ФДС e = 11,7 %.

Таким образом, предложенный АНМ обладает большей точностью распознавания по сравнению с методом ФДС. Это связано, в первую очередь, с использованием операции нечеткого пересечения (11), когда степени принадлежности близких между собой остаются практически без изменения, а других фонем сильно занижаются, поэтому их вклад в итоговом решении (12) будет незначительным. Задача распознавания слогов важна в последующей задаче распознавания изолированных слов, когда степень принадлежности слова может быть вычислена как произведение степеней принадлежности слогов, составляющих это слово.

Пример практического применения

Продемонстрируем работу предложенного АНМ на примере распознавания в слоге фонемы “е”. В табл. 2 приведен фрагмент матрицы попарных рассогласований (8) между эталонными МРЕ .

Таблица 2. Фрагмент матрицы попарных рассогласований

А

Я

э

Е

Е

1,97

0,7

0,32

0,00

Э

2,57

1,02

0,00

0,57

Я

0,85

0,00

0,4

0,4

В методе ФДС “е” и “э” принадлежат к разным классам. Из первых двух строк табл. 2 видно, что расстояния между ними малы (0,32 и 0,57), поэтому их можно объединить в один кластер. Более того, целесообразно объединить в один кластер близкие между собой МРЕ “е”, “э” и “я”. Как уже говорилось выше, в этом случае эти МРЕ будут не различимы между собой. АНМ помогает обойти этот недостаток и поставить в соответствие каждой МРЕ вида (8) (табл. 3).

Таблица 3. Степень принадлежности

А

Я

Э

Е

Е

0,04

0,14

0,21

0,29

Э

0,03

0,12

0,34

0,19

Я

0,12

0,27

0,18

0,18

Рассмотрим работу предложенного алгоритма при распознавании МРЕ “е” в различные моменты времени (табл. 4–6). Если принимать решение в момент времени t = 150 мc, то метод ФДС отдаст предпочтение МРЕ “е”, т. к. степень принадлежности в этот момент времени равна 0,22. Для получения решения по АНМ в момент времени t=150 мc (третья строка табл. 4), применим операцию пересечения (11) нечетких множеств (первая и вторая строка табл. 4).

Таблица 4. Фрагмент решения по АНМ при t = 150 мc

А

Я

Э

Е

0,17

0,21

0,19

0,22

0,04

0,14

0,21

0,29

0,04

0,14

0,19

0,22


Таким образом, в результате операции пересечения нечетких множеств (11), степень принадлежности “э” не изменилась (= 0,19), а степень принадлежности “я” понизилась с 0,21 до 0,14.

Теперь рассмотрим результат распознавания МРЕ “е” в момент времени t = 180 мc. Если принимать решение в момент времени t = 180 мс, то метод ФДС отдаст предпочтение в пользу МРЕ “я” (= 0,41).

Таблица 5. Фрагмент решения по АНМ при t = 180 мс

А

Я

Э

Е

0,18

0,41

0,05

0,12

0,12

0,27

0,18

0,18

0,12

0,27

0,05

0,12

Применяя операцию пересечения (11) нечетких множеств (первая и вторая строки табл. 5) получим решение (третья строка табл. 5). Видно, что степень принадлежности “я” понизилась с 0,41 (= =0,41) до 0,27 (= 0,27), а степень принадлежности “а” с 0,18 до 0,12. В то же время как степень принадлежности фонемы “е” не изменилась и осталось равной 0,12. Наконец, рассмотрим результат распознавания МРЕ “е” в момент времени t = 195 мс. Если принимать решение в этот конкретный момент времени, то метод ФДС отдаст предпочтение МРЕ “э” (= 0,35) (см. табл. 6).

Таблица 6. Фрагмент решения по АНМ при t = 195 мс

А

Я

Э

Е

0,08

0,20

0,35

0,19

0,03

0,12

0,34

0,19

0,03

0,12

0,34

0,19

Из третьей строки табл. 6 видно, что в результате применения операции пересечения нечетких множеств (11), степень принадлежности “я” понизилась с 0,20 до 0,12, а степень принадлежности “е” осталась без изменения (=0,19). Результирующее решение по предложенному АНМ имеет следующий вид.

Таблица 7. Фрагмент решения при распознавании

МРЕ “е”, АНМ

Е

Я

Э

А

0,28

0,21

0,2

0,07

Для метода ФДС было принято ошибочное решение в пользу “я”. Таким образом, в результате использования АНМ точность распознавания в настоящем примере повысилась.

Заключение

В последнее время теория нечетких множеств находит все большее применение в разнообразных задачах в области искусственного интеллекта [5, 6]. В настоящей работе предложен новый алгоритм автоматического распознавания слогов на основе операций с нечеткими множествами и линейной авторегрессионной нейронной сети. Результаты экспериментальных исследований показывают, что использование предложенного алгоритма совместно с принципом МИР позволяет повысить качество распознавания по сравнению с методом фонетического декодирования слов (2)–(6). Так, АНМ превосходит метод ФДС по такому показателю качества, как средняя ошибка перепутывания фонем (рис. 1). Так, при распознавании в слоге МРЕ “а” e = 3,3 %, что на 8,7 % ниже аналогичного показателя для метода ФДС. Показано, что алгоритмы распознавания, основанные на линейной авторегрессионной модели (3), (4), работают примерно в 4 раз быстрее, чем те же алгоритмы, но реализованные на вычислении спектральной плотности мощности (см. табл. 1).

Таким образом, в работе предложен алгоритм распознавания гласных фонем в слоге (7)–(12), основанный на реализации принципа МИР в виде авторегресионной нейронной сети (3), (4) и теории нечетких множеств, который обладает высокими эксплуатационными характеристиками. Повышение качества распознавания по сравнению с рассмотренными аналогами связано, в первую очередь, с тем, что в предложенном алгоритме используется информация о попарных рассогласованиях между эталонами.

Список литературы

1. Теория информации и статистика. М.: Наука, 1967.

2. Савченко фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования. // Известия вузов. Радиоэлектроника. 2009. Вып. 5. с. 31–41.

3. , Губочкин авторегрессионной модели сигналов в задаче автоматического распознавания речи. // Известия вузов России. Радиоэлектроника. 2008. Вып. 2. с.26-31.

4. Zadeh L. A. Fuzzy Sets. // Information Control. 1965. V. 8. p.338-353.

5. Mills P., Bowles J. Fuzzy Logic Enhanced Symmetric Dynamic Programming for Speech Recognition. // Proceedings of the 5th International Conference on Fuzzy Systems. 1996. p..

6. Cpalka K. A New Method for Design and Reduction of Neuro-Fuzzy Classification Systems. // Transaction on Neural Networks. 2009. V.20. №4. p.701-714.

7. Савченко теория восприятия речи. // Известия вузов России. Радиоэлектроника. 2007. Вып. 6. с.3-9.

8. -мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990.

9. Нейронные сети. М.: Вильямс, 2006.

10. Савченко как элемент информационной теории восприятия речи // Известия вузов России. Радиоэлектроника. 2008. Вып.4. с.3-11.