Как стать автором
Обновить

Распознавание речи. Часть 3. Голосовой тракт, слуховой тракт

Время на прочтение 7 мин
Количество просмотров 24K
Зачем нам это надо

Когда заходит разговор о распознавании речи, невозможно оставаться исключительно в сфере «анализа сигналов» (на то есть отдельные труды и отрасли науки). Всегда надо помнить, что при анализе речи мы работаем с особым видом сигнала, который воспроизводится определенной биологической системой. С одной стороны, она ограничена своими амплитудно-частотными характеристиками (АЧХ), а с другой стороны, самим языком и стандартным набором звуков, которые могут быть произнесены его носителем (например, при анализе русского языка мы не будем принимать во внимание возможность цоканья и свиста). Исходя из поставленной задачи, можно достаточно точно определить характеристики сигнала речи, и его основные свойства.
Тема урока
С другой стороны, для этого сигнала природой же разработан приемник, близкий к идеальному. Это наш слуховой тракт. Пока что не изобретено и не найдено ни одной другой системы, которая могла бы так же точно и качественно заниматься распознаванием речи. Было бы кощунством пренебречь возможностью поучиться этому у природы. Если познакомится с особенностями слухового тракта поближе, начинаешь понимать, что вейвлеты и преобразование Фурье в такие задачи пришли не с потолка. И системы, обеспечивающие разложение сигнала на частотный спектр, появились гораздо раньше первого наскального рисунка…

Голосовой тракт


Голосовой сигнал создается с помощью воздушных волн, испускающимися ртом и носовыми отверстиями говорящего. В большинстве языков мира состав фонем можно разделить на 2 основных класса:
  1. согласные – произносятся при наличии сжатия горла или препятствий в ротовой полости (языка, зубов, губ) говорящего;
  2. гласные – произносятся при отсутствии каких-либо препятствий в речевом тракте.

В дальнейшем, на основании различных артикулярных свойств, звуки могут быть классифицированы на более мелкие классы. Эти параметры порождаются из анатомии различных артикуляторов человека и их точек касания речевого тракта. Существенный вклад в речеобразование вносят легкие, трахея, гортань, полость глотки (горло), ротовая и носовая полость.
Речевой тракт
  • Легкие – это источник воздуха в процессе речи.
  • Голосовые связки: когда голосовые связки находятся на маленьком расстоянии друг от друга и колеблются друг относительно друга в процессе речи, говорят что звук – вокализованный. Если же связки не колеблются, то говорят, что звук – невокализованный.
  • Мягкое нёбо: работает как заслонка, которая открывает проход воздуху в носовую полость.
  • Твердое нёбо: длинная, относительно твердая поверхность верхней стенки ротовой полости, в сочетании с языком позволяет произносить согласные звуки.
  • Язык: гибкий артикулятор. При отдалении от нёба позволяет произносить гласные звуки, при приближении к нёбу – согласные.
  • Зубы: в сочетании с языком используются при произношении некоторых согласных звуков.
  • Губы: могут округляться или растягиваться, изменяя звучание гласных звуков, либо смыкаться для остановки воздушного потока при произношении некоторых согласных звуков.

Основным различием между звуками является их разграничение на вокализованные и невокализованные звуки.

Вокализованные звуки в своей частотной и временной структуре имеют квазипериодическую составляющую. Она вносится, когда при произношении звука участвуют голосовые связки, вибрирующие с различной частотой (от 60 Гц у взрослого мужчины до 300 Гц или выше у девушки или ребенка). Частота вибрации голосовых связок называется основной частотой звука, так как она является базовой частотой для остальных высокочастотных гармоник, создаваемых в гортанной и ротовой полости. Также, основная частота больше, чем какой-либо другой фактор влияет на основной тон речи.

На рисунке изображены этапы цикла состояния голосовых связок человека при прохождении через них воздушного потока. На стадии (a), голосовая щель сомкнута, и воздушный поток останавливается перед голосовыми связками.
Связки
В какой-то момент (стадия б), давление воздуха перед связками преодолевает барьер, и воздух вырывается наружу через голосовую щель. Тем не менее, ткани и мускулы голосовых связок, благодаря природной эластичности, возвращаются в исходное состояние, закрывая голосовую щель (стадия в). Таким образом создается последовательность звуковых колебаний, которая является источником энергии для всех вокализованных звуков.

При произношении невокализованных звуков голосовые связки либо расслаблены, либо сильно напряжены, вследствие чего не производят звуковых колебаний. Воздух свободно проходит из легких в ротовую и/или носовую полость речевого тракта. В результате взаимодействия воздуха с различными артикуляторами происходит преобразование воздушного потока, что приводит к произношению того или иного звука.
О-Т
На рисунке приведен пример сигнала, соответствующего двум звукам: вокализованному «О» и невокализованному «Т». Очевидно, что они обладают обсалютно различными свойствами, что требуется учитывать при анализе. Проблема при распознавании речи возникает, когда слово ничинается или заканчивается невокализованным звуком. В этом случае, необходимо применение специальных алгоритмов, позволяющих отличить этот звук от постороннего шума и точно определить момент начала (конца) речевого сигнала. О таких алгоритмах мы поговорим в следующих частях.

Слуховой тракт


В системе восприятия речи есть 2 основных составляющих части: внешние слуховые органы и слуховой отдел мозга. Ухо обрабатывает сигнал, который несет в себе звуковая волна, путем преобразования его в механическую вибрацию барабанной перепонки и последующим отображением этой вибрации в последовательность импульсов, передаваемых слуховым нервом. Полезная информация извлекается в различных участках слухового отдела мозга человека.
Слуховой тракт
Ухо человека состоит из 3-х отделов: наружное ухо, средне ухо и внутреннее ухо. Наружное ухо состоит из видимой части и внешнего слухового канала, который завершается барабанной перепонкой. Звук, проходя по внешнему звуковому каналу, воздействует на барабанную перепонку и она вирирует.

Среднее ухо – это воздушная область, объемом примерно 6 см3. Вибрации барабанной перепонки передаются системой звуковых косточек (молоточек, наковальня и стремя) в мембрану, которая называется “овальное окно”. Это – интерфейс между средним ухом и внутренним ухом (улиткой), так как остальная поверхность внутреннего уха состоит из костной ткани.
Улитка
Важной, для восприятия звука, структурой внутреннего уха является улитка, которая сообщается непосредственно со слуховым нервом. Продольная мембрана разделяет спираль улитки на две заполненных жидкостью части. Внутренняя поверхность улитки покрыта ресничковыми клетками-рецепторами, которые соединены напрямую со слуховым нервом и воспринимают информацию о давлении жидкости в определенной точке улитки. Структура внутреннего уха устроена так, что при различных частотах начального сигнала, максимальная амплитуда изменения давления жидкости в улитке будет регистрироваться на определенном расстоянии от ее основания (смотрим на рисунок). Таким образом, улитку можно представить как гребенку фильтров, выходной сигнал которой упорядочен по расстоянию от основания улитки. Фильтры, более близкие к основанию улитки отвечают за более высокие частоты.

Слуховой нерв представляет собой набор частотных каналов. В каждый частотный канал входит группа нейронов, соединенных с одним или соседними фильтрами улитки, то есть те, которые имеют одинаковые или близкие характеристические частоты. Этот набор признаков подается в качестве мгновенного изображения сигнала в мозг человека, в котором, посредством сложной нейронной сети, происходит выделение полезной информации из полученного сигнала. К сожалению, точных данных о том, как данная информация извлекается внутри человеческого мозга, нет. Есть только ряд теорий, которые по-разному описывают возможные нейронные структуры внутри мозга и их взаимодействие.
Аналогии слухового тракта

Шкалы


Многие элементы различных систем распознавания речи основываются на слуховом тракте человека и пытаются имитировать механизмы его работы. Так, наиболее популярный на сегодняшний день характеристический признак речевого сигнала (MFCC-коэффициенты) основан на изучении методов преобразования сигнала во внутреннем ухе человека. Также, разработка и развитие нейросетевых алгоритмов связаны с исследованиями мозга человека.

Были проведены исследования, для извлечения градации частот, которая моделировала бы естественную реакцию человеческой системы восприятия речи, в которой улитка действует как спектральный анализатор. Сложный механизм внутреннего уха и слухового нерва предполагает, что свойства восприятия звуков на различных частотах не могут быть, очевидно, простыми или линейными. Широко известно, что в современной западной культуре музыкальный тон разделяется на октавы и полутона.

Частота f1 выше частоты f2 на октаву тогда и только тогда, когда f1=2f2. В 1 октаве 12 полутонов, следовательно, f1 выше частоты f2 на полутон тогда и только тогда, когда
f1=2^(1/12)f2

В результате различных исследований, основывающихся на человеческих ощущениях звуков различных частот, был выведен ряд шкал, которые позволяли представить частоту звука в более близких человеческому восприятию величинах. Так, в одной из первых попыток создания такой шкалы была разработана шкала Bark. Ожидалось, что обработка спектральной энергии на основе Bark-шкалы дает более точное соответствие со слышимой человеком информацией.

Bark-шкала разделяется на 24 основных диапазона слышимости. Слышимая разрешающая способность на низких частотах больше, чем на более высоких частотах. Перевести частоту из Гц в шкалу Bark можно по следующей формуле:
b(f)
где f – частота звука в Гц,
b – частота звука в Bark.

Но большее распространение при распознавании человеческой речи получила другая шкала – mel-шкала, линейная при частотах ниже 1кГц и логарифмическая при частотах выше 1кГц. Mel-шкала была получена в результате экспериментов с образцовыми тонами (синусоидами) в которых с испытуемых требовалось разделить данные диапазоны частот на 4 равных интервала или настроить частоту требуемого тона так, чтобы он был в половину частоты исходного. 1 mel определяется как 1 тысячная уровня тона в 1 кГц. Как и в любых других попытках создать подобные шкалы, рассчитывается, что шкала mel более точно моделирует чувствительность человеческого уха. Вычисление mel-значений можно приблизительно представить следующей формулой:
B(f)
где f – частота звука в Гц,
B – частота звука в mel.
Ряд современных техник обработки речевого сигнала основывается на применении таких шкал.

Ссылки на домашнее чтение


  • Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. –New Jersey: Prentice Hall PTR, 2001. 910 p. (Настольная книга любого, кто хочет заниматься распознаванием речи. Многое из того, что приведено в цикле моих заметок взято именно из этой книги. Must Have.)
  • Чистович Л. А., Венцов А. В., Гранстрем М. П. Физиология речи. Восприятие речи человеком. – Л.: Наука, 1976. (Книги по распознаванию речи на русском языке, к сожалению, прекратили выпускать еще 80-х годах. Но даже те, которые были выпущены стоят того, чтобы их изучить. Из этой книги я почерпнул информацию о слуховом тракте, устройстве улитки. Если кому интересны ТТХ слухового канала — милости прошу.)
  • DongSuk Yuk. Robust speech recognition using neural networks and hidden Markov models. Adaptations using non-linear transformations. – New Jersey: The State University of New Jersey, 1999. (Многие американские ученые выкладывают тексты своих диссертаций в свободный доступ. Большое им за это человеческое спасибо.)
Теги:
Хабы:
+38
Комментарии 24
Комментарии Комментарии 24

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн
PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн