17 июля 2009 в 09:43

Распознавание речи. Часть 3. Голосовой тракт, слуховой тракт

Зачем нам это надо

Когда заходит разговор о распознавании речи, невозможно оставаться исключительно в сфере «анализа сигналов» (на то есть отдельные труды и отрасли науки). Всегда надо помнить, что при анализе речи мы работаем с особым видом сигнала, который воспроизводится определенной биологической системой. С одной стороны, она ограничена своими амплитудно-частотными характеристиками (АЧХ), а с другой стороны, самим языком и стандартным набором звуков, которые могут быть произнесены его носителем (например, при анализе русского языка мы не будем принимать во внимание возможность цоканья и свиста). Исходя из поставленной задачи, можно достаточно точно определить характеристики сигнала речи, и его основные свойства.
Тема урока
С другой стороны, для этого сигнала природой же разработан приемник, близкий к идеальному. Это наш слуховой тракт. Пока что не изобретено и не найдено ни одной другой системы, которая могла бы так же точно и качественно заниматься распознаванием речи. Было бы кощунством пренебречь возможностью поучиться этому у природы. Если познакомится с особенностями слухового тракта поближе, начинаешь понимать, что вейвлеты и преобразование Фурье в такие задачи пришли не с потолка. И системы, обеспечивающие разложение сигнала на частотный спектр, появились гораздо раньше первого наскального рисунка…

Голосовой тракт


Голосовой сигнал создается с помощью воздушных волн, испускающимися ртом и носовыми отверстиями говорящего. В большинстве языков мира состав фонем можно разделить на 2 основных класса:
  1. согласные – произносятся при наличии сжатия горла или препятствий в ротовой полости (языка, зубов, губ) говорящего;
  2. гласные – произносятся при отсутствии каких-либо препятствий в речевом тракте.

В дальнейшем, на основании различных артикулярных свойств, звуки могут быть классифицированы на более мелкие классы. Эти параметры порождаются из анатомии различных артикуляторов человека и их точек касания речевого тракта. Существенный вклад в речеобразование вносят легкие, трахея, гортань, полость глотки (горло), ротовая и носовая полость.
Речевой тракт
  • Легкие – это источник воздуха в процессе речи.
  • Голосовые связки: когда голосовые связки находятся на маленьком расстоянии друг от друга и колеблются друг относительно друга в процессе речи, говорят что звук – вокализованный. Если же связки не колеблются, то говорят, что звук – невокализованный.
  • Мягкое нёбо: работает как заслонка, которая открывает проход воздуху в носовую полость.
  • Твердое нёбо: длинная, относительно твердая поверхность верхней стенки ротовой полости, в сочетании с языком позволяет произносить согласные звуки.
  • Язык: гибкий артикулятор. При отдалении от нёба позволяет произносить гласные звуки, при приближении к нёбу – согласные.
  • Зубы: в сочетании с языком используются при произношении некоторых согласных звуков.
  • Губы: могут округляться или растягиваться, изменяя звучание гласных звуков, либо смыкаться для остановки воздушного потока при произношении некоторых согласных звуков.

Основным различием между звуками является их разграничение на вокализованные и невокализованные звуки.

Вокализованные звуки в своей частотной и временной структуре имеют квазипериодическую составляющую. Она вносится, когда при произношении звука участвуют голосовые связки, вибрирующие с различной частотой (от 60 Гц у взрослого мужчины до 300 Гц или выше у девушки или ребенка). Частота вибрации голосовых связок называется основной частотой звука, так как она является базовой частотой для остальных высокочастотных гармоник, создаваемых в гортанной и ротовой полости. Также, основная частота больше, чем какой-либо другой фактор влияет на основной тон речи.

На рисунке изображены этапы цикла состояния голосовых связок человека при прохождении через них воздушного потока. На стадии (a), голосовая щель сомкнута, и воздушный поток останавливается перед голосовыми связками.
Связки
В какой-то момент (стадия б), давление воздуха перед связками преодолевает барьер, и воздух вырывается наружу через голосовую щель. Тем не менее, ткани и мускулы голосовых связок, благодаря природной эластичности, возвращаются в исходное состояние, закрывая голосовую щель (стадия в). Таким образом создается последовательность звуковых колебаний, которая является источником энергии для всех вокализованных звуков.

При произношении невокализованных звуков голосовые связки либо расслаблены, либо сильно напряжены, вследствие чего не производят звуковых колебаний. Воздух свободно проходит из легких в ротовую и/или носовую полость речевого тракта. В результате взаимодействия воздуха с различными артикуляторами происходит преобразование воздушного потока, что приводит к произношению того или иного звука.
О-Т
На рисунке приведен пример сигнала, соответствующего двум звукам: вокализованному «О» и невокализованному «Т». Очевидно, что они обладают обсалютно различными свойствами, что требуется учитывать при анализе. Проблема при распознавании речи возникает, когда слово ничинается или заканчивается невокализованным звуком. В этом случае, необходимо применение специальных алгоритмов, позволяющих отличить этот звук от постороннего шума и точно определить момент начала (конца) речевого сигнала. О таких алгоритмах мы поговорим в следующих частях.

Слуховой тракт


В системе восприятия речи есть 2 основных составляющих части: внешние слуховые органы и слуховой отдел мозга. Ухо обрабатывает сигнал, который несет в себе звуковая волна, путем преобразования его в механическую вибрацию барабанной перепонки и последующим отображением этой вибрации в последовательность импульсов, передаваемых слуховым нервом. Полезная информация извлекается в различных участках слухового отдела мозга человека.
Слуховой тракт
Ухо человека состоит из 3-х отделов: наружное ухо, средне ухо и внутреннее ухо. Наружное ухо состоит из видимой части и внешнего слухового канала, который завершается барабанной перепонкой. Звук, проходя по внешнему звуковому каналу, воздействует на барабанную перепонку и она вирирует.

Среднее ухо – это воздушная область, объемом примерно 6 см3. Вибрации барабанной перепонки передаются системой звуковых косточек (молоточек, наковальня и стремя) в мембрану, которая называется “овальное окно”. Это – интерфейс между средним ухом и внутренним ухом (улиткой), так как остальная поверхность внутреннего уха состоит из костной ткани.
Улитка
Важной, для восприятия звука, структурой внутреннего уха является улитка, которая сообщается непосредственно со слуховым нервом. Продольная мембрана разделяет спираль улитки на две заполненных жидкостью части. Внутренняя поверхность улитки покрыта ресничковыми клетками-рецепторами, которые соединены напрямую со слуховым нервом и воспринимают информацию о давлении жидкости в определенной точке улитки. Структура внутреннего уха устроена так, что при различных частотах начального сигнала, максимальная амплитуда изменения давления жидкости в улитке будет регистрироваться на определенном расстоянии от ее основания (смотрим на рисунок). Таким образом, улитку можно представить как гребенку фильтров, выходной сигнал которой упорядочен по расстоянию от основания улитки. Фильтры, более близкие к основанию улитки отвечают за более высокие частоты.

Слуховой нерв представляет собой набор частотных каналов. В каждый частотный канал входит группа нейронов, соединенных с одним или соседними фильтрами улитки, то есть те, которые имеют одинаковые или близкие характеристические частоты. Этот набор признаков подается в качестве мгновенного изображения сигнала в мозг человека, в котором, посредством сложной нейронной сети, происходит выделение полезной информации из полученного сигнала. К сожалению, точных данных о том, как данная информация извлекается внутри человеческого мозга, нет. Есть только ряд теорий, которые по-разному описывают возможные нейронные структуры внутри мозга и их взаимодействие.
Аналогии слухового тракта

Шкалы


Многие элементы различных систем распознавания речи основываются на слуховом тракте человека и пытаются имитировать механизмы его работы. Так, наиболее популярный на сегодняшний день характеристический признак речевого сигнала (MFCC-коэффициенты) основан на изучении методов преобразования сигнала во внутреннем ухе человека. Также, разработка и развитие нейросетевых алгоритмов связаны с исследованиями мозга человека.

Были проведены исследования, для извлечения градации частот, которая моделировала бы естественную реакцию человеческой системы восприятия речи, в которой улитка действует как спектральный анализатор. Сложный механизм внутреннего уха и слухового нерва предполагает, что свойства восприятия звуков на различных частотах не могут быть, очевидно, простыми или линейными. Широко известно, что в современной западной культуре музыкальный тон разделяется на октавы и полутона.

Частота f1 выше частоты f2 на октаву тогда и только тогда, когда f1=2f2. В 1 октаве 12 полутонов, следовательно, f1 выше частоты f2 на полутон тогда и только тогда, когда
f1=2^(1/12)f2

В результате различных исследований, основывающихся на человеческих ощущениях звуков различных частот, был выведен ряд шкал, которые позволяли представить частоту звука в более близких человеческому восприятию величинах. Так, в одной из первых попыток создания такой шкалы была разработана шкала Bark. Ожидалось, что обработка спектральной энергии на основе Bark-шкалы дает более точное соответствие со слышимой человеком информацией.

Bark-шкала разделяется на 24 основных диапазона слышимости. Слышимая разрешающая способность на низких частотах больше, чем на более высоких частотах. Перевести частоту из Гц в шкалу Bark можно по следующей формуле:
b(f)
где f – частота звука в Гц,
b – частота звука в Bark.

Но большее распространение при распознавании человеческой речи получила другая шкала – mel-шкала, линейная при частотах ниже 1кГц и логарифмическая при частотах выше 1кГц. Mel-шкала была получена в результате экспериментов с образцовыми тонами (синусоидами) в которых с испытуемых требовалось разделить данные диапазоны частот на 4 равных интервала или настроить частоту требуемого тона так, чтобы он был в половину частоты исходного. 1 mel определяется как 1 тысячная уровня тона в 1 кГц. Как и в любых других попытках создать подобные шкалы, рассчитывается, что шкала mel более точно моделирует чувствительность человеческого уха. Вычисление mel-значений можно приблизительно представить следующей формулой:
B(f)
где f – частота звука в Гц,
B – частота звука в mel.
Ряд современных техник обработки речевого сигнала основывается на применении таких шкал.

Ссылки на домашнее чтение


  • Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. –New Jersey: Prentice Hall PTR, 2001. 910 p. (Настольная книга любого, кто хочет заниматься распознаванием речи. Многое из того, что приведено в цикле моих заметок взято именно из этой книги. Must Have.)
  • Чистович Л. А., Венцов А. В., Гранстрем М. П. Физиология речи. Восприятие речи человеком. – Л.: Наука, 1976. (Книги по распознаванию речи на русском языке, к сожалению, прекратили выпускать еще 80-х годах. Но даже те, которые были выпущены стоят того, чтобы их изучить. Из этой книги я почерпнул информацию о слуховом тракте, устройстве улитки. Если кому интересны ТТХ слухового канала — милости прошу.)
  • DongSuk Yuk. Robust speech recognition using neural networks and hidden Markov models. Adaptations using non-linear transformations. – New Jersey: The State University of New Jersey, 1999. (Многие американские ученые выкладывают тексты своих диссертаций в свободный доступ. Большое им за это человеческое спасибо.)
Глеб Радченко @domage
карма
30,2
рейтинг 0,0
Самое читаемое

Комментарии (24)

  • +3
    Супер, теперь если ещё немножечко разобрать физиологические особенности нашей нейронной сети, то процесс распознования речи станет буквально очевидным.
    Я про голографическую модель, мозга. В отличии от софтовых аналогов, в оригинальной сети нейронов присутствует латентность вносимая каждым отдельно взятым её элементом, включая аксоны. Таким образом, данные приходящие от рецепторов, как бы развёртываются в мозге который упрощённо можно рассматривать в данном случае как среду распространения нервных импульсов.

    Программно такой подход реализуется скармливанием традиционной нейросети обратного распространиня, не просто абстрагированных данных, а ещё и хисторю из буфера, которая к стати тоже может быть абстрагирована.

    Я понимаю голографические задвиги выглядят бредом, во многом из-за того что на эту тему существует много изотерических спекуляций, но стоит взглянуть на карты фазовой корреляции отведений ЭЭГ (а это сейчас большинство клинических энцефалографов умеет делать), очаги активности вызванные единичным раздражителем (вспышкой или щелчком или пищалкой), как бы прокатываются по всему мозгу.
    • +9
      Я думаю, что если раскроют все механизмы работы мозга, то проблема распознавания речи будет уже несколько незначительной :))
      • +3
        Да, значительной станет проблема воссоздания всего, что наоткрывали)
        • +1
          А то и проблема «закрывания обратно» :)
      • 0
        До этого момента в процессе раскроют столько еще всего интересного, что распознавание речи будут воспринимать как должное ) Вот только случится это, к сожалению, очень нескоро.
  • –1
    прочитал, ничего не понял. Урок биологии?
    • +5
      Да. К сожалению, без него никак.
      Никто же не садиться заниматься анализом экономических трендов без фундаментальных знаний по экономике?
      Все-таки, распознавание речи — это прикладное программирование, которое невозможно реализовать без знаний о предметной области.
      • 0
        И отличный получился урок! Все по теме, сжато и понятно.
  • +2
    «Чувак, я ничего не понял из того что ты сказал, но твои слова запали мне в душу!» (с)
  • +4
    Глеб, спасибо Вам за офигенно интересный цикл статей! Мне очень странно, что статьи с таким содержанием и оформлением проходят мимо большинства аудитории Хабра, судя по оценкам.
    • +3
      На самом деле, этот цикл действительно расчитан на тех людей, которые хотят занятся разработкой такой системы, или же им это ОЧЕНЬ интересно. Ну а хабр, на мой взгляд, самое правильное место, где таких увлеченных людей можно найти в такой высокой концентрации.

      Но абсолютно понимаю реакцию 80% людей, которые видят это текст… Она примерно такая:
      o_0

      А начал я писать из-за оставшихся 20%, которым действительно будет интересно, в надежде, что это хоть как-то зацепит оставшиеся 80%. В рунете фиг найдешь эту информацию, хотя на ангийском языке — пруд пруди. А так, по крайней мере люди будут знать, в какю сторону рыть.
  • 0
    Спасибо за очень интересную серию статей, она замечательна. Продолжайте, пожалуйста.
  • +1
    Хорошая статья, спасибо. Только наружное ухо, а не внешнее.
    • 0
      Внешнее — это наверное уже слуховой аппарат :)
    • 0
      Хотя, судя по результатам поиска в google оба термина имеют право на существование, «Наружное ухо» используется чаще.
      Соглашусь, спасибо.
      Исправил
  • +1
    «Люди научились летать после того как перестали пытаться имитировать птиц и занялись изучением аэродинамики.» — не помню где слышал )
    • 0
      Но пока-что крылья — это лучший способ передвижения по воздуху, вы не находите?
      • +2
        нет, не нахожу :)
      • 0
        Птицы достигли сверхзвука?
        • 0
          Если бы надо было — достигли.
          Но, к сожалению, или же к счастью, такие скорости в природе никуда не сунешь: затрат энергии много, а толку мало.
          А вот маневренность нужна, иначе воткнешься клювом в ближайшее дерево.
          Попробуй на самолете в лесу полетать.
          Другие цели — другие решения, ага.

          Но насчет сверхзвука — вы думаете, без крыльев самолеты далеко-бы полетели?
          Кстати, реактивная тяга — из природы взята, вы не думайте.

          В принципе, я ни в коем случае не настаиваю на том, что мы слепо должны бежать и повторять за природой то, что она придумала. Свои мозги тоже на плечах должны быть. Иначе телевидения, скорее всего, до сих пор бы не придумали… И колесо. И цепи маркова — чисто математическая абстракция, в природе их не найти.

          Но стоит ли того затыкать уши, и напролом идти в неизведанную область, когда уже есть готовое
          решение? Может быть стоит оценить обстановку и начать не с пустого листа, а с определенным багажем знаний.

          Если вы с этим не согласны, тогда я вообще не понимаю зачем вы это читаете: идите и творите! Без шуток.
          • 0
            Кстати, что касается колеса — некоторые букашки сворачиваются и катятся вполне показательно. Да и вообще, круглого и иногда катающегося в природе не так уж мало.
    • 0
      Но тем не менее, если вас попросят создать устройство для полета самостоятельно — это наверняка будет дельтаплан-крыло или параплан, который можно изготовить самому в любительских условиях. Так же и тут — если не требуется решать сверхзадачи, можно начинать с наиболее очевидного.
      • 0
        не-не-не, это будет воздушный шар — еще проще )
  • –1
    > Структура внутреннего уха устроена так, что при различных частотах начального сигнала, максимальная амплитуда изменения давления жидкости в улитке будет регистрироваться на определенном расстоянии от ее основания (смотрим на рисунок).

    Хочу заметить, что вот как раз рисунок неправильно это отображает. Мембрана изогнётся и на ней будет только один максимум, на расстоянии от начала мембраны, соответствующем данной частоте входного сигнала.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.