Система распознавания речи Microsoft достигла человеческого уровня



    Обучаемые нейронные сети Microsoft теперь распознают человеческий голос так же хорошо, как и люди. В докладе команды исследователей в области научного интеллекта Speech & Dialog сказано, что система распознавания речи теперь ошибается так же часто, как и профессиональные стенографисты. В некоторых случаях система способна совершать меньше ошибок.

    Во время тестов коэффициент ошибочных слов (WER) составил 5,9%, что ниже предыдущего результата 6,3%, о котором Microsoft сообщила в прошлом месяце. Это самый низкий результат из когда-либо зарегистрированных. Команда не считает это прорывом в алгоритме или данных, но в тщательной настройке существующих архитектур AI. Основная сложность заключается в том, что
    даже если звуковая дорожка хорошего качества и не содержит посторонних шумов, алгоритм должен бороться с разными голосами, перерывами, колебаниями и другими нюансами живой речи человека.

    Чтобы проверить, насколько алгоритм способен повторить человеческие способности, Microsoft для чистоты эксперимента наняла стенографистов со стороны. У компании уже была готова правильная стенограмма аудиофайла, которая была предложен специалистам. Стенографисты работали в два этапа: сначала один человек перепечатывал аудио-фрагмент, а затем второй слушал и исправлял ошибки в расшифровке стенограммы. На основе верной стенограммы для стандартизированных тестов специалисты, расшифровывая запись разговора на конкретную тему, сработали на 5,9%, а результат расшифровки свободного диалога показал 11,3% ошибок. После 2 000 часов обучения человеческой речи, по этим же аудиофайлам система Microsoft набрала 5,9% и 11,1% ошибок соответственно. Это означает, что компьютер теперь может распознавать слова в разговоре так, если бы он был человеком. При этом команда выполнила цель, которую поставила перед собой меньше года назад, а результат значительно превзошел ожидания.

    Теперь Microsoft собирается повторить такой же результат в шумной обстановке. Например, во время движения по шоссе или на вечеринке. Кроме того, компания планирует сосредоточить свое внимание на более эффективных способах помочь технологии распознавать отдельных спикеров, если они говорят одновременно, и убедиться, что AI хорошо работает с большим количеством голосов вне зависимости от возраста и акцента. Реализация этих возможностей в будущем имеет решающее значение и выходит за рамки простой стенографии.

    Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit. Возможность этого нейросетевого инструментария быстро обрабатывать обучающие алгоритмы на нескольких компьютерах, работающих под управлением графического процессора, значительно улучшила скорость, с которой они могли производить исследования, и, в конечном счете, достичь человеческого уровня.



    Такой уровень точности оказался возможным благодаря использованию трех вариантов сверточной нейронной сети. Первой из них стала архитектура VGG, отличающаяся большим числом скрытых слоев. По сравнению с сетями, которые использовались ранее для распознавания изображения, эта сеть применяет небольшие, более глубокие фильтры (3х3), а также использует до пяти сверточных уровней перед объединением. Вторая сеть смоделирована на архитектуре ResNet, которая добавляет магистральные соединения. Единственное отличие заключается в том, что разработчики применили пакетную нормализацию перед тем, как вычислить ReLU. Последняя сверточная сеть в списке — LACE. Это вариант нейронной сети с временной задержкой, в котором каждый более высокий уровень – нелинейное преобразование взвешенных сумм окон фреймов нижнего уровня. Другими словами, каждый более высокий уровень использует более широкий контекст, чем нижние уровни. Нижние уровни фокусируются на извлечении простых локальных структур, в то время как более высокие уровни извлекают более сложные структуры, которые покрывают более широкие контексты.



    Это достижение является для компании еще одним шагом на пути к легкому и приятному общению с компьютером. Но до тех пор, пока компьютер не может понимать смысл того, что ему говорят, он не сможет правильно выполнить команду или ответить на вопрос. Здесь задача намного сложнее. И она ложится в основу того, чем собирается заниматься Microsoft в ближайшие годы. Ранее в этом году Сатья Наделла говорил о том, что искусственный интеллект является «будущим компании», и его способность общаться с человеком стала краеугольным камнем. «Следующий рубеж – это переход от признания к пониманию» — сказал Джеффри Цвейг, руководитель исследовательской группы Speech & Dialog.

    Несмотря на очевидный успех, между автоматической системой и работой стенографистов есть одна большая разница: она не может понимать тонкие разговорные нюансы вроде звука «э-э». Мы можем произносить данный звук непроизвольно, чтобы чем-то «забить» паузу во время обдумывания следующей мысли, которую нужно сказать. Или «э-э» может быть сигналом о том, что собеседник может продолжать говорить, как и «ага». Профессиональные стенографисты способны отличить их между собой, но эти небольшие сигналы теряются для искусственного интеллекта, который не в состоянии понять контекст, в котором был произнесен тот или иной звук.

    «Еще пять лет назад я бы даже подумать не мог, что мы могли бы добиться такого результата. Я просто не думал бы, что это возможно» — отметил Гарри Шам, исполнительный вице-президент, возглавляющий группу исследований искусственного интеллекта Microsoft.

    Первые исследования в области распознавания речи можно отнести к 1970-м годам, когда агентство передовых оборонных исследовательских проектов США (DARPA) поставило задачу создать прорывную технологию в интересах национальной безопасности. На протяжении десятилетий большинство крупнейших ИТ-компаний и множество научно-исследовательских организаций включились в гонку. «Это достижение является кульминацией более чем двадцати лет усилий», отмечает Джеффри Цвейг.
    Microsoft считает, что результат работы над распознаванием речи окажет большое влияние на развитие потребительских и бизнес-продуктов компании, число которых существенно увеличится. Новые возможности из уже существующих разработок получат, как минимум, Xbox и Cortana. Кроме того, каждый пользователь сможет воспользоваться инструментами мгновенного перевода речи в текст.
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама
    Комментарии 31
    • +4
      Долго думал, как же процент ошибок после второго этапа (правка) может быть больше, чем после первого (прослушка). Оказалось, все совсем не так, как написано в статье. Это совсем другие этапы.

      The error rate of professional transcriptionists is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations.


      То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.

      Тщательнее надо!
      • 0
        Спасибо, исправлено
        • 0
          > (прослушка)
          Дополнению к пакету Яровой: весь Voice трафик должен проходить через систему распознавания речи и анализироваться в реальном времени на предмет угроз обществу.
        • –5
          Надеюсь речь идет не том же самом алгоритме который Microsoft использует в Skype, потому что этим э… алгоритмом пока что практически пользоваться невозможно при трансляции с русского на английский.
          • +6

            Распознавание и перевод, всё же, вещи слегка друг от друга отличающиеся.

            • –1
              У меня были надежды скайп как на инструмент, позволявший бы моим англоязычным партнерам хоть как то разговаривать с русскоязычными. Скайп претендует на распознавание речи и синхронный перевод. Мне кажется с первой задачей он пока не справляется. Соответственно результат второй задачи даже нет смысла оценивать.
              Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
              И да, спасибо за комментарий.
              • +4
                И тем не менее, статья не имеет никакого отношения ни к Скайпу, ни к переводу.
          • НЛО прилетело и опубликовало эту надпись здесь
            • 0
              Ну отлично. Остальсь эту систему «прикрутить» к YouTube.
              • 0
                Толку не будет. На youtube речь зачастую зашумлена фоновой музыкой, говорить могут с акцентом, может говорить несколько человек одновременно, а качество самой записи бывает не самым высоким.
                В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.
              • +1
                Это всё хорошо, но когда же MS встроит поддержку распознавания русской речи в Windows? И дождемся ли мы Кортану?
                Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?
                • 0
                  В Скайп прикрутили, теперь и во всё остальное наверное быстро прикрутят.
                  • 0
                    Вот кстати да.
                    Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
                    Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.

                    PS Я думаю все эти исследования — про английский.
                    С русским будет хуже.
                  • –1
                    И как всегда — никакого продукта в результате, одни сервисы
                    • +1
                      Чукча не писатель, сервис не продукт!
                    • +3
                      >После 2 000 часов обучения человеческой речи по этим же аудиофайлам
                      Это нормально — проверять нейросети на том же материале, на котором они и обучались?!
                      • +2
                        Это неоднозначное построение предложения, скорее всего «по этим же» относится к стенографистам, а не к процессу обучения.
                        • 0
                          Есть такая штука как кросс-валидация.
                          Будь уверен, в MS Research дураков нет, они знают на чем можно проверять а на чем — нет.
                        • 0
                          Брал одну лмпу Rev, стояла не помню уже где, то ли в торшере, то ли в люстре. Итог: от платы посыпались светодиоды, которые тупо отпаялись. Перегрев всей лампы.

                          Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.
                          • +2
                            Темой промахнулся :(
                          • +1
                            Только вот для записи текста с голоса эти 5-11% весьма неприятны. Одно дело — человек, воспринимающий речь в процессе общения и строящий смысловую цепочку. Он может даже при записи «додумать» и записать что-то подходящее по смыслу. И совсем другое дело — программа, у которой понимания нет, и в те моменты, что она не распознает слова, в тексте появятся смысловые дыры.
                            • 0
                              Скажем так, у меня не идеальное произношение. Более того, оно откровенно плохое. Даже когда я пытаюсь воспроизвести на слух слово, которое я только что прослушал в записи от носителя, получается не очень, если верить автоматическим системам распознавания.
                              При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.
                              • 0
                                Не переживайте, такая проблема не только у вас.
                                • 0

                                  Пробовал сири на маке, мой английский она поняла хорошо, причём было видно, что по мере произнесения, она уточняет значения слов.

                                • 0
                                  Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit.

                                  CNTK (Computational Network Toolkit) — это имя собственное, https://www.cntk.ai/
                                  • 0
                                    Распознавать это хорошо, а вот когда научится понимать и принимать решение… Вот тогда дробовик и понадобится!!!
                                    • 0
                                      Это они, по любому, на английском тренировались. Интересно было бы узнать на сколько хорошо их система распознает русскую речь, когда слова меняются и имеют кучу разных окончаний.
                                      • 0
                                        Речь о распознавании, а не о понимании\анализе.
                                      • 0
                                        Возможно, они и добились успехо в лабораториях, но их Кортана — глуха, тупа и страдает лёгкой формой дисклексии. Как ещё можно объяснить факт того, что Google сразу понимает фразу, а Кортана умудряется удивить.
                                        • 0
                                          Вот как то так по-будничному приходят такие новости. А на самом деле появилась еще одна вещь, которую компьютер может делать так-же хорошо, как и человек. И еще одна потенциально вымирающая профессия (стенографист в данном случае).
                                          • 0
                                            А есть что-то подобное в открытом доступе и для русского языка? Пробовал Яндекс СпичКит для рашифровки разговоров операторов интернет-магазина — ничего путного не выдает.

                                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.