Незаметная смерть распознавания речи

    Предполагалось, что когда компьютер научится понимать человеческую речь, мы быстро сможем создать искусственный интеллект. Но точность систем распознавания речи достигла своего пика в 1999 году и с тех пор застыла на месте. Академические тесты 2006 года констатируют факт: системы общего профиля так и не преодолели уровень 80%, тогда как у человека этот показатель составляет 96-98%.

    Профессор Роберт Фортнер из Media Research Institute считает, что создатели систем распознавания речи окончательно зашли в тупик. Программисты сделали всё что смогли, и у них не получилось. Спустя несколько десятилетий они поняли, что человеческая речь — не просто набор звуков. Акустический сигнал не несёт достаточно информации для распознавания текста.



    Сложность задачи можно себе представить. По некоторым оценкам, количество возможных предложений в человеческом языке составляет 10570. В документированных источниках зафиксирована лишь малая их часть, так что систему невозможно научить, даже если «скормить» ей все тексты, созданные людьми.

    У многих слов в языке — сотни или тысячи значений. Выбор конкретного значения зависит от контекста, то есть от окружающих слов. В устной речи он ещё зависит от выражения лица или от интонации.

    Наш мозг способен генерировать текст совершенно произвольно, используя интуитивно понятные правила функциональной грамматики и усвоенную с возрастом семантическую парадигму каждого слова. Эти правила описывают, какие слова могут сочетаться друг с другом и каким образом (через какие функциональные элементы). Значение каждого слова зависит от значения предыдущего слова, а в сложных случаях наш мозг распознаёт речь лишь по обрывкам фраз, зная контекст.

    Базовые правила функциональной грамматики понятны каждому человеку, но их никак не удаётся формализовать, чтобы стало понятно и компьютеру. А без этого никак. Когда компьютер пытается распознать ранее не встречавшиеся ему предложения, он неизбежно будет допускать ошибки в распознавании, если у него нет грамматического парсера и словаря с семантическими парадигмами, встроенного в человеческий мозг.

    Например, российские лингвисты когда-то попытались составить семантическую парадигму одного простого предлога русского языка (кажется, ПРИ). Они дошли до нескольких сотен значений, каждое из которых допускает свой набор последующих элементов. И это был явно не полный список.

    По грамматике предлогов проводятся целые научные конференции (некоторые учёные всю жизнь изучают предлог ПО и не могут до конца раскрыть его тайны). А ведь подобное описание требуется для каждой морфемы человеческого языка, включая приставки и суффиксы. Только после этого можно будет приступить к программированию компьютерных систем распознавания речи. По силам ли человечеству эта задача? Ведь нужно учесть ещё, что парадигма каждого элемента человеческой речи постоянно меняется, ведь язык живёт своей жизнью и всё время эволюционирует. Как компьютерная система сможет самообучаться?

    Самый поверхностный анализ опубликованных текстов в интернете компанией Google позволил выявить триллион объектов. Это лишь мизерная часть морфем, из которых состоит наша речь. Google выложил 24-гигабайтный архив с текстами во всеобщий доступ и прекратил дальнейшие публикации по этой теме.

    Проект MindNet по созданию «универсального парсера» компания Microsoft начала в 1991 году. Они пытались построить универсальную карту всех возможных взаимосвязей между словами. На проект потратили много сил и финансовых средств, но были вынуждены практически прекратить исследования в 2005 году.

    Можно поставить точку и начинать всё сначала, только другим способом (гораздо более сложным). Язык необходимо формализовать в рамках единой функциональной грамматики, универсальной для всех языков, и без серьёзной помощи лингвистов тут не обойтись, если задача вообще решаема.
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 312
    • +11
      а говорят компьютеры уделали мозг человека… Где уж там. Как числодробилки — да, пожалуй.
      Хотя в данном случае облажались скорее программисты и ученые-лингвисты, компы просто не знают, что от них требуется.
      • +8
        Компы не в состоянии решить эту проблему by design. Для решения этой проблемы Фон Неймановская и ей подобные архитектуры просто не годятся.
        А раз уж зашли в тупик при решении относительно простой задачи с точки зрения мозга, то более сложные задачи, такие, как процесс творчества, интуиция и т.д. вообще недосягаемы. То есть пока создать настоящий ИИ не представляется возможным
        • +3
          А чем Вас не устроила именно архитектура фон Неймана?
          • 0
            Она не умеет ассоциации без эмуляции. А какое вообще может быть распознавание речи без ассоциативного мышления?
            Да и задумывалась она как последовательная.
            • –1
              вы путаете понятия.
              фон Неймановская архитектура всего-лишь описывает связь между I/O, памятью
              нет, вы правы.
              хотя бы из-за первого же принципа: Принцип использования двоичной системы счисления для представления данных и команд.
              на двоичной системе ИИ (а для полноценного распознавания речи именно он и нужен) невозможен в принципе (или возможен, но с невероятно низкой ресурсоэффективностью).

              последовательность архитектуры не принципиальна, в данном случае, т.к. обходится условным переходом…
              • 0
                Была, вроде, такая технология вроде ПЛИС, только аналоговая. Думаю что она лучше подойдет.
                • –5
                  кстати да, по сути для реализации нечеткой логики нужны аналоговые системы.
                  потому что даже если цифре поднять дискретность — это не будет истинно нечеткая логика…
                  • +8
                    современные процессорные мощности позволяют вычислить любую аналоговую ошибку с достаточной для вас точностью.
                    • –3
                      читаем про нечеткую логику:
                      «функция принадлежности элемента к множеству может принимать любые значения в интервале [0...1], а не только 0 или 1»

                      а ну-ка реализуйте мне это на «современных процессорных мощностях» с их двоичной системой.
                      на сколько порядков упадет производительность этих ваших «современных процессорных мощностей» при дискретизации каждого бита, скажем, в 100 000 раз?
                      • 0
                        Неудачный пример.

                        Покажите для начала ту аналоговую схему (или её биологический аналог), который даст такую точность.

                        Насколько я помню, 48 кГц от 100 кГц уже ухо не отличает. Ухо целиком. Ну а компьютер целиком вполне не только обрабатывает, но и в mpeg сжимает такие значения «на лету».
                        • 0
                          Насколько я помню, неотличимые звуки тем не менее влияют на психический аспект восприятия. Не помню, где, но я читал, что когда людям с абсолютным слухом предложили послушать два варианта одной итой же мелодии, и в первой из них сигнал был срезан в неслышимом диапазоне, он показался им хуже, т.к. «что-то не так звучит».
                        • 0
                          ru.wikipedia.org/wiki/Double — в 64битных системах мантисса дабла составляет 52 бита, то есть точность порядка 10 в 15й степени.
                          • +3
                            Посмотрел профиль териона. Там написано что он дизайнер. Вохможно стоило уточнить что мантисса — по сути, это количество цифр в дробном числе, за вычетом ведущих нулей. Чтобы это было проще обсуждать.

                            А так — на практике цифровая схема точнее аналоговой за счет устойчивости к помехам, возникающим при передаче данных. Все остальное упирается в датчики, которые, как правило изначально аналоговые и лишь преобразуют аналоговый сигнал в цифровой.
                            • 0
                              ага, 52 разрядный АЦП :) шутите
                              • НЛО прилетело и опубликовало эту надпись здесь
                                • 0
                                  Не сомневаюсь, вот только оговорок будет горка с небольшим для этого 64 разрядного.
                                  Даже к примеру теже самые 24 разрядные 100 килогерцные, почти все сигма делта, которые плывут при константном напряжении (на сколько я знаю эту тему)
                                  Ну а потом согласитесь, есть вещи которые в цифровом виде не то что бы не возможны, скорее не логичны.

                                  А если поднять то 200,300 мегагерц, то вообше не о каких 24 битах речи нет. (тут и 16 бит редкость)
                                  А к примеру для оптических систем, когда надо скажем 50 гигагерц то вообше не более 4,6 бит, и стоит оно ооочень дорого :)
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                    • 0
                                      (О работе глаза) я вообше то не спец но могу предположит следующее: к примеру течет функция немного, то есть вместо одной длинны волны определяем немного другую (они то ведь абсолютные как раз), то есть видим скажем не темно зеленый а просто зеленый (может не совсем удачный пример, но смысл ясен), тогда выходит что не отрабатываем так как нужно?

                                      (Об обратной свези: аля фидбэк) к примеру PID, когда интегральный геин строго единица, то есть обязаны держать в нуле сигнал ошибки, а у нас как раз АЦП плывет, сразу как результат шатания, которые раскачивает систему и приведут в некоторых случаях к опрокидыванию. А сам PID быстрый то есть раз в 200 быстрее чем средняя чистота сигнала потому как пропорциональный гэин, тьюнят через FFT-loop автоматически.

                                      (Об AI) поясните не понял (о линейности)
                                      • НЛО прилетело и опубликовало эту надпись здесь
                            • 0
                              А имеются ли какие-либо доказательство того, что окружающий мир дискретен? Или непрерывен?
                              На текущий момент этот вопрос скорее из области философии, поэтому в каждом конкретном случае рассматривается то решение, которое удобнее для описания модели, т.е. которое позволяет лучше отразить происходящие процессы.
                              Если посмотреть математический аппарат, применяемый для каждого из двух (непрерывного и дискретного) случаев, то для практических задач дискретная функция (например, выборка) просто интерполируется, и рассматривается уже как непрерывная.

                              Поэтому прежде чем говорить о дискретизации в 100 000 раз, необходимо понять, какого уровня дискретизации будет достаточно для описания.

                              Формально же оценивать производительность систем с фон-неймановской архитектурой можно только после установки этой границы.
                        • –5
                          Все аналоговые системы обладают ужасной производительностью (да как и человеческий мозг), по сравнению с дискретными. Все же цифра лучше работает с цифрой, но вот некоторые вещи без аналога ну никак :(
                          • +9
                            Открою тебе страшную тайну: аналоговые системы обладают несоизмеримо большей производительностью.
                            • +3
                              Пока компьютеры завидуют мультизадачности мозга мыши.
                              • 0
                                А мой мозг завидует мультизадачности компьютеров.
                                И я говорю о осознанной мультизадачности, а не о фоновых процесах типа дыхания, работы сердца и остальных органов.
                                • +1
                                  Вы о подсознании слышали? Сознание проще расценивать не как однопоточность, а как активное приложение в мозгу…
                            • 0
                              Смотря в чём измерять производительность.
                              • 0
                                Можно нескромный вопрос. На примере чего сделан такой вывод?
                                • +1
                                  Ну например нахождение первообразной. Что будет работать быстрее, метод Эйлера или интегрирующее звено?
                        • +2
                          Молодой человек, с чего Вы делаете такие далеко идущие выводы?
                          Там, дальше, например, дизайнер утверждает о невозможности эффективной реализации нечёткой логики при помощи цифровых процессоров. Я не буду даже говорить, что это, мягко скажем, не его тема, и лучше не утверждать того, в чём не разбираешься.
                          У меня вопрос к Вам лично: что конкретно Вы понимаете под ассоциациями в данном случае и чем в связи с этим конкретно Вас не устраивает архитектура фон Неймана?
                          • –2
                            Ну я тут не буду же всю теорию нейронных сетей рассказывать. Про то, как формируются образы, про то, как идет их распознавание. И т.д.
                            Что касается ассоциаций: вот есть у нас некая нейронная сеть: мы подаем на вход некий набор сигналов, обучаем её проще говоря, у нейронов в сети формируются некие весовые коэфиценты. Нейроны запоминают образ, возникает некая ассоциация. После мы можем подавать на вход уже неполный или искаженный образ, нейронная сеть будет способна восстановить по этим неполным данных исходный образ по ассоциации.Примерно по такому же принципу работает и человеческий мозг, только процессы несоизмеримо сложнее, именно за счет ассоциативной памяти мы и распознаем смысл сказаных слов.
                            А теперь вопрос: каким образом без эмуляции можно создать систему подобную нейронным сетям в системах с отдельной памятью и отдельным центральным процессором.
                            • 0
                              По какому принципу работает человеческий мозг науке мало известно. И когда пишите про ассоциации для хомячковых/математических так называемых нейронных сетей, по сути являющимися обычной линейной системой уравнений, то берите слово в скобки.
                      • +5
                        Почему не в состоянии? Ладно, если бы вы говорили про недостаток мощности современных ПК, но чем архитектура то вам не угодила?
                        А вообще, соглашусь с мнением, что проблема в людях. Ну не придумал еще никто хорошего алгоритма.
                        • +3
                          Нужно придумать такой алгоритм, который придумает нужный алгоритм.
                          Эволюционные вычисления (ГА, ГП) движутся в этом направлении.
                          • –2
                            А это уже в какой-то мере эмуляция, это не совсем родная стихия для обычной компьютерной архитектуры. Где в мозгу вы видел конвееры, где вы в мозгу видели прогнозирование ветвления, причем двоичного? Ну и где вы найдете мне микросхему с аппаратной реализацией нечеткой логики?
                            • –4
                              нечеткую логику в двоичной системе можно только эмулировать, при этом затрачивая дурные ресурсы… более того, даже имея эти ресурсы, все равно будет баг на баге и возможность создания стабильной системы с нечеткой (даже эмулированной) логикой будет бесконечно стремиться к нулю…
                              • 0
                                хоть раз в своей жизни собирали схему на ОУ? :)))
                            • НЛО прилетело и опубликовало эту надпись здесь
                              • +2
                                распознавание букв в голосовом сигнале — пройденный этап. Нейросетью реализуется, хоть и с некоторыми доработками.
                                • +1
                                  Можно ссылку на обученную сеть для распознавания отдельных звуков… русского языка?
                                  … плюс более менее полную базу данных слов разбитых на звуки.
                                  • 0
                                    да неужели? ), и вы сейчас этот текст наговорили своей машине, да?
                                    • 0
                                      это до сих пор пробелма, открою вам секрет. И точность распознавания фонем (звуков) Нейросетью по мировым достижениям и достижениям исследователей старн Украины и др. составляет 64,28% на слитной речи, но не свободной, т.е. спонтанной — и это самый лучший на данный момент результат… вот и подумайте, что должна сделать языковая модель, что бы распознавание было ну хотя бы 85%.
                                • +1
                                  Архитектура может быть и не идеальна, но просимулировать биологические структуры явно в состоянии, так что…
                                  • +1
                                    В теории, путем биологической симуляции можно добиться многого, в том числе и распознавания речи… однако это симуляция на очень низком уровне, с огромными затратами ресурсов. Вопрос в том, возможно ли симулировать процессы, происходящие в мозгу, на более высоком уровне.
                                  • 0
                                    Не компы виноваты, а люди которые толком не могут объяснить как правильно употреблять слова.
                                    • –2
                                      виноваты разные логические принципы. мозг оперирует нечеткой логикой, машина— четкой.
                                      реализовать на существующей аппаратной базе нечеткую логику невозможно в принципе.
                                      следственно, в обозримом будущем ИИ и все прочие плюшки (включая распознавание речи) нам не светят
                                      • НЛО прилетело и опубликовало эту надпись здесь
                                        • –3
                                          про эмуляцию я тут уже писал — крайне неээфективно и гарантированно с ошибками.
                                          я имел ввиду аппаратную реализацию. без нее никак
                                          • НЛО прилетело и опубликовало эту надпись здесь
                                            • –2
                                              когда(если) освоят био-машины (на базе настоящих нейронов) — тогда, возможно, и прийдем и к ИИ и к прочему…
                                              • +3
                                                У меня полное ощущение с моими 4рмя курсами электроники что Терион пытался троллить.

                                                Существует достаточное количество алгоритмов для нечеткой логики — придумали фреймовые структуры для баз знаний, онтологии отношений между сущностями и прочую кучу вещей. Оно даже работает. Надеюсь я не совру, если скажу что нечеткая логика используется в тех-же спам-фильтрах для определения спама.
                                        • –2
                                          >реализовать на существующей аппаратной базе нечеткую логику невозможно в принципе.

                                          Думаю, с нечеткой логикой скорее вылезут другие проблемы — не факт, что машина, построенная на таких принципах сочтет человечество достойным плодов своих вычислений и «размышлений». :)))
                                    • –1
                                      >>> «Хотя в данном случае облажались скорее программисты и ученые-лингвисты, компы просто не знают, что от них требуется.»

                                      Истинно! Не зря говорят, что ответ всегда содержится в вопросе. Нужно только правильно задавать вопросы.
                                      • НЛО прилетело и опубликовало эту надпись здесь
                                        • +4
                                          если мерять флопсы, то порог человеческого мозга давно достигнут.
                                          у мозга производительность всего-то 100 терафлопс (или петафлопс).
                                          а вот последние мейнфреймы:
                                          # Blue Gene/L (2006) — 478,2 Тфлопс
                                          # Jaguar (суперкомпьютер) (2008) — 1,059 Пфлопс
                                          # IBM Roadrunner (2008) — 1,042 Пфлопс
                                          # Jaguar Cray XT5-HE (2009) — 1,759 Пфлопс
                                          # IBM Sequoia (2012) — 20 Пфлопс

                                          вопрос не в производительности, а в логике
                                          • НЛО прилетело и опубликовало эту надпись здесь
                                            • +1
                                              Ну вот к примеру есть такая веселая штука, как осознанные сновидения. Получается, что мозг способен генерировать на лету абсолютно не отличимую от реальности модель всего мира.
                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                • +1
                                                  Ну я бы не использовал тут эту терминологию. В мозгу нету ничего близко похожего на БД.
                                                  • +2
                                                    ну почему… память человека — суть ассоциативная бд…
                                                    • +2
                                                      Ага, только работает она через раз. Особенно на экзаменах…
                                                      • 0
                                                        Компьютеры помимо быстрой обработки должны данные для этой обработки откуда-то взять. Здесь упираемся в интерфейсы, с чем у человеческого мозга нет никаких проблем.
                                                        Я к тому, что при большой эффективности именно «молотилки» информации, общий процесс ее обработки далеко не так эффективен — бутылочное горлышко здесь не ЦП.
                                                        • 0
                                                          говорят же вам, ассоциативная!
                                                          а не реляционная :)
                                                  • –1
                                                    > Ну вот к примеру есть такая веселая штука, как осознанные сновидения

                                                    Есть или «вы считаете что есть»? Если первое, пруф пожалуйста
                                                    • +3
                                                      Нет, конечно же, никаких сновидений, это ему приснилось.
                                                      • 0
                                                          • 0
                                                            Всегда думал что это скорее есть, нежели некоторые считают что это есть. Даже удивлен встретив подобный вопрос.
                                                            • 0
                                                              Пруф к сожалению, возможен только при приложении к этой теме намерения, что за вас даже при всем желании никто сделать не сможет.
                                                              А так — да, работает — с чужой колокольни=)
                                                              • 0
                                                                получилось пройти первые врата?
                                                                • 0
                                                                  =) Не знаю, право слово
                                                                  • 0
                                                                    ну как же, эмиссар обязан сообщить об этом, во всяком случае так принято, сообщил?
                                                                    • 0
                                                                      Обязан? хм… Думаю он очень удивится=)
                                                                      Я б не советовал относиться слишком серьезно к подобным условностям — они не оставляют места магии
                                                                      • 0
                                                                        это традиция с давних времен, пройти врата не значит быть за ними иногда, а иметь возможность преодаливать их по своему усмотрению
                                                                        • 0
                                                                          Иногда стоит отказаться от того, что говорится словами, чтобы понять что они за собой несут
                                                                          • 0
                                                                            это тот случай? как здесь писать в личку?
                                                                            • 0
                                                                              Вероятно=)

                                                                              В личку можно в профиле похоже.
                                                                • 0
                                                                  Люди очень охотно верят в чудеса и в свои безграничные возможности :) Осознанные сновидения — это и то и другое. Неудивительно что в их существование верят очень многие. Думаю процент свидетелей НЛО — не меньше ;) Насчет своего опыта — в бытность бешеной популярности Кастанеды практиковал не менее полугода, очень активно. Результат нулевой. Самое главное что руки увидеть удалось, но сон сразу же прекратился. Для себя сделал вывод что осознанное действие — прекращает сон, то есть эти два состояния несовместимы.
                                                                  • 0
                                                                    Осознанное действие концентрирует внимание — не важно сон это или нет.
                                                                • 0
                                                                  Ну то есть вы считаете что они есть просто потому что «всегда так думали». То есть существуют ли они — вопрос веры и не более того. Доказательств никаких нет. Отсутствие серьезных ученых занятых изучением этого явления, говорит о том что это скорее из области магии и эзотерики. То есть не годится как аргумент в техническом диалоге.
                                                                  • 0
                                                                    Боюсь искуственный интеллект по аналогичным признакам тоже можн отнести к магии и эзотерике :)

                                                                    А осознанные сны не могут быть аргументом по другой причине — это сугубо субъективный опыт.

                                                                    Но в данном случае говорится не о осознанных снах, а о том, что мозг может генерировать свою картину мира в реальном времени.
                                                                    • 0
                                                                      > Но в данном случае говорится не о осознанных снах, а о том, что мозг может генерировать свою картину мира в реальном времени

                                                                      Дык об этом говорится как о 100% факте, с чем лично я — не согласен
                                                                      • 0
                                                                        А если предложить в качестве аргумента обычные сны?
                                                                        • 0
                                                                          Обычные сны — поток информации, о котором даже нельзя сказать наверняка что он трехмерный. Вряд ли их (сны) можно отождествлять как пример мего-производительности мозга, скорее наоборот: это некий реплей событий, без намека на эмуляцию, разве что довольно достоверно для сознания…
                                                        • 0
                                                          повторюсь, вопрос не в производительности, а в логике.
                                                          в принципах и эффективности вычислений, если хотите.
                                                        • +1
                                                          Если не секрет — как Вы измерили производителььность мозга? =)
                                                          • 0
                                                            это не я измерил.
                                                            про порог в петафлопс я читал очень давно, но увы, не могу сейчас найти пруфлинк.
                                                            гугление показывает разные оценочные результаты от 10^14 до 10^18 операций в секунду.
                                                            • +4
                                                              Из википедии «Человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой. Говоря о производительности нашего вычислительного аппарата, придётся использовать такие единицы как миллифлопс и даже микрофлопс. Тем не менее, мозг человека в реальном времени может выполнять такие сложные операции как синтез и распознавание речи и образов, координацию в пространстве и многие другие.»

                                                              Незнаю кто делает 10^12 операций с плавающей точкой в секунду, но я и одной за секунду не сделаю, даже с бумажкой… А делает ли мозг подобные операции напрямую — никто не знает… (ну кроме Анатоле=)
                                                              • +1
                                                                Судя по некоторым аномальным случаям, он вполне способен напрямую считать и весьма быстро.
                                                                • +2
                                                                  А тут как раз и работает эмуляция — аналоговый мозг эмулирует цифровое устройство, тратя на это много сил. И не корректно сравнивать производительность систем с разной логикой
                                                                  • 0
                                                                    Это никак не объясняет феномен людей, обсчитывающих в уме огромные числа — мгновенно и без ручек/бумажек/проблем с точностью

                                                                    Это раз, и два — такая задача как распознавание образов (приводили уже такой пример тут) требует намного больше ресурсов, и вопрос уже не в «попугаях» пороговой производительности, но в эффективности архитектуры=)
                                                                    • НЛО прилетело и опубликовало эту надпись здесь
                                                                      • 0
                                                                        А вот тут шиш уже… Закон Мура действительно начинает трещать по швам, ибо мы верно движемся к теоретическому пределу для технологического процесса для элементов на кремниевой основе, дальше минитиуаризация не будет иметь смысла из за возникающих побочных эффектов
                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                          • 0
                                                                            Как бы вы правы безусловно, но подобная правота недальновидна.
                                                                            Флопсы, папугаи и прочее — безусловно стремительно растут. Но дело в том, что изза проблем в архитектуре мы топчемся на месте, не в состоянии совершить скачек, хотя технические ресурсы для этого давно есть.
                                                                            Если применить смекалку, поработать над принципами организации, то можно приложить эту безумную ракету современных ЦП для гораздо более интересных задач, чем ворочение неподъемных (читай — неэффективных) тонн машинного кода.

                                                                            Если во времена 8088 программа занимала считанные килобайты, то сейчас — далеко нет, и именно на это уходят безумные ресурсы современных систем.
                                                                            Я не призываю вернуться к ассемблеру повсеместно (он кстати для современных систем уже совсем не так прост), но применять похожий подход к аппаратной архитектуре мне кажется неверно.
                                                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                                              • 0
                                                                                Твоя правда=)
                                                                                Наверное, просто очень хочется при жизни увидеть все те чудеса прогресса, которые пока сложно и представить даже себе
                                                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                                                • 0
                                                                                  Во всем важна база — раньше она была, и мы до сих пор в некоторых местах пользуемся старыми наработками (BIOS, например — только недавно начали от него отказываться), теми «вылизанными» кирпичиками, из которых мы и строим новые сложные системы.
                                                                                  Времени тратим меньше, но и КПД упал безбожно.
                                                                                  Хотя, конечно, смотря с чем сравнивать
                                                                              • 0
                                                                                >Мура трещит пока не подтвержденные. да к барьеру частоты подошли. но что мы видим? пошло наращивание ядер на кристалле. пошло наращивание разрядности.

                                                                                Вы его читали? Там вовсе речь шла не о частоте процессора, там речь шла о количестве транзисторов на кристалле. Сейчас Интел использует технологический процесс что-то около 32нм, а это уже близко к теоретическому пределу для кремния (что-то около 19нм).
                                                                                • НЛО прилетело и опубликовало эту надпись здесь
                                                                                  • –1
                                                                                    Не понимаю, почему это наблюдение называют «законом».
                                                                                    У него даже нет чёткой формулировки!
                                                                                    Это — наблюдение, или тенденция.

                                                                                    Это настолько же закон как и то, что бутерброд всегда падает маслом вниз («закон Мерфи»).

                                                                                    Позвольте мне напомнить, что такое закон.
                                                                                    Физи́ческий зако́н — эмпирически установленная и выраженная в строгой словесной и/или математической формулировке устойчивая связь между повторяющимися явлениями, процессами и состояниями тел и других материальных объектов в окружающем мир
                                                                                    • 0
                                                                                      Если не буквоедствовать, то закон Мура превращается в обычную экспоненциальную функцию роста :)
                                                                                      • НЛО прилетело и опубликовало эту надпись здесь
                                                                                        • +1
                                                                                          Вот у этой то экспоненты сейчас и вылез технологический предел. У идеи наращивать количество ядер тоже есть технологический предел. Проблема тут банальная: с ростом числа ядер растет количество служебной информации, которую приходится передавать, причем растет как n квадрат. Итого после определенного числа ядер наоборот производительность начинает падать.
                                                                                          Итого в наращивании частоты мы дошли до предела, в наращивании количества ядер когда-нибудь тоже дойдем.
                                                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                                    • 0
                                                                      *100 терафлопс (или 1 петафлопс)
                                                                      (на всякий случай, для ясности)
                                                                    • +1
                                                                      Сравнивать производительность мозга и современных ПК — некорректно. Устройство слишком различается.
                                                                    • –2
                                                                      Говорят, мозг улитки в 100500 раз круче самого мощного компа на земле.
                                                                      • 0
                                                                        Говорят, что кур доят
                                                                        • +1
                                                                          У улитки нет мозгов, а есть — висцеральные нервные стволы.
                                                                          Это нервую систему, с парой десятков нейронов, можно успешно симулировать на компьютере.
                                                                          • 0
                                                                            Просвятите пожалуйста,
                                                                            у улитки всего пара десятков нейронов, или можно успешно симулировать пару десятков нейронов?
                                                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                                              • 0
                                                                                абсолютно не корректно. клетка это отдельный процессор (или ядро, как вам больше нравится). Со своим регистром и кешовой памятью…
                                                                                • НЛО прилетело и опубликовало эту надпись здесь
                                                                                  • 0
                                                                                    Там выше человек говорил о паре десятков нейронов в нервной системе улитки.
                                                                                    Я понять хочу — это «всего» или «столько можно смоделировать»? И тот и другой вариант странным выглядит
                                                                                    • НЛО прилетело и опубликовало эту надпись здесь
                                                                                      • 0
                                                                                        Я думаю что в мозге улитки точно найдется 15 нейронов… или что там у нее в нервном узле.

                                                                                        Это не мешает найтись там еще паре тысячам нейронов. но в этом я уже не уверен.
                                                                                        • 0
                                                                                          Ну так коли там не всего 15, но «как минимум 15», то фраза «Это нервую систему, с парой десятков нейронов, можно успешно симулировать на компьютере.» звучит странно
                                                                                          • –1
                                                                                            Во-первых: брюхоногих огромное количество, от самых примитивных до довольно развитых: с простым мозгом, и даже довольно сложными глазами с хрусталиком.
                                                                                            Во-вторых: c 15 нейронами я действительно загнул, там намного больше.
                                                                                            И в-третьих: не слышали о проекте Blue Brain?
                                                                                            Они успешно симулировали 1-ну колонку кортекса крысы, которая содежит в себе 10 000 нейронов и 108 синапсов.
                                                                                            • 0
                                                                                              Спасибо, число 15 несколько смущало — собственно как раз в свете новостей о симуляции кортекса, где синапсов в любом случае намного больше. Это нейронные сети или что-то другое, не расскажете популярно?
                                                                                              • –1
                                                                                                Они говорят, что хотят симулировать мозг на молекулярном уровне, правда, не знаю, насколько они в этом преуспели.

                                                                                                Насколько я понял, то это — действительно нейронная сеть, но в качестве нейронов используют отдельные процессоры.
                                                                                                Там около 8000 процессоров, тоесть на каждом симулируется один или два нейрона.
                                                                                                • 0
                                                                                                  Ну это, насколько я понимаю, далеко не самый масштабный прожект в этой области.
                                                                                                  А область интересная, особенно в свете того что может дать успешный результат таких исследований
                                                                                  • 0
                                                                                    Даже это неправда man нейронные сети. За единицу хранения информации приближенно можно принять связь между нейронами, а количество этих связей с ростом сложности системы растет просто фантастически.
                                                                                    И это еще весьма приближенная оценка.
                                                                              • 0
                                                                                вы имеет ввиду нейронные сети? если да, то вы не правы, поскольку нейроны в нейронных сетях, точнее говоря, любое его формальное описание, это убогая аппроксимация реальных нейронов.
                                                                                • 0
                                                                                  «можно успешно симулировать на компьютере»
                                                                                  Ещё как «успешно». Так успешно, что нобелевка светит. Правда ни мозгов ни мощностей ещё не хватает для эмуляции даже нематоды.
                                                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                                              • +5
                                                                                К.О. сообщает о рекурсии.
                                                                                • 0
                                                                                  тут нет рекурсии, никто не говорит что одно как то связно с другим…
                                                                                  ведь управление голосом (для этого первые приложения управления на буквы и слова не делили команды) и распознавание речи это разные вещи!
                                                                                  • 0
                                                                                    И как вы предлагаете сверять полученную из внешнего мира аудио коммнаду с записанной в памяти?
                                                                                    Сразу скажу — сравнивать «влоб», вычислять какие-нибудь «коэффициенты примерной корреляции» можно, но в итоге не работает — точнее может быть и работает, но точность подобных методов неудовлетворительная.
                                                                                    • +1
                                                                                      Не совсем согласен. Уже даже в современных телефонах (нокиа серия Е, например) голосовой набор номера и голосовое управление основаны на синтезе звука и сравнении с тем, что поступает на вход. Может быть какое-то предварительное обучение и делалось, но в «чистом» телефоне распознавание имени контакта из записной книжки работает явно не меньше, чем в 80% случаев, и со временем точность повышается. Какие алгоритмы там используются для сравнения- не знаю, но мы проверяли на работе- плевать эта система хотела на язык, шумы, тембр голоса, можно спокойно передать телефон другому человеку, все равно распознает, главное- не выделываться и не пытаться действовать как в известном анекдоте про лесопилку.

                                                                                      Другое дело, что записная книжка мобильника сильно меньше словаря великого русского языка, возможно еще и этим объясняется более-менее приемлемая скорость и небольшое количество ошибок.
                                                                                      • 0
                                                                                        Есть разница между словом условной комманды и фразой языка — голосовое управление с заданным/ограниченным набором вариантов вполне реализуемо, соверменные телефоны тому подтверждение, вы совершенно правильно говорите.
                                                                                        И алгоритм работы вы правильно указали — сравнение синтезированного образца с записанным извне.
                                                                                        Алгоритмы, основанные на количественном анализе средних коэффициентов (для каждой области своих, именно для анализа аудиоданных сам не писал, но думаю принцип схожий) замечательно работают на ограниченном наборе эталонных данных, но спотыкаются при попытке разобрать живую речь, даже формализованную.
                                                                                        Необходимо постоянное, динамическое (не изначально жестко заданное) корректирование параметров анализа (коэффициентов, которые для него используются), что очень сложно алгоритмизировать.
                                                                                  • 0
                                                                                    Ну в принципе, распознавать речь для управления не обязательно. Основная проблема — миллиарды комбинаций и зависимость от контекста, отсутствует до поры до времени. В компьютер можно занести запись четких команд и распознавание будет идти на основе акустической, а не смысловой похожести. В принципе, голосовое управление примерно так и работает. И тут улучшение можно делать не только в сторону распознавания смысла, но и в сторону умного шумоподавления, чтобы выделять команду из фонового шума, в случае изменения дикции, темпа итд. И в этом направлении какие-то успехи есть.
                                                                                    Конечно, для идеального управления голосом нужно смешивать и выделение речи и ее разбор, но для конкретно управления голосом, достаточно решить только относительно простую задачу шумоподавления (или точнее выделения команды из общего шума)
                                                                                • –6
                                                                                  Почему для этого не использую нейронные сети. Прогнать через такую систему пару сотен терабайт с «субтитрами» для начала а потом и синтаксический разбор устраивать.
                                                                                  • 0
                                                                                    Видимо пока нету нейронных сетей достаточного объема
                                                                                    • 0
                                                                                      Думаю, причина не одна. Пока нет ресурсов, чтобы сделать нейросеть размером и производительностью как человеческий мозг. Даже хотя бы его «речевой отдел». Ну а за неимением строятся различные упрощенные модели, которые имеют все те недостатки, которые мы видим на данный момент в системах распознавания речи :)
                                                                                      • 0
                                                                                        Сделать бы модель хорошую. Пусть будет работать медленно, но качественно. А ресурсы подтянутся.
                                                                                        • 0
                                                                                          Боюсь, до того чтобы воссоздать ИНС размером с человеческий мозг, придется долго ждать соответствующих ресурсов ;)
                                                                                          • +1
                                                                                            100 миллиардов нейронов в мозге человека, даже если сеть не полносвязная (а это уже ограничения!), а каждый ну хотя бы с миллионом связей, это уже 1017 операций ;)
                                                                                            • +3
                                                                                              В том и парадокс, что частоты мозга даже не мегагерцы, он содержит относительно мало нейронов, по крайней мере, создать такой объем памяти довольно легко, но хрен его знает, как он при этом умудряется делать то, что он делает. Вычислительная мощность мозга уступает современным компьютерам, но при этом мозг делает что-то, чего пока понять никто не смог. Сильно подозреваю, что как только (если это случится) это получится понять, и распознавание речи, и ИИ станут повседневными явлениями.
                                                                                              • +3
                                                                                                Совершенно верно. Одна из основных проблем распознавания речи в частности и исследований в области искуственного интеллекта в общем в том, что мы еще не до конца разобрались, как работает наш собственный, «натуральный» интеллект. Ведь намного проще что-то воссоздать, когда знаешь точно, как это устроено.
                                                                                          • +3
                                                                                            Тут есть одна загогулина: нужно досконально изучить мозг, а это пока сделать невозможно.
                                                                                            Представьте себе что у одного нейрона длина аксона может превышать _1_ метр! Это колоссальный труд.
                                                                                            • 0
                                                                                              не бойтесь, это не так страшно. ) это только у нейронов в стволе такие длинные аксоны. их функция сравнима с обычными проводами.
                                                                                              • 0
                                                                                                Ну, тем что в мозгу хватит и 20 сантиметров, чтоб связаться с любой другой его точкой…
                                                                                                Хотя и там они вряд ли через весь мозг аксоны тянут.
                                                                                        • +1
                                                                                          Для этого нужно для начала придумать такой нейросетевой алгоритм, который сможет из этого вычленить что-то конструктивное. Существующие — не смогут, какой объем сети не ставь.
                                                                                        • +11
                                                                                          В целом тут неверный подход «Научим распознавать — научим думать», а должно быть наоборот. Каждый младенец с рождения имеет аппарат для размышлений, но с чистой БД. Во многих подходах в ИИ делают наоборот, создают мощную БД и практически бесполезную думалку. И нейронные сети не панацея, это лишь далёкая модель, которая без обучения сама не способна справиться с новыми данными и, по сути, работает на некоем узнаваемом поле. А вот придумать хорошую «думалку» — пока эта задача не по силам.
                                                                                          • +3
                                                                                            Хорошая думалка должна обьединять несколько уровней абстракции, которые акцентируются на различных аспектах речи:
                                                                                            1) Речь выражает мысли — программа должна уметь мыслями оперировать — программа должна уметь оперировать абстрактными понятиями, их взаимосвязями, уметь новые взаимосвязи из уже имеющихся и т.д. Этими задачами занимаются спецы по математической логике, кибернетики и другие математики. Математический аппарат довольно развит, есть и практические реалиции с похожими целями (например, дескриптивные логики).
                                                                                            2) Речь очень выразительна — одно и то же предложение в разных контекстах может выражать совершенно разные мысли, ну а сколькими способами можно выразить одну и ту же мысль… Добавляет сложности то, что контекст меняется постоянно, предметная область может смениться за пару минут полностью, и система должна успевать подстраиваться. Здесь на помощь приходит нечеткая логика, она слаба в построении выводов, но очень гибка по сравнению с четкой логикой.
                                                                                            3) Речь не монотонна (если это не лекция по матану :)) — акцент, посторонний шум, эмоциональное состояние говорящего и прочая мешают узнаванию/пониманию слов. Здесь могут помочь нейросети, они хорошо справляются с распознаванием зашумленного сигнала.

                                                                                            На данный момент встречаются связки четкой логики и нечеткой, нечеткой логики и нейросетей. Создание же полной системы потребуется много профессионалов и денег, которых как обычно ни у кого нет.
                                                                                            • 0
                                                                                              И нейронные сети не панацея, это лишь далёкая модель, которая без обучения сама не способна справиться с новыми данными и, по сути, работает на некоем узнаваемом поле.
                                                                                              советую ознакомиться с картами Кохонена
                                                                                              • 0
                                                                                                Да читал я, читал. Смысл тот же, есть некая основа, на базе которой сеть обучается. Например, вот цитата: «Изначально известна размерность входных данных, по ней некоторым образом строится первоначальный вариант карты.» Смысл в том, что думалка у человека вообще не знает какая там размерность будет в следующую секунду и оперирует абстракциями так же, как и точными данными. Любая нейронная сеть в данный момент это всё равно некоторое приближение, которое создано для одной цели/задачи. И сеть не может сейчас сама себе поставить новую задачу и достигать её, так как это уже самоосознание. Собственно, нейронная сеть, даже Кохонена, обучается строгое количество итераций, а по достижении приемлемого коэффициента ошибок просто работает, выполняет одну и ту же задачу. Для примера, я не видел ни одной нейронной сети, которая способна одновременно распознавать речь, изображения и выполнять анализ финансовых данных. Потому, что бы смоделировать хотя бы кусочек мозга понадобится миллионы сетей, заточенных под конкретную задачу. Но и всё равно, такой набор не способен делать открытия и исследовать что-либо, сеть всё-таки как конечный автомат, раз за разом выполняет анализ уже известных данных и не способна работать с данными другого типа, тем более неизвестными.
                                                                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                  • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                    • +1
                                                                                                      Греемся еще как
                                                                                                      • 0
                                                                                                        Зря вы так думаете. В пересчете на ватты человек греется даже больше :) Не говоря уже о КПД
                                                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                          • 0
                                                                                                            Почему пассивной? просто она жидкостная + дофига мелких испарителей :)
                                                                                                    • +6
                                                                                                      Позволю себе возразить тезису, упомянутому в начале статьи, о том что систему невозможно научить, скормив ей все имеющиеся на данный момент тексты, т.к. в них менее 10570 фраз. Ведь человек тоже обучается на основе услышанных/прочитанных текстов (в основном), и он за свою жизнь читает далеко не все имеющиеся тексты :). Так что в данный момент проблема двоякая: с одной стороны нет вычислительных мощностей, чтобы воссоздать функциональность человеческого мозга, с другой — нет упрощенного алгоритма для воссоздания этой функциональности на имеющихся ресурсах (если это вообще возможно).
                                                                                                    • –1
                                                                                                      единую функциональную грамматику, универсальную для всех языков сделать невозможно, думаю.
                                                                                                      для некоторых групп языков — да.
                                                                                                      но совместить русский, немецкий, китайский и какое-нибудь наречие африканского племени «большие уши» вряд ли удастся…
                                                                                                      • +3
                                                                                                        На самом деле приведенная картинка несколько противоречит написанному. Там же видно что для «Reading Speech» отличные результаты были получены еще в 90-е (в пределах человеческой ошибки). А в настоящее время борются с «Conversational» и «Meeting» где присутствуют и сленг, и посторонние звуки, и перебить могут на полуслове и мимика имеет значение и еще куча всяких «и», т.е. проблема видимо именно с «расчленением» и как замечено выше «доставкой» звука, а не смысловыми заморочками.

                                                                                                        С другой стороны, я думаю, несмотря на то что в 90-е были получены хорошие результаты «распознавания» речи, искусственный интеллект чудесным образом не появился, и интерес спонсоров исследований несколько приуменьшился и соответственно упали финансовые вливания.
                                                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                          • +27
                                                                                                            Приведу вам два классических примера, которые вызывают ступор у большинства иностранцев (из смешных)

                                                                                                            Запер замок на замок, чтобы замок не замок.
                                                                                                            Нахуя вы эту хуйню нахуячили, а ну быстро расхуячивайте нахуй.

                                                                                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                              • 0
                                                                                                                Возможно речь _шла_ не про слова а про основания.
                                                                                                                • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                                  • +11
                                                                                                                    Да чего вы придрались? Что плохого вам сделало слово «хуй»?
                                                                                                                    • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                                      • +7
                                                                                                                        Так это вы же на этом слове такое внимание акцентируете, будто вам больше не о чем поговорить.
                                                                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                                        • 0
                                                                                                                          Извините что встреваю: но я понимаю фразу так «Зачем вы это сделали — верните как было». Я пока вижу у предложения только один вариант его трактовки. Действительно слово хуй здесь зависит от контекста и потенциально может иметь множество толкований. Я так понимаю eugenioz хотел услышать нечто другое.
                                                                                                                          • 0
                                                                                                                            Ниже уже отмечено про поэзию — это с моей точки зрения более сильный пример.
                                                                                                                  • +3
                                                                                                                    Про fuck ихний аналог тоже завернут не хуже.
                                                                                                                    А вот покруче — 3 одинаковых, но разных слова: Косил Косой косой косой
                                                                                                                    • 0
                                                                                                                      можно добавить еще одно слово «косой» в значении «длинная песчаная отмель, идущая клином, грядой от берега»
                                                                                                                      • 0
                                                                                                                        и в значении прически женской…
                                                                                                                        • +2
                                                                                                                          Косил Косой косой косой с косой
                                                                                                                  • +2
                                                                                                                    — x86 emulation on

                                                                                                                    > Запер замок на замок, чтобы замок не замок.
                                                                                                                    Не вижу проблем для распознавания, слова хорошо различимые, словоформ похожих на на «замок» не знаю.

                                                                                                                    > Нахуя вы эту хуйню нахуячили, а ну быстро расхуячивайте нахуй.
                                                                                                                    Здесь скорее всего будет Out-of-Dictionary error. Т.е. вместо «нахуя» будет «на хуя» — найдется знакомый предлог «на» все остальное запишется как слышится. Результат в целом не плохой.

                                                                                                                    — x86 emulation off

                                                                                                                    Вы ведь не забывайте, что под «распознаванием» голоса люди, проводящие исследования, понимают преобразование из голоса в текст, а не рисование картинок на тему произнесенных фраз.

                                                                                                                    • 0
                                                                                                                      «Запер замок на замок, чтобы замок не замок»

                                                                                                                      Кажется, господин Зеленков Юрий Григорьевич из Яндекса успешно решил эту задачу ещё до 2003 года.
                                                                                                                      • +1
                                                                                                                        Что вы имеете в виду? Как и что именно он решил?
                                                                                                                        • 0
                                                                                                                          Была решена проблема различия существительного и глагола в предложениях вида «Стекло стекло на пол»
                                                                                                                          • +3
                                                                                                                            И которое из стекол здесь глагол? Первое или второе?