Нейросеть Google Translate составила единую базу смыслов человеческих слов


    «Универсальный язык» нейронной сети Google Neural Machine Translation (GNMT). На левой иллюстрации разными цветами показаны кластеры значений каждого слова, справа внизу — смыслы слова, полученные для него из разных человеческих языков: английского, корейского и японского

    За последние десять лет система автоматического перевода текстов Google Translate выросла с нескольких языков до 103, а сейчас она переводит 140 млрд слов ежедневно. В сентябре сообщалось, что разработчики приняли решение полностью перевести сервис Google Translate на глубинное обучение. У этого подхода есть много преимуществ. Перевод становится гораздо лучше. Более того, система может переводить тексты на языки, для которых никогда не видела переводов, то есть не обучалась специально для этой языковой пары.

    Нейросеть Google для машинного перевода называется Google Neural Machine Translation (GNMT). От самого начала и до конца перевод текста теперь полностью выполняет нейросеть. Традиционно ИИ использовался в Google Translate в ограниченном режиме, для некоторых вспомогательных задач. Например, для сравнения текстов, доступных на нескольких языках, вроде официальных документов ООН или Европарламента. В таком режиме сравнивался перевод каждого слова в текстах.

    Нейросеть NMTS работает на принципиально новом уровне. Она не только анализирует существующие варианты перевода в процессе обучения, но и выполняет интеллектуальный анализ предложений, разбивая их на «словарные сегменты». В определённой репрезентации внутри сети эти «словарные сегменты» соответствуют смыслам слов.


    Модель архитектуры GNMT (Google’s Neural Machine Translation). Слева сеть энкодера, справа — декодера, в середине модуль внимания. Нижний слой энкодера двусторонний: розовые модули собирают информацию слева направо, а зелёные — в обратном направлении

    Эта внутренняя репрезентация внутри сети и является в каком-то определении универсальным языком человечества. К сожалению, люди не смогут разговаривать на этом универсальном языке. Он представляет собой машинный код, с которым происходит работа на внутреннем промежуточном уровне нейросети. Это машинный язык-посредник между любыми языковыми парами всех человеческих языков, поддерживаемых системой. Тем не менее, существование такой универсальной базы смыслов, которая объединяет все языки мира, впечатлит любого лингвиста. Вообще говоря, разработка подобной базы со всеми коннотациями, тщательным описанием всех возможных значений каждого слова, — это словно словно чаша Грааля в лингвистике. О ней мечтали десятилетиями. Благодаря нейросети Google эта мечта постепенно воплощается в жизнь. Нейросеть уже де-факто имеет такую базу смыслов внутри «чёрного ящика», с указанием возможных значений каждого слова. Проблема только в том, что пока что с этой базой умеет работать только она сама, эта нейросеть. Для человеческого понимания база смыслов в машинных кодах недоступна просто так, она требует специальной обработки.


    Новая универсальная архитектура GNMT, которая переводит любые языковые пары

    Что самое интересное, благодаря универсальной базе смыслов всех человеческих слов нейросеть перевода может работать даже для тех языковых пар, на которых её не обучали. Возьмём пример на анимации. Система обучена для языковых пар «японский⇄английский» и «корейский⇄английский». После этого через универсальную составленную базу смыслов нейросеть сможет переводить также языковую пару «японский⇄корейский», хотя она не тренировалась на ней.


    Некоторые примеры смешивания целевых языков в многоязычной модели

    Журналисты сразу же ухватились за эту тему и назвали служебную систему с базой смыслов «новым универсальным языком человечества». Например, известный российский маркетолог Андрей Себрант пишет: «Представление смыслов в универсальном виде, не привязанном к конкретному существующему языку, — это, фактически, создание нового универсального языка. Вот только не факт, что доступного человеку».

    Действительно, «новый универсальный язык» — это звучит очень красиво и загадочно. Хотя на самом деле это просто единое многомерное пространство, составленное при помощи техники t-SNE, то есть методом нелинейного снижения размерности и визуализации многомерных переменных (t-distributed stochastic neighbor embedding).

    Визуализация многомерного пространства данных в нейросети


    Если говорить о практическом применении нейросети, то независимые специалисты признают, что разработка Google показывает «потрясающий» результат и наглядно демонстрирует, что нейронный перевод с помощью ИИ способен намного превзойти по качеству классические методы машинного перевода. Нейросеть Google явно улучшает качество перевода во многих отношениях.

    Авторы новой научной работы добавляют, что универсальная архитектура, которая переводит любые языковые пары, в реальности показывает более высокую эффективность, чем нейросеть, тренированная только на одной языковой паре. По какой-то причине знание посторонних языков помогает нейросети более качественно переводить с данного конкретного языка.

    На интуитивном уровне этот эффект понятен: человек тоже начинает лучше понимать чужой язык, если знает и другие языки той же группы. Таким образом он расширяет пространство смыслов в своём мозге. Он осознаёт смыслы, которым не соответствует ни одно слово из его родного языка.

    Новый метод универсального перевода, названный разработчиками "Zero-Shot Translation", не требует никаких изменений в архитектуре нейросети Google Neural Machine Translation.

    Научная работа с описанием многоязычной системы машинного перевода Neural Machine Translation System на базе нейросети за авторством Мелвина Джонсона, Максима Крикуна и других сотрудников Google опубликована 14 ноября 2016 года в открытом доступе.
    Метки:
    Поделиться публикацией
    Комментарии 162
    • +13
      «Шла Маша по шоссе и сосала сушку.»
      «Masha was on the highway and sucked drying.»

      Still bad, Google…
      • 0
        «Сушка» специфическое слово, гугол просто не понял, что имеется в виду. Забейте в тот же яндекс и значение вам вылезет — качки и сушка белья (etc) и в последнюю очередь «Маленькая тонкая и очень сухая баранка.» даже в толковых словарях далеко не на первом месте. Уберите слово «сушку» и всё будет правильно. И Маша при деле.
        • +4
          Так, хорошо, но куда пропало «шла»? или это тоже специфическое слово?!
          Почему гугловский надмозг посчитал факт хотьбы слишком ничтожным чтобы доносить его до англоговорящего читателя?
          • +24
            Просто нейросеть поняла, что на самом деле делает Маша на трассе.
            • +1

              Нейросеть всё как раз хорошо поняла.

              • +1
                Больше ста комментов уже написали, но никто не дал себе труда проверить, о чём спор :(
                В настоящее время GNMT в google translate применяется (да и то, насколько я понял, ограниченно) только для пары английский-китайский. Все остальные пары (уж русский-английский — точно) переводятся старым недобрым статистическим переводчиком.
                • 0
                  Как человек, ежедневно пользующийся китайско-английским переводчиком Гугла, подтверждаю: донесение адекватного смысла при переводе с китайского на английский заметно выше, чем при переводе с китайского на русский.

                  До этой статьи считал, что дело непосредственно в сложности великого и могучего, а теперь склонен полагать, что дело именно в нейросетях.
                  • 0
                    А китайский на русский (и другие неанглийские языки) напрямую никогда и не переводился, промежуточный всегда английский.
                    • 0
                      Такая мысль тоже была :)
              • +3
                Если это был факт хотьбы, а не ходьбы, то всё правильно перевёл.
                • +2
                  Да хотьбы и так
                  • 0
                    Хотьбы так, хотьбы сяк, туда хотьбы, сюда хотьбы
              • 0
                «Забейте в тот же яндекс и значение вам вылезет — качки и сушка белья (etc) и в последнюю очередь «Маленькая тонкая и очень сухая баранка.» „
                Но ведь они претендуют на гораздо большее, чем словарный перевод с выбором самого частотного значения. Словосочетание “сосать сушку» почти однозначно указывает на то, что сушка — это что-то, что можно положить в рот. Я уж не говорю о том, что это очень известная скороговорка, и после слов «Шла Саша» смысл всех остальных слов устанавливается однозначно.
              • +4
                Косил косой косой косой

                Mowed oblique oblique oblique
                • +3
                  Еле-еле, ели ели елей

                  Barely, spruce spruce firs
                  • +27
                    Да фиг с ними, с нейронными сетями, я тоже не понимаю что здесь написано…
                    • +6
                      Медленный каннибализм среди хвойных деревьев. Омофонами в любом языке забавно играться, просто русский язык очень ими богат. Гугол в том числе выдаёт бесчисленные лулзы в переводе, например, с японского.
                      • +1
                        Не каннибализм. Елей — он не еловый.
                      • +4
                        Ели-ели — Не быстро
                        Ели — деревья
                        ели — Поглощали пищу
                        елей — Смола какого то дерева используется в христианском богослужении для воскуривания…
                        • +1
                          kamaikin
                          Позволю уточнить — как написано выше — все же «еле-еле». И тогда никаких елей.
                          • 0
                            «Елей» — это масло, чувак. И никто его не воскуривает.
                            • +1
                              Ты плохо знаешь нормальных пацанов, они и елей воскурят!
                              • 0
                                Скорее плохо знаю христианство… Я не православный. и даже не христитианин если что. Потому, масло так масло…
                              • НЛО прилетело и опубликовало эту надпись здесь
                              • +7
                                Хвойные нетороприво потребляли в пищу масло для церковных церемоний.
                              • 0
                                С русского на латинский: Pussy non in Rubrum Exercitus
                              • +5
                                Ну вне контекста и человек не решает такие задачки.
                                точно также он не переводит
                                «buffalo buffalo buffalo buffalo ...»

                              • 0
                                Контекстное повествование. С этим и люди плохо справятся при переводе.
                                • 0
                                  Каким должен быть контекст у скороговорки? Сам факт того, что это скороговорка — уже культурологический контекст. Если некоторые люди и с этим плохо справляются, то не надо таким людям заниматься переводом вообще.
                                  • 0
                                    Не спорю, я просто говорю, что без ИИ тут не справиться никак.
                                    • 0
                                      Может ли это означать, что скороговорки не должны переводиться, а только «транслитерироваться»? По аналогии с именами собственными, например.
                                      По большому счёту, их задача — тренировка произношения, а не донесение конкретного смысла.
                                  • +9
                                    Шёл Шива по шоссе, сокрушая сущее,
                                    а навстречу Саша шла, круглое сосущая.

                                    Siva went along the highway, smashing things,
                                    and meet Sasha was circular suction.
                                    • +2
                                      Это потому что Google Translate не знает, что бывает еда сушка.
                                      Сушка. Сушка и картошка. Картошки и сушки.
                                      Drying. Drying and potatoes. Potatoes and dried (мало того, что глагол, ещё и в прошедшем).

                                      Пять картошек и сушка. Пять картошек и сушек. Я съел пять сушек.
                                      Five potatoes and drying. Five potatoes and crackers. I ate five dryers («я съел пять сушильных аппаратов»?!).

                                      Хотя в процессе пыток он один раз проговорился (crackers, хотя sushki правильнее судя по Вики). Это либо влияние подсказок пользователей, либо… Google Translate на самом деле знает, что сушки могут быть едой, а разработчики много лет на работе занимаются имитацией бурной деятельности.
                                      Слово suck употребляется так: x1 (thing) sucks x2 (thing). Drying — это не вещь, а процесс (нельзя потрогать), следовательно нужно выбирать cracker (а лучше sushki).

                                      Вот так Google Translate переводит примитивные предложения:
                                      Пряники хочу! Купи пряники, морковь и лук.
                                      Gingerbread want! Buy carrots, carrots and onions.

                                      Птица и собака. Я вижу птицу, собаку. Птица с собакой видят меня.
                                      Bird and dog. I see a bird dog (птичья собака). Bird dog see me.

                                      Лук красивый. Я люблю лук вкусный. Я люблю лук. Я люблю свой лук.
                                      Onions beautiful. I love onion delicious. I love the onion. I love his bow.

                                      Артикли забывает, путает; после существительного пишет прилагательное; предложение не влияет на другие предложения; путает морковку с пряниками (Из-за «кнут и пряник»/«carrot and stick»? Но ведь идиомы употребляются цельными).
                                      Как будто программа, которая преобразует промежуточный язык в разговорный язык, находится в версии 0.0.1.
                                      • 0
                                        Вот об этом я как раз ниже и говорил. Это появилось относительно недавно. И ведь здесь перевод правдоподобный. Т.е. если раньше кинул в транслейт — получил кашу — адаптировал. То сейчас получаешь вроде бы красивое стройное предложение, поэтому адаптация вроде как и не нужна. И на выходе жутко искажается смысл.
                                        • 0
                                          Я люблю свой лук.
                                          I love his bow.

                                          Гугл ещё и смысл меняет (his — его)
                                          • 0
                                            Ну, в предложении «He loves his bow», «his» вполне себе будет переводиться как «свой»
                                        • 0
                                          … and was sucking on a jet fighter
                                          • +1
                                            90% окружающих Вас людей с «родным» русским не поймут и не повторят эту фразу.
                                            Google ещё хорошо выкрутился…
                                            • 0
                                              Наверное, все дело в том, что Саша, а не Маша.
                                            • +5
                                              Интересно было-бы проанализировать какие «облака смыслов» отсутствуют/слабо представлены в разных языках.
                                              • 0
                                                Например, в русском языке нет слова, обозначающего обратную сторону колена.
                                                • 0
                                                  Подколенная ямка (fossa poplitea, PNA, BNA, JNA) ромбовидное углубление позади коленного сустава, ограниченное сверху и медиально полусухожильной и полуперепончатой мышцами, сверху и латерально — двуглавой мышцей бедра, снизу — двумя головками икроножной мышцы и подошвенной мышцей; заполнена клетчаткой, содержит подколенные артерию и вену, большеберцовый и общий малоберцовый нервы, лимфатические

                                                  Большой медицинский словарь. 2000.
                                                  • 0
                                                    Можно ещё «обратная сторона колена», но отдельного слова всё-равно нет =)
                                                  • 0
                                                    Это называется подколенная ямка. Да, два слова.
                                                    • 0
                                                      А вот у них одно:
                                                      Немецкий — Kniekehle.
                                                      Французский — jarret.
                                                      Испанский — rótula.
                                                      • 0
                                                        Я бы не стал использовать немецкий в качестве примера, где что-то/кто-то называется одним словом. Поинтересуйтесь значением немецких слов Knie и Kehle. Кстати, также встречается Kniegrube. Слово grube, опять же.
                                                        В английском два: knee pit. На латыни тоже.
                                                        И, да! В русском есть одним словом: подколенок или подколенка.
                                                        Какие можно сделать выводы?
                                                • +4
                                                  Заметил что последнее время гугл-транслейт несет полный бред. Причем на простых оборотах. И достаточно уверенно. Т.е. если раньше выдавал просто набор слов и можно было построить предложение самому, то сейчас он имитирует из себя филолога и выдает что-то неведанное и вариантов перевода/замены подобрать сложней.
                                                  Возникло чувство «замусоривания» его словарей.
                                                  • 0
                                                    Через тернии к звёздам
                                                    • +2
                                                      интересно, а кто-то слово «тернии» в повседневной речи использует (кроме этого выражения)?
                                                      • 0
                                                        Ну естественно кроме как метафору не используют, но не всегда в качетсве аллюзии на Per Aspera Ad Astra.
                                                        Я слышал в трех вариантах:

                                                        1. основное, из этого выражения — как что-то что надо преодолеть («через тернии к первому дивизиону»)
                                                        2. Как символ враждебного отношения общества («можно, конечно, напускать на себя высокомерие и сверхутонченность, но тернии от этого не перестанут впиваться – острые, ядовитые…» — это цитата из Набокова, но я знаю одну мадам, которая частично эту фразу цитировала в речи, так что считается за повседневную речь)
                                                        3. Вместо слова «терновник», как синоним слова «сорняк».
                                                        • +3
                                                          У нас в меде это традиционно перед сессией переделывали в per aspera ad anus.
                                                          • 0
                                                            А ещё интересно, почему «aspera» переводится как «тернии». Дословно если я не ошибаюсь, оно переводится как «трудности». Кому-то в голову же пришло перевести именно так. А кому-то ещё поддержать такой перевод.
                                                            Кто был тем первым переводчиком?
                                                            • 0
                                                              потому что «тернии» — литературный, несколько высокопарный, вариант «трудностей».

                                                              Non est ad astra mollis e terris via («Не прост путь, ведущий от Земли к звёздам», «Тернист путь, ведущий к звёздам»)

                                                              https://ru.wikipedia.org/wiki/Per_aspera_ad_astra
                                                      • 0
                                                        Google: «Through hardship to the stars». Вполне себе.
                                                        • 0
                                                          Так это фраза древняя. Она на все языки уже давно переведена. Грубо говоря, эта фраза входит у обучающую выборку. https://en.wikipedia.org/wiki/Per_aspera_ad_astra
                                                          • 0
                                                            То есть в английском нет слова, сходного по смысловому значению с «терниями»? Только «трудности»?
                                                      • +1
                                                        Вспоминая промт, он переводил по «книжному» т.е. первое значение из словаря (основное) а далее побочные. Гугл переводчик идёт по пути наименьшего сопротивления и выдаёт самые популярные варианты (которые выбирают пользователи рядом со словом есть столбик популярности), вариантов перевода накопилось слишком много и зачастую они пересекаются с вообще левыми словами в т.ч. не брезгует жаргонными/разговорными и бывает что путает части речи, нужное значение уже приходится выбирать самому. Но иногда, перевод целых фраз получается очень даже хорошим, что хоть сразу в копипасту.
                                                        • +1
                                                          Просматривая плохие переводы на хабре, меня беспокоит мысль, чему же научится Google сопоставляя эти пары текстов? Мусор на входе — мусор на выходе.
                                                          • +1
                                                            Тоже заметил, что называется это всё модным словом «нейросеть», а больше похоже на поиск подходящих слов по корню или часто используемых словосочетаний. Сильно теряется смысл при переводе с финского на русский, очевидно, что перевод происходит через англйиский, а говорят, что через никому не понятный внутренний язык нейросети, но тогда смысл не должен был бы теряться.
                                                          • +4
                                                            Хм… Цiкава, што яны будуць рабiць далей?
                                                            • 0
                                                              Неужели «гугл перевод» канет в лету?
                                                              • +9
                                                                Через 200 лет универсальный язык «гугол»:
                                                                -Говоришь на гугловском? (rus)
                                                                -Do you speak google? (eng)
                                                                -Go google goo? (google)

                                                                А тема хорошая. Возможно, все забудут сарказм «google translate» применявшийся к некоторым плохо переведённым статейкам на хабре ))
                                                                • 0
                                                                  Ну «goo» это почти эпическое «ку», так что уже понятно, как будет выглядеть этот самый язык.
                                                                  • 0
                                                                    Скорее так:
                                                                  • –6
                                                                    Пихают свои нейронные сети куда ни попадя, а потом удивляются, почему это такая чушь на выходе…
                                                                    Эта технология работает всего лишь с какой-то вероятностью и всегда может и будет допускать ошибки.
                                                                    • +3
                                                                      Потому что она пытается делать перевод 1-в-1, что НЕВОЗМОЖНО. Многие языки вообще 1-в-1 не переводятся. Duolingo тому пример. Куча ошибок в связи с тем, что разработчики решили «так, а не иначе». Translate же тупо переводит по популярности.

                                                                      Он не AI, а нейронка, а значит тупо функция конвертации согласно весу слова… 1 шаг от Байзанова фильтра.

                                                                      Для перевода нужен AI, с пониманием контекста.

                                                                      Как в примере выше «шла Саша по шоссе и сосала сушку» методом подбора можно перевести, также можно запомнить наизусть, однако чтобы переводить и в дальнейшем предложения верно, нужно понять контекст. «Вася — молодца — улетел на сушке, а я на старой тушке перепердыхал в ближайший аэропорт» уже не реально понять ни тому кто заучил наизусть, ни тому кто будет переводить методом подбора. Уж простите за не классический пример.

                                                                      Только AI, только хардкор. Только знание окружающей среды и воспитание, а не тупое заучивание.
                                                                      • +1

                                                                        Угу. Они оперируют словарнными сегментами, это уже лучше чем слова. В языках с фонетической письменностью слово не может быть семантической единицей из-за наличия омонимов и омографов. Ну хорошо, это они поняли, но и словосочетание не выход! Более того, даже предложения срабатывают далеко не всегда. Вот два достаточно известных примера предложений, которые обладают двумя смыслами:
                                                                        На английском: Time flies like an arrow.
                                                                        На русском: Эти типы стали есть в нашем цехе. (За этот пример спасибо ABBYY).
                                                                        При чем во втором случае не спасет кажется даже анализ на уровне межфразового единства. Но что совершенно скверно, в реальной речи даже интерпретация целого текста может быть затруднена. Затруднена потому, что перевод, это вообще говоря не только (и может быть не столько) лингвистика, а межкультурная коммуникация. Даже идиоматика не переводится буквально, что уж говорить об отсылках к литературным источникам. В общем еще расти и расти...

                                                                        • –2
                                                                          > Контекст.
                                                                          Неужели его так сложно выделить? Согласен, в одиночном коротком предложении — может быть. Но неужели его так сложно выявить в тексте из нескольких предложений? Найти главные слова, которые есть суть предложений (разобьём на сказуемые, подлежащие и тд), у этих слов уже будет много общего, можно будет их отнести к какой-то определённой области, а остальные слова уже переводить исходя из этой области. Ведь человек тоже не сможет перевести текст, не разбираясь в текущей области. Построение такой системы — это (по моему мнению) в большей степени рутинная работа, нежели придумывание какого-то супер-пупер интеллектуального алгоритма.
                                                                          • +3
                                                                            Сложно, например представим, что Вы — робот — знаете только одно значение глагола nail — пригвоздить (ну вот не смотрели Вы кино, а учились по старым учебникам грамматики 9го класса). Для робота с текущим алгоритмом перевода контекст I nailed Natalie звучит немного стремно. Робот с текущим доступным нам алгоритмом вызвал бы полицию. AI же, проанализировав уровень доверия и общения с Вами и с Натали и связи между Вами, понял бы, что это контекстуализированный оборот речи. В итоге он бы начал глубинный анализ приложения в частности поднял бы концепт гвоздя, на что похож гвоздь, концепт пригвожжения, как он происходит (в нашем случае это выражение пошло от электромолотков), отбросил бы все не подходящие варианты по доверию и уровню социализации Вашего коллектива и вариант с «вдул» (секс, интим) пришел бы к нему самому.

                                                                            В любом случае контекст очень важен. Nailed It может значить кучу вещей в одном и том же коллективе, в одном и том же разговоре при одной и той же тематике разговора.
                                                                            • 0
                                                                              Было бы очень хорошо в будущем если разработчики «прикрутят» языковые правила. Стиль построения предложений и слов. И так для каждого языка. Количество ошибок уменьшится. Плюс алгоритм если не понял что имелось ввиду, мог бы уточнить что это? -Поговорка?! Ок. вариант: Peter Piper picked a peck of pickled peppers. Потому похожие по смыслу скороговорки есть во многих(всех) языках.
                                                                              • 0

                                                                                Напомнило эпизод из Star Trek: TNG, где была раса, чей язык полностью состоял из метафор и отсылок к истории/мифам/легендам. Универсальный переводчик не мог проанализировать этот язык.


                                                                                http://memory-alpha.wikia.com/wiki/Tamarian_language

                                                                              • –1

                                                                                «Вася — молодца — улетел на сушке, а я на старой тушке перепердыхал в ближайший аэропорт»
                                                                                Вот этот мусор вообще не нужен. Функция языка — кодирование смысла. А здесь налицо сознательное искажение. Одна из ключевых проблем человечества — низкий уровень интеллекта среднего человека, ну а так как язык и сознание тесно связаны, стоит применять почаще простую, структурированную, логично выверенную речь. И популяризировать ее.
                                                                                P.S. "Тупо" — частенько это соблюдение шаблона, сделанного более грамотными людьми…, от армейского устава до чек-листа в Макдональдсе. Один из способов встроить обезьян, мнящих себя уникальными личностями в эффективную систему.

                                                                                • +1
                                                                                  Функция языка передача информации и всего-то. Он может быть и клокатанием, а уже насколько искажено клокотание неважно, важно что кто-то его понимает и что переводчику его нужно понять. Для научного или публицистического перевода Google Translate уже достаточен для некоторых языков (хотя вот в Венгерском хрена лысого он переводит). А вот в свободном общении и переводе аля babelfish он бесполезен откровенно.

                                                                                  Это при том что я вообще использовал литературно описательный текст с упрощениями и абстракциями, а не свободную речь.

                                                                                  Важно что Вы поняли, а переводчик нашего времени никогда ни при каких обстоятельствах не поймет и не переведет, если только не запомнит всю конкретную фразу и на следующей подобной фразе будет опять асоциальным аутистом.
                                                                                  • +1
                                                                                    Аккуратнее, пожалуйста. Функций языка четыре (как минимум; некоторые лингвисты выделяют больше, но с этими согласны более-менее все):
                                                                                    коммуникативная (передача информации),
                                                                                    познавательная (определяет и процесс, и результат познания человеком окружающего мира),
                                                                                    номинативная (дает названия предметам и явлениям окружающего мира),
                                                                                    аккумулятивная (является хранилищем знаний и опыта языкового коллектива)
                                                                                    • –1
                                                                                      Немного не то. С технической точки зрения язык — метод передачи информации/ данных.
                                                                                      Любая лингвистическая функция описывается именно как метод передачи информации.

                                                                                      Коммуникативная — передача данных.
                                                                                      Познавательная — опять же передача данных.
                                                                                      Номинативная — куда уже более — передача данных. Сам язык этого не делает — это делает его использующий субъект — передача данных.
                                                                                      Аккумулятивная — encoding? данные в данных? передача данных.

                                                                                      Скажем так я смотрю с транспортного уровня, а не того что там уже на 7 уровне накрутили.
                                                                                      • +2
                                                                                        Ох, сколько ж вас таких…
                                                                                        С технической точки зрения это действительно так. Но язык — не техническое явление.
                                                                                        Коммуникативная — передача данных.

                                                                                        Верно в значительной степени
                                                                                        Познавательная — опять же передача данных.

                                                                                        Верно в незначительной степени. Процесс познания не ограничивается, скажем, чтением. Это в первую очередь восприятие внеязыковых образов, которые подсознание впоследствии использует прямо так, без кодирования, а сознание использовать не может, не закодировав в языке (см. ниже). А как происходит это кодирование и чем первичный образ отличается от закодированного и готового к передаче другим людям — этого (пока) никто не знает. А еще первичный образ постоянно меняется (причем иногда рандомно и непредсказуемо), а его закодированная форма (упрощенно будем считать, что это слово) — нет.
                                                                                        Номинативная — куда уже более — передача данных. Сам язык этого не делает — это делает его использующий субъект — передача данных.

                                                                                        В Вашей терминологии это скорее генерирование данных, нежели передача. Представьте, что Вы один на земле, и Вам некому передать данные. Вы все равно станете как-то называть предметы и явления окружающего мира. По каким правилам будут формироваться эти названия? А никто не знает.
                                                                                        Аккумулятивная — encoding? данные в данных? передача данных.

                                                                                        Верно в незначительной степени. Разве интернет существует только для передачи данных? Каждый раз, когда вы формируете сообщение для передачи (исполнения коммуникативной функции языка), немалая его часть передается не в виде данных, а в виде «ссылки на данные,» которые — Вы при кодировании делаете такое допущение, зачастую неправильное — имеют одинаковое значение как для Вас, так и для Вашего собеседника. Функция языка в данном случае — синхронизация результатов номинативной и познавательной функций языка у разных людей (которые зависят в первую очередь не от языкового, а от чувственного опыта, то есть сугубо индивидуальны), чтобы можно было при общении оперировать ссылками. Если тут и есть передача данных, то это сугубо служебный процесс.
                                                                                  • –1
                                                                                    В целом да, всяческие I nailed Natalie из коммента выше совершенно излишни.

                                                                                    Правда меня пугает ваше желание встроить всех в «эффективную систему».
                                                                                    • 0
                                                                                      Для омонимов можно менять веса в зависимости от стоящих рядом слов.
                                                                                      Ассоциативный массив, где указано что с
                                                                                      сушка = хлебобулочное изделие = чаще применяются слова: грызть, сосать, мука, баранка и т.д.
                                                                                      сушка = процесс сушения = чаще применяются слова: одежды, обуви, мышц и т.д.
                                                                                      сушка = самолёт Су = чаще применяются слова: пилот, МИГ, аэродром и т.д.
                                                                                      Перемножать веса в зависимости от частоты употребления слова в целом, коэффициентов слов, стоящих рядом, их удалённости от искомого слова в предложении.

                                                                                      Но именно нейросеть является лучшим инструментом для создания таких множественных связей в гигантском массиве. Кто занимается анализом данных, поправьте, я не специалист.
                                                                                  • +5
                                                                                    Человек тоже понимает смысл с «какой-то вероятностью».
                                                                                    Вот так поставишь человеку задачу, а он всё сделает по-другому. «Ой, а я не так понял!».

                                                                                    «Эти типы стали есть на складе» — вот какой здесь смысл? То-то же!
                                                                                    • –2
                                                                                      Я не лингвист, но мне кажется что предложение элементарное, единственное слово которое может смутить это «типы». Но если вы знаете что тип — это неприятный человек, то фразу эту можно перевести как: Эти неприятные люди стали кушать на складе. Фраза не лишена смысла
                                                                                      • +2
                                                                                        Это самый известный пример с семантической омонимией.
                                                                                        Здесь два смысла и вопрос в том, какой из них выбрать.
                                                                                        • +2
                                                                                          Или «Эти виды стали есть на складе»
                                                                                          • 0
                                                                                            Ох, капитан…
                                                                                          • 0
                                                                                            Вообще-то, есть второй смысл — «Эти типы стали (сплава) есть на складе»
                                                                                      • +1
                                                                                        Интересно, а ведь эту базу можно исследовать в поисках неких универсальных смыслов, и попробовать на основе этого создать новый конланг.
                                                                                        • 0
                                                                                          И разговаривать хешами из его таблицы.
                                                                                          • +2
                                                                                            где-то я подобное встречал…
                                                                                            Скрытый текст
                                                                                            image

                                                                                        • 0
                                                                                          Интересно, гугл когда-нибудь сделает в переводчик бесплатную распознавалку текста (особенно иероглифов) с картинки с возможностью выделения рамочкой нужных фрагментов и правки?
                                                                                        • 0
                                                                                          Ну вот и Гугл до этого добрался. А что про Abbyy слышно? Лет уж 15 как они анонсировали подобное…
                                                                                          • +1
                                                                                            Гугл загрузил в нейросеть тексты и построил скрытую модель. Такова суть нейросетей.
                                                                                            Abbyy делает Knowledge Graph, онтологию, что есть противоположность коннекционистской модели. Knowledge Graph это база знаний, т.е. база данных с большим количеством таблиц и отношений.
                                                                                          • 0
                                                                                            напомнило мне как, давным-давно, для одного проекта, я прикрутил генерацию синонимов при помощи google translate api — брал короткий «топ» вариантов перевода на английский, а затем топ вариантов перевода обратно от этих вариантов))) такой хак позволил существенно обойти по мощности доступные словари синонимов.) при довольно осмысленных результатах…
                                                                                            • 0
                                                                                              Спасибо, попробую :)
                                                                                            • +1
                                                                                              "… составила единую базу смыслов человеческих слов". Google не может понять что конкретно записано в базе, но мамой клянется, что там именно смысл именно всех человеческих слов на всех языках. Законченная желтизна заголовка плавно переходит в гугловское вранье и обратно.
                                                                                              • +1
                                                                                                А мы то знаем, что внутри сети всего лишь китайская комната.

                                                                                                Но суть от этого не меняется. Всё правильно в гугле думают. В нейросети образовался некий праязык. Да, он без букв, слов и фонем, скорее всего пока неидеален, но это можно исправить, прикрутить идеальное словобразование и звуковую модель. И это поле для прорывов в лингвистике.

                                                                                                Как было выше описано, очень интересно найти белые пятна различных языков, т.е. те концепты, которые на конкретных языках не описываются (или очень плохо описываются).

                                                                                                Ожидаю серию работ по синтезу «Эсперанто-XXI».
                                                                                                • 0
                                                                                                  Вы фантазируете еще фантазнее, чем гугол. Таких фантазеров ныне много.
                                                                                                  • 0
                                                                                                    Таких фантазеров ныне много.
                                                                                                    Точно? Разве это плохо?
                                                                                              • +2
                                                                                                Что-то я не понял, как это в 50-процентном русско-белорусском переводе получился чистый украинский? :)

                                                                                                А про машинный перевод — очень хочется посмотреть, как оно будет игру слов переводить…
                                                                                                • +1
                                                                                                  Вот как легко можно скатиться в политоту))))))
                                                                                                  • +1
                                                                                                    Что самое интересное, благодаря универсальной базе смыслов всех человеческих слов нейросеть перевода может работать даже для тех языковых пар, на которых её не обучали. Возьмём пример на анимации. Система обучена для языковых пар «японский⇄английский» и «корейский⇄английский». После этого через универсальную составленную базу смыслов нейросеть сможет переводить также языковую пару «японский⇄корейский», хотя она не тренировалась на ней.

                                                                                                    Ситуация: нет пары «русский⇄белорусский», но есть пары «русский⇄украинский» и «украинский⇄белорусский». Судя по примеру, украинский используется в качестве связующего звена при переводе, но это немного некорректно.
                                                                                                    Более корректно примерно так: пара «русский⇄белорусский» напрямую не обучалась, но пары «русский⇄украинский» и «украинский⇄белорусский» обучались, и есть некий результат в виде «русский⇄универсальный язык⇄украинский», «украинский⇄универсальный язык⇄белорусский». Для получения перевода используется связка «русский⇄универсальный язык⇄белорусский», которую можно получить без обучения конкретной пары языков.
                                                                                                    • 0
                                                                                                      Ага, так понятно, а в статье как-то странно…
                                                                                                  • +1
                                                                                                    Она сможет освоить Ложбан и Ыфкуил? Ну хотя бы Токи Пона?
                                                                                                    • +2
                                                                                                      Мне кажется, что с Токи Поной как раз будут проблемы. Там же очень многое зависит от контекста. ona li jo e loje kili. — У него/неё есть яблоко/персик/гранат.
                                                                                                      • 0
                                                                                                        Да, в Токи Поне всё очень контекстуально. Зато какой потрясающе формализуемый синтаксис! Меня, как программиста, он в своё время очень порадовал, но практического применения я не нашел: не превращать же её в ещё один эзотерический язык программирования.
                                                                                                    • 0
                                                                                                      по моему кодирование смыслов не совсем корректно. Кто научится кодировать ассоциации вот ту да.
                                                                                                      Давайте рассмотрим слово ПЕЧКА

                                                                                                      ПЕЧКА — смысл — обогрев
                                                                                                      ПЕЧКА суть — преобразование энергии
                                                                                                      ПЕЧКА Ассоциации кирпичная печка (печка в машине)

                                                                                                      и так далее про ПЕЧКУ как способ выпекания
                                                                                                      и т.д. можно фантазировать

                                                                                                      • –2
                                                                                                        урааа теперь гугл будет думать за нас.
                                                                                                        так долго ждали этого, ага ждали
                                                                                                        следующий этап деградации, наступил
                                                                                                        • +2
                                                                                                          Одними из наиболее ярких предыдущих этапов деградации были приручение лошади, изобретение водопровода и механического вычислителя.
                                                                                                        • 0
                                                                                                          Интересно, а как смысловые оттенки стран перетекают из одного языка в другой?

                                                                                                          грубо говоря возможно ли что в одном языке будет упоминаться одна страна, а в переводе другая?
                                                                                                          • +4
                                                                                                            В реальности это встречается: take French leave = уйти по-английски, например.
                                                                                                            • +2
                                                                                                              Американские/Русские горки (wiki)
                                                                                                            • 0
                                                                                                              Еще интересней, можно ли сделать на таком же принципе трансляцию из одного языка программирования в другой или например в машинные коды? так как тут есть возможность проверять правильность результата и проверять оптимальность(время выполнения)

                                                                                                              медленно, но возможно ключевые участки будет иметь определенный смысл.
                                                                                                              • 0

                                                                                                                гугл легко переводит текст с картинок, попробуйте переводчик на смартфоне или планшете, заодно можно увидеть пульсацию нейросети, когда слово меняется.

                                                                                                                • 0
                                                                                                                  старое. детское. интересное

                                                                                                                  Ах, у ели, ах, у ёлки, ах, у ели злые волки

                                                                                                                  _____
                                                                                                                  Ah, fir, ah, at the trees, ah, evil wolves have eaten
                                                                                                                  • 0
                                                                                                                    Туда же — а вы уху ели? Когда гугл научится такое переводить без потерь, тогда живым переводчикам можно начинать беспокоиться :)
                                                                                                                    • 0
                                                                                                                      Никакой гугл не переведет:

                                                                                                                      Часово — жиркие товы.
                                                                                                                      И джикали, и джакали в исходе.
                                                                                                                      Все тенали бороговы.
                                                                                                                      И гуко свитали оводи.
                                                                                                                      или
                                                                                                                      Варкалось. Хливкие шорьки
                                                                                                                      Пырялись по наве,
                                                                                                                      И хрюкотали зелюки,
                                                                                                                      Как мюмзики в мове.


                                                                                                                      • 0
                                                                                                                        а человек?
                                                                                                                        https://s-media-cache-ak0.pinimg.com/originals/1a/60/e3/1a60e356d1afd88ec0f3e5f9bc2e2d01.jpg
                                                                                                                • +1
                                                                                                                  > известный российский маркетолог Андрей Себрант
                                                                                                                  :facepalm:
                                                                                                                  • 0
                                                                                                                    Тут попробовали. Фразы «Бога люблю» и «Божья любовь» он переводит одинаково на английский
                                                                                                                    • 0
                                                                                                                      А еще интереснее про капитана Деревянко…
                                                                                                                      А если на самом деле — то вот что непонятно. В распоряжении гугла же куча корректно сделанных переводов кучи классических текстов мировой литературы. Распарсить, поставить в соответствие — и уже с этим вполне можно делать неплохие переводы, кмк… Понятно, что не так просто — но должно работать…
                                                                                                                      • 0
                                                                                                                        Где-то я уже видел смысловые круги… А, «Прибытие». :)
                                                                                                                        • 0
                                                                                                                          Зашел, чтобы оставить этот комментарий.
                                                                                                                        • 0
                                                                                                                          Русско-беларусский перевод сделан через промежуточный украинский? Цікава! :)
                                                                                                                          • 0
                                                                                                                            Ну, с английского на беларусский он уже давно через русский переводит.
                                                                                                                            • –1
                                                                                                                              В том и дело. Я думал у них там русский — это как хаб для восточно-славянских языков, имеющий прямые переводы в другие восточно-славянские языки.
                                                                                                                              • 0
                                                                                                                                Русский, по-моему, плохо подходит для этой цели, он очень выбивается из остальных славянских языков. Посмотрите, например, слово «утро» на украинском, белорусском, чешском и других языках.
                                                                                                                                • 0
                                                                                                                                  Русский-польский переводит плохо в обоих направлениях, падежи почти не понимает.
                                                                                                                                  Читайте мой комментарий ниже
                                                                                                                            • 0
                                                                                                                              Еб я б ее б и еб…
                                                                                                                              Простите :)
                                                                                                                              • 0
                                                                                                                                Fuck I'd used her and fucked

                                                                                                                                Видимо уже научили… Коряво, правда
                                                                                                                              • 0
                                                                                                                                Программа не может оперировать смыслами на основе одного лишь текста без выявления тональности это текста. Алгоритм должен понимать, что хорошо/плохо для читающего/рассказывающего/стороннего. Без этого ни о каком смысле речи быть не может. Это просто продвинутый, но тот же статистический метод.
                                                                                                                                • 0
                                                                                                                                  А ведь можно было просто поставить серединкой эсперанто и он бы немного более дословно, чем надо переводил бы. Зато точно)
                                                                                                                                  • 0
                                                                                                                                    С чего бы это? Эсперанто в этом отношении ничем таким от натлангов не отличается, те же проблемы с переводом, неоднозначностью смыслов и прочим. Его единственное достоинство — регулярная грамматика — при текущем уровне NLP, не играет большой роли.
                                                                                                                                  • +1
                                                                                                                                    Всем выше: насколько я понимаю, сейчас нейросеть для перевода еще не используется.
                                                                                                                                    • 0
                                                                                                                                      https://translate.google.com/#ru/hr/петух
                                                                                                                                      Давно-о уже.
                                                                                                                                      Вот что значит использовать в качестве промежуточного языка самый для этого неприспособленный.
                                                                                                                                      • 0
                                                                                                                                        у него живет большой петух -> živi veliki penis
                                                                                                                                      • 0
                                                                                                                                        «Печка пряников.» переводит как «Oven cakes.»
                                                                                                                                        Но, если добавить слово «выпечка», вот так «Печка пряников. Выпечка.», то перевод стразу же исправляется «Baking gingerbread. Bakery products.»
                                                                                                                                        https://translate.google.com/#ru/hr/петух
                                                                                                                                        Давно-о уже.
                                                                                                                                        Вот что значит использовать в качестве промежуточного языка самый для этого неприспособленный.

                                                                                                                                        Добавь контекст «петух летит» и получишь более корректный перевод.
                                                                                                                                        • 0
                                                                                                                                          Ну-ну.
                                                                                                                                          «У него живет большой петух, петух летит, петух летает, петух поёт.» →
                                                                                                                                          «On živi veliki penis, penis leti, leti kurac, penis pjeva.»
                                                                                                                                          1 kurac из 4-х возможных. Запятые не зря, слова с заглавной буквы Гугл не понимает:
                                                                                                                                          «У него живет большой петух. Петух летит. Петух летает. Петух поёт.» →
                                                                                                                                          «On živi veliki penis. Cock muhe. Cock muhe. Rooster pjeva.»
                                                                                                                                          Английские слова знает, а как написать их с большой буквы в другом языке: увы! В просмотренных текстах как-то не оказалось…
                                                                                                                                        • +1
                                                                                                                                          вчера, после прочтения статьи, по дороге домой, посетила такая мысль
                                                                                                                                          а можно ли эту систему использовать для перефразирования готового текста:
                                                                                                                                          1. допустим я читают научную статью и не обладаю всеми знаниями, нажимаю волшебную кнопку и все непонятные слова, словосочетания, выражения переводятся в «нормальный» язык.
                                                                                                                                          2. или такое, скачал студент реферат из интернета, нажимает волшебную кнопку и весь реферат был перефразирован так что смысл остался тем же, а слова другие.
                                                                                                                                          3. толстая книга, на 900 страниц. читать нет ни времени ни желания. нажал волшебную кнопку и тут на 50 страницах, вкратце весь смысл. или наоборот. написал короткую заметку а нужна целая статья.
                                                                                                                                          • 0
                                                                                                                                            Эту систему нет, на данный момент она не работает со смыслом, а только с переводом отдельных слов, словосочетаний или фраз. В лучшем случае удастся решить первую задачу, но только при долгом обучении и переводить он будет все-равно весьма приблизительно.

                                                                                                                                            Вообще задача аннотирования или реферирования в машинном обучении существует уже лет 50, но считается что она требует сильного ИИI. Без способности работать со смыслом такие системы будут всегда переводить довольно грубо.
                                                                                                                                            • +1
                                                                                                                                              очень жаль.
                                                                                                                                              вот еще идеи на эту тему. к примеру переписать заданный текст словами Л.Толстого или Трахтенберга.
                                                                                                                                              ограничить словарный запас теми понятиями что были в восьмидесятых.
                                                                                                                                              текст для детей до 7 лет. или для гопников из Бутова.
                                                                                                                                          • 0
                                                                                                                                            Уточнение для всех спорщиков (и себя, отредактировать свой предыдущий камент я, увы, не могу):
                                                                                                                                            согласно https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/ с 15 ноября эта технология используется в Google Translate для восьми языковых пар: между английским и «French, German, Spanish, Portuguese, Chinese, Japanese, Korean and Turkish».
                                                                                                                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                                                              • 0
                                                                                                                                                Какая там нейронная сеть, он 2 слова связать правильно не может)
                                                                                                                                                К примеру как он переводит простые предложения:
                                                                                                                                                Он закроет окно. Он закроет окно?
                                                                                                                                                He closes the window. He will close the window?

                                                                                                                                                • 0
                                                                                                                                                  Кто он? Гугл переводчик для русского еще не на нейронках.

                                                                                                                                                  • 0
                                                                                                                                                    Переводчик) Та и для остальных пар языков видимо тоже не работают нейронные сети, я пробовал набрать текст, который указанный как пример в одной статье и результат остался таким как и был раньше.
                                                                                                                                                    • 0
                                                                                                                                                      К примеру текст на испанском
                                                                                                                                                      Uno no es lo que es por lo que escribe, sine por lo que ha leido.
                                                                                                                                                      он переводит на английский так
                                                                                                                                                      One is not what he is for what he writes, sine for what he has read.
                                                                                                                                                  • 0
                                                                                                                                                    Кстати майкрософт уже подключила к нейросети русский язык и перевод там действительно лучше, вот как переводит их переводчик:

                                                                                                                                                    Он закроет окно. Он закроет окно?
                                                                                                                                                    He'll close the window. Will he close the window?
                                                                                                                                                    • 0
                                                                                                                                                      Зря поднятый шум, как мне кажется.
                                                                                                                                                      1. Сами авторы в работе ничего про универсальный язык не утверждают. Пишут, что есть hints, early evidence и прочее. Если вчитаться в работу, они сами пока не очень поняли, с чем столкнулись, и пишут самое, на их взгляд, очевидное.
                                                                                                                                                      2. Качество перевода они оценивают по шкале BLEU, которая а) плохо работает на маленьких выборках, б) относительна сама по себе («how's your wife?» — «compared to what?»). И все приросты, указанные в таблицах — в пределах погрешности. То есть суждение авторов о качестве выполненных переводов как минимум неоднозначное.
                                                                                                                                                      К авторам претензий никаких: они, видимо, решают задачу дать хоть какое-то качество переводам на редкие языки, для которых все пары с общераспространенными языками, хоть тресни, не наработаешь. К чему тут разговоры о языке