Прогнозирование химических реакций с использованием алгоритмов машинного перевода



    Согласно исследованию, опубликованному исследователями IBM Research (1), предсказание химических реакций можно заметно улучшить, рассматривая химическую реакцию как проблему перевода.

    Идея использования вычислительных машин для облегчения работы химиков далеко не нова. Уже в далеком 1969 году Кори и Випке [1] продемонстрировали, что планирование синтеза и ретросинтеза (обратная задача, когда известен продукт, но неизвестен простой и дешевый метод синтеза) могут быть выполнены машиной. (2)

    С появлением новых технологий машинного обучения возможно более качественное предсказание результатов химических превращений. В последние годы широко изучались методы прогнозирования на основе шаблонов реакций. Например, Сеглер и Валлер недавно представили нейросимволический подход (3). Они извлекли правила для реакций из коммерческой базы данных Reaxys. Затем они обучили нейронную сеть «молекулярными отпечатками реакций» для определения приоритетов правил и объединили сеть с методом Монте-Карло для поиска дерева (4), чтобы преодолеть проблемы масштабируемости других методов основанных на шаблонах.

    Для обхода ограничений подходов основанных на шаблонах и дальнейшего развития методов машинного предсказания реакций в 2012 году появился первый подход прогнозирования без использования шаблонов реакций (5). Исследователями из IBM был использован метод не основанный на шаблонах с использованием моделей Seq2seq для прогнозирования и ретросинтеза органических реакций. Схожий подход недавно опубликован Нам и Ким (6), которые также использовали не-шаблонные seq2seq модели. Их вариант была основана на модели перевода Tensorflow (v0.10.10.0) (7), из которого они взяли значения по умолчанию для большинства гиперпараметров.


    Интерфейс системы «Found in Translation» (7) от исследователей в IBM Research

    Язык химических формул — это язык, которым люди описывают химические превращения и процессы, происходящие в окружающем мире. Язык, изобретенный людьми, может обрабатываться с использованием алгоритмов, аналогичных алгоритмам перевода. Используя эту гипотезу, исследователи из IBM приводили химические соединения в представление SMILES и предложили новый способ токенизации, который произвольно расширяем с новой реакционной информацией. Далее систему обучали наборами данных (источник — патентная база данных реакций), содержащим 395 тысяч химических реакций с использованием нейронной сети, часто используемой в машинном переводе. В статье (1) заявляется 80% точность прогнозирования без использования вспомогательных данных, таких как шаблонов реакции. Точность на 6 пунктов лучше других прогностических моделей. Кроме того, для больших и более шумных наборов данных достигается точность в 65.4%.

    Авторы надеются, что этот метод ускорит исследования, такие как разработка лекарств, и рассчитывают открыть онлайн-доступ к системе в 2018 году (8).

    Интервью:



    Ссылки:
    1. Schwaller P, Gaudin T, Lanyi D, Bekas C, Laino T. “Found in Translation”: Predicting Outcomes of Complex Organic Chemistry Reactions using Neural Sequence-to-Sequence Models. ArXiv171104810 Cs Stat [Internet]. 2017 Nov 13 [cited 2017 Dec 14]; Available from: arxiv.org/abs/1711.04810
    2. Corey EJ, Wipke WT. Computer-Assisted Design of Complex Organic Syntheses. Science. 1969;166(3902):178–92.
    3. Segler MHS, Waller MP. Neural-Symbolic Machine Learning for Retrosynthesis and Reaction Prediction. Chem – Eur J. 2017 May 2;23(25):5966–71.
    4. Метод Монте-Карло для поиска в дереве [Internet]. [cited 2017 Dec 14]. Available from: habrahabr.ru/post/282522
    5. Kayala MA, Baldi P. ReactionPredictor: Prediction of Complex Chemical Reactions at the Mechanistic Level Using Machine Learning. J Chem Inf Model. 2012 Oct 22;52(10):2526–40.
    6. Nam J, Kim J. Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions. ArXiv161209529 Cs [Internet]. 2016 Dec 29 [cited 2017 Dec 14]; Available from: arxiv.org/abs/1612.09529
    7. Found in Translation: Neural Networks Predict Outcomes in Chemistry [Internet]. IBM Blog Research. 2017 [cited 2017 Dec 14]. Available from: www.ibm.comhttps://www.ibm.com/blogs/research/2017/12/neural-networks-organic-chemistry/
    8. IBM Research — Zurich, Found in Translation chemistry app [Internet]. 2017 [cited 2017 Dec 14]. Available from: www.zurich.ibm.com/foundintranslation
    Поделиться публикацией
    Никаких подозрительных скриптов, только релевантные баннеры. Не релевантные? Пиши на: adv@tmtm.ru с темой «Полундра»

    Зачем оно вам?
    Реклама
    Комментарии 7
    • 0
      Прогнозирование химических реакций с использованием алгоритмов перевода предложено исследователями из IBM Research


      «Языки с базовым порядком OVS: Всемирный атлас языковых структур насчитывает 11 языков с базовым порядком OVS. К ним относятся, в том числе, языки хишкарьяна (Бразилия), шингу-асурини (Бразилия), кубео (Колумбия), мангарайи (Австралия) и др.» /Ru.Wikipedia/

      Плюс язык SEO.
      • 0
        :) Предложите вариант лучше. Я не Чехов, ни разу. Хотел как отразить всю суть в заголовке, но не вышло.
        Деньги за переводы не беру, мимо. Новость интересная, вот и все. Сложность предсказаний в том, что реакции можно проводить в очень различных условиях (растворитель, температура, концентрация, метод смешения, катализаторы и т.п.). Опыт химика — это очень круто, но обычно специализация не позволяет легко переходить с одной узкой темы на другую (даже когда переход общая неорганика-органика, люди не могут с нужной легкостью вспомнить химию процесса). Кроме того есть проблема с воспроизводимостью результатов (у химиков она не так сильно выражена, но она присутсвует). Машинное обучение возможно упростит некоторые аспекты работы.
        Вот про язык SEO действительно интересно узнать. Расскажите?
        • +2
          Это как раз элементарно.
          В целом правило (было) таково — уместить ключевые слова в первой трети текста.
          Ключевые слова, то есть характерные для конкретного текста, чаще оформляются как «дополнение». Потому, что, например, «исследователи предложили» не является уникальным словосочетанием. Так что берёте это правило и накладываете на самый короткий текст — то есть заголовок.
          В результате чего естественный для русского порядок SVO (подлежащее-сказуемое-дополнение) превращается в приятный для поисковых систем, но чуждый для русского слуха заголовок типа OVS («прогнозирование предложено исследователями»).
          Не уверен в фактической ценности такой рекомендации нынче. Всё-таки, заголовок имеет мизерный объём и нормально индексируется поисковиками. Но копирайтеры злоупотребляют этим и сегодня. А у нации уши набекрень и ощущение, что это и есть способ правильно выражаться на письме.
          Впрочем, я не специалист SEO, глубже рассказывать не претендую.
          «Сколько нужно сеошников, чтобы вкрутить лампочку лампы накаливания осветительные приборы монтаж»
          • +1
            Выглядит разумно. Жалко, что используется для SEO.
            Если честно, то что вы описали подходит под любые научные статьи: 1. заголовок должен отражать проделанную работу; 2. В резюме (abstract, под заголовком) вкратце про всю работу (иногда почти полностью повторяет заголовок). Еще есть вывод, который тоже часто повторяет заголовок и резюме.
            К сожалению, не часто получается читать/говорить, а тем более писать по-русски. Все материалы на английском. Наверное нужно больше практики вводить. Спасибо!
          • 0
            Интересно, что обратный переход, т.е. органика-> другая химия имеет гораздо меньший потенциальный барьер :)
          • 0
            Еще много разговоров про молекулярные принтеры, здесь машинное обучение тоже может помочь.
          • +1
            Идея использования вычислительных машин для облегчения работы химиков далеко не нова.
            Как здорово придумать целой науке в которой ничего не понимаешь задачу и успешно облегчить ее решение с помощью ИСКУССТВЕННОГО ИНТЕЛЛЕКТА! Хорошая иллюстрация общего состояния проблематики ИИ. Предсказанием хода реакций не сложных органических веществ занимается от силы 10% химиков. И они справляются почти на 100% со своей задачей. А еще для горе искуственно-интеллектуальных горе-изобретателей моджет стать большим открытием, что реакций то в смеси может проходить десяток и каждая со своим продуктом. И что при разных условиях могут проходить разные реакции. Но хайпу то тут конец и придет. Хайп подразумевает быстрое и легкое решение (облегчение непосильного труда) ранее неразрешимых задач.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.