6 апреля 2009 в 19:20

Инфракрасная подсветка для OCR

Как известно, Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире, то есть всё знание человечества. Однако в реальности этот процесс продвигается не так быстро, как хотелось бы. Самый трудный этап — нормальное распознавание текста. Для программы OCR нужно чёткое изображение страницы без искажений. Все строчки на странице должны быть идеально ровными. На практике же книгу невозможно прижать к сканеру (во многих случаях страницы книги вообще нельзя трогать). Как бы то ни было, возникают характерные искривления по краям страниц. С ними борются программными методами, с разной степенью успешности.

Однако, компания Google придумала, как можно аппаратным способом помочь в решении этой проблемы. На прошлой неделе они получили патент на применение инфракрасных сенсоров при сканировании книг (патент США № 7508978). Суть идеи в том, что инфракрасная сетка позволяет составить трёхмерную модель искривления страницы, так что программа для выравнивания изображения получает чёткие координаты, как нужно преобразовать картинку.



New Scientist
Анатолий Ализар @alizar
карма
671,3
рейтинг 376,4
Редактор
Похожие публикации
Самое читаемое

Комментарии (34)

  • –10
    >> На практике же книгу невозможно прижать к сканеру

    Интересно — а фотографировать страницы не пробовали?
    • +3
      Имеется в виду, что книжный разворот у более-менее толстой книги в ровную плоскость (без порчи книги) превратить практически нереально. Фотографированием эту проблему не исправить.
      • –1
        Я имел ввиду, конечно, не целиком разворот снимать, а по одной странице, для этого книгу надо раскрыть только на 90 градусов а не 180, что еще безопаснее для книги.
        • 0
          если сканить только по половине книги — то кол-во работы тупо удвоится ты об этом думал?
          • 0
            а что делать? не все книжки создавались для ocr'а =)

            есть даже сканер, предназначенный для толстых книг / книг с хреновым переплетом — plustek opticbook 3600
          • +1
            Подумал. Лечится установкой двух фотоаппаратов под углом 90 градусов. Один снимает одну страницу, другой — другую :)

    • +1
      Как специалист по оцифровке редких книг говорю — есть специальные сканеры. Без стекла, с десятками приспособлений для комфортного размещения книги под объективом (принцип работы планарных сканеров очень похож на фотографирование) и для получения максимально лучшего изображения. Но! Никакие программные средства не позволяют удалить искажения изгибов страниц (от них даже механически избавиться зачастую нельзя — книгу невозможно выровнять. Часто приходится расшивать их постранично). При фотографировании сверху на форматах от А3 возникают искажения перспективного типа, и до сих пор нормального метода с ними бороться не придумано. Хоть вы десять фотоаппаратов разместите — не забудьте потом совместить картинку с них воедино!

      Что касается темы — получение модели искривления страницы это, несомненно, плюс. НО! При работе с редкими книгами зачастую запрещается попадание на них инфракрасного или ультрафиолетовго излучения. Зато технология может помочь с более новыми книгами.
  • –5
    Пусть ещё научатся в моск заливать инфу как в матрице:
    — Танк, Войну и мир, все тома. И так глазками заморгал-заморгал.
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Как вариант, для определения уникальности текстов на сайтах. Все сателлиты и говносайты, основанные на отсканированном варианте они смогут отбросить в один момент. Апдейт — 90% сателлитов в бане :)
      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          А кто сказал о всем тексте? Цитат тоже беспредельно вставлять нельзя, есть порог, после которого чрезмерное цитирование законодательно признается плагиатом. Но что очень много сайтов содержит полные версии или куски статей и книг — это даже сомнению не подлежит. Зайдите в форум на searchengines.ru, там для сканерщиков целые топики есть. И рерайтеры там тусят по полной. И сто пудов — на Западе уже давно и биржи и вообще, как направление бизнеса, это существует. Если учесть тот факт, что Гугл во всех странах кроме России и Китая — самая популярная поисковая система — линкоторговцы под нее явно не бедствуют и спрос рождает весьма неплохое предложение. Так что помощь в сохранении шедевров книгопечатания, помогающая убить кучу линкоферм, основанных на ворованном контенте — это весьма и весьма успешный выстрел по двум зайцам. А «депломы» — да, надо писать самому. 5% цитирования — это на самом деле очень даже немало… И если товарищ студент соизволит прочитать 10-20 книг по теме — думаю гугл будет не против.
    • 0
      боюсь, что не все книги можно выкладывать в открый доступ, ввиду авторских прав и т.д.
      Можно конечно подумать о том, чтобы за счет рекламы делать отчисления авторам.
      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          кстати говоря у ластфм все не так хорошо с финансами, как хотелось бы
    • 0
      хочешь, читаешь, бля!
    • 0
      • 0
        оффтоп — Вбейте «Достоевский» и посмотрите Идиота. Где они нашли такое издание?! Может это сценарий фильма?

        по теме — Существует (имхо) прекрасный вакуумный сканер для книг, в т.ч. и старых фолиантов. ScanBot.

        www.youtube.com/watch?v=y16rNqnxj0U

        и не нужно тут больше ничего придумывать.
        Другое дело, что гугль захотел «собственное» изобретение в портфель крутости, что вовсе не говорит, чем они будут сканировать книги. :)
  • 0
    Можно было б не до конца листочки переворачивать. Т.е. два листа, которые фотографируются, преподымаются и становятся под углом 45 градусов к друг другу. Снизу их поодерживают ровные пластинки. Только у каждого листочка тогда своя камера, так же под углами расставленные. Всё же копьютерная обработка ровно сфотографированного листа не всегда заменит.
    • 0
      Может 90?
  • 0
    Если будет все больше и больше безработных, то гугл наймет их для перепечатки книг — так дешевле будет :)
    • 0
      удивляет то, что гугл до сих пор не сделал свою recaptcha.net/
      Хотя может придет время и они их просто купят.
  • +4
    Патенты — зло. Патентуют очевидные идеи. Проецирование сетки применяется регулярно, ничего нового они не придумали. Надеюсь, что патентом закрыта именно IR сетка и именно для ocr. А, скажем, лазерные остались открытыми.
    • 0
      лазерные не так удобны, т.к. цвет лазерной сетки может совпасть с цветом фрагментов изображения на странице. тут патентуется идея использования разных диапазонов электромагнитных волн для распознавания изображения и для распознавания сетки.

      интересно, догадались ли они запатентовать, наоборот, инфракрасный диапазон для распознавания текста и обычный — для распознавания сетки.
    • +2
      Иногда очевидные вещи патентуют как раз для того, чтобы не запатентовали другие умники, которые сами идеей не пользуются, а просто требуют баснословные деньги за лицензию.
  • +6
    >Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире

    — И что в этом плохого?
    — Они хотят собрать всю информацию во вселенной и хранить её в сфере.
    — Значит они стремятся к знаниям?
    — Да.
    — Подонки!

    (С) Футурама, сезон 5, серия 8
    • +4
      — Они считают, что должны знать всё. Скоро так и будет.
      — Я зол как никогда!
      — Как только они заполучат всю информацию, то захотят сделать так, чтобы новые данные не появлялись и уничтожат всю вселенную!

      :)
  • +1
    "...Google поставила перед собой отсканировать..." — мне кажется, тут пропущено слово «задачу» :)
    • НЛО прилетело и опубликовало эту надпись здесь
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Этому методу в принципе черт знает сколько лет. И пользуются им для своих нужд все подряд. Похоже в США надо патентовать не только идеи, но и отдельно идеи относительно каждого из возможных применений.
  • 0
    Было бы круто, если бы они придумали как отсканировать книгу, не открывая ее вообще )
    • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        «Не открывая вообще»-сканер существует. И находится он в Александрийской библиотеке. Работает по принципу рентгена или томографа, применяется для книге, которые нельзя открывать. Сканирует книгу насквозь, послойно — и вуаля, после доработки манускрипт можно увидеть и полистать на сенсорном мониторе.

        Но сколько он стоит — я представить боюсь. Ибо на оцифровке книг у нас в России пытаются зарабатывать просто _нереальные_ деньги, при этом ничего не делая. Система практически не развита, оборудование и ПО стоит дорого, очень дорого. И при этом зачастую такого качества, что я каждый раз благодарю небеса, что это не медецинское оборудование, и передо мной лишь книга, а не умирающий человек.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.