Инфракрасная подсветка для OCR

    Как известно, Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире, то есть всё знание человечества. Однако в реальности этот процесс продвигается не так быстро, как хотелось бы. Самый трудный этап — нормальное распознавание текста. Для программы OCR нужно чёткое изображение страницы без искажений. Все строчки на странице должны быть идеально ровными. На практике же книгу невозможно прижать к сканеру (во многих случаях страницы книги вообще нельзя трогать). Как бы то ни было, возникают характерные искривления по краям страниц. С ними борются программными методами, с разной степенью успешности.

    Однако, компания Google придумала, как можно аппаратным способом помочь в решении этой проблемы. На прошлой неделе они получили патент на применение инфракрасных сенсоров при сканировании книг (патент США № 7508978). Суть идеи в том, что инфракрасная сетка позволяет составить трёхмерную модель искривления страницы, так что программа для выравнивания изображения получает чёткие координаты, как нужно преобразовать картинку.



    New Scientist
    Поделиться публикацией
    Похожие публикации
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама
    Комментарии 34
    • –10
      >> На практике же книгу невозможно прижать к сканеру

      Интересно — а фотографировать страницы не пробовали?
      • +3
        Имеется в виду, что книжный разворот у более-менее толстой книги в ровную плоскость (без порчи книги) превратить практически нереально. Фотографированием эту проблему не исправить.
        • –1
          Я имел ввиду, конечно, не целиком разворот снимать, а по одной странице, для этого книгу надо раскрыть только на 90 градусов а не 180, что еще безопаснее для книги.
          • 0
            если сканить только по половине книги — то кол-во работы тупо удвоится ты об этом думал?
            • 0
              а что делать? не все книжки создавались для ocr'а =)

              есть даже сканер, предназначенный для толстых книг / книг с хреновым переплетом — plustek opticbook 3600
              • +1
                Подумал. Лечится установкой двух фотоаппаратов под углом 90 градусов. Один снимает одну страницу, другой — другую :)

          • +1
            Как специалист по оцифровке редких книг говорю — есть специальные сканеры. Без стекла, с десятками приспособлений для комфортного размещения книги под объективом (принцип работы планарных сканеров очень похож на фотографирование) и для получения максимально лучшего изображения. Но! Никакие программные средства не позволяют удалить искажения изгибов страниц (от них даже механически избавиться зачастую нельзя — книгу невозможно выровнять. Часто приходится расшивать их постранично). При фотографировании сверху на форматах от А3 возникают искажения перспективного типа, и до сих пор нормального метода с ними бороться не придумано. Хоть вы десять фотоаппаратов разместите — не забудьте потом совместить картинку с них воедино!

            Что касается темы — получение модели искривления страницы это, несомненно, плюс. НО! При работе с редкими книгами зачастую запрещается попадание на них инфракрасного или ультрафиолетовго излучения. Зато технология может помочь с более новыми книгами.
          • –5
            Пусть ещё научатся в моск заливать инфу как в матрице:
            — Танк, Войну и мир, все тома. И так глазками заморгал-заморгал.
            • НЛО прилетело и опубликовало эту надпись здесь
              • 0
                Как вариант, для определения уникальности текстов на сайтах. Все сателлиты и говносайты, основанные на отсканированном варианте они смогут отбросить в один момент. Апдейт — 90% сателлитов в бане :)
                • НЛО прилетело и опубликовало эту надпись здесь
                  • 0
                    А кто сказал о всем тексте? Цитат тоже беспредельно вставлять нельзя, есть порог, после которого чрезмерное цитирование законодательно признается плагиатом. Но что очень много сайтов содержит полные версии или куски статей и книг — это даже сомнению не подлежит. Зайдите в форум на searchengines.ru, там для сканерщиков целые топики есть. И рерайтеры там тусят по полной. И сто пудов — на Западе уже давно и биржи и вообще, как направление бизнеса, это существует. Если учесть тот факт, что Гугл во всех странах кроме России и Китая — самая популярная поисковая система — линкоторговцы под нее явно не бедствуют и спрос рождает весьма неплохое предложение. Так что помощь в сохранении шедевров книгопечатания, помогающая убить кучу линкоферм, основанных на ворованном контенте — это весьма и весьма успешный выстрел по двум зайцам. А «депломы» — да, надо писать самому. 5% цитирования — это на самом деле очень даже немало… И если товарищ студент соизволит прочитать 10-20 книг по теме — думаю гугл будет не против.
                • 0
                  боюсь, что не все книги можно выкладывать в открый доступ, ввиду авторских прав и т.д.
                  Можно конечно подумать о том, чтобы за счет рекламы делать отчисления авторам.
                  • НЛО прилетело и опубликовало эту надпись здесь
                    • 0
                      кстати говоря у ластфм все не так хорошо с финансами, как хотелось бы
                  • 0
                    хочешь, читаешь, бля!
                      • 0
                        оффтоп — Вбейте «Достоевский» и посмотрите Идиота. Где они нашли такое издание?! Может это сценарий фильма?

                        по теме — Существует (имхо) прекрасный вакуумный сканер для книг, в т.ч. и старых фолиантов. ScanBot.

                        www.youtube.com/watch?v=y16rNqnxj0U

                        и не нужно тут больше ничего придумывать.
                        Другое дело, что гугль захотел «собственное» изобретение в портфель крутости, что вовсе не говорит, чем они будут сканировать книги. :)
                    • 0
                      Можно было б не до конца листочки переворачивать. Т.е. два листа, которые фотографируются, преподымаются и становятся под углом 45 градусов к друг другу. Снизу их поодерживают ровные пластинки. Только у каждого листочка тогда своя камера, так же под углами расставленные. Всё же копьютерная обработка ровно сфотографированного листа не всегда заменит.
                    • 0
                      Если будет все больше и больше безработных, то гугл наймет их для перепечатки книг — так дешевле будет :)
                      • 0
                        удивляет то, что гугл до сих пор не сделал свою recaptcha.net/
                        Хотя может придет время и они их просто купят.
                      • +4
                        Патенты — зло. Патентуют очевидные идеи. Проецирование сетки применяется регулярно, ничего нового они не придумали. Надеюсь, что патентом закрыта именно IR сетка и именно для ocr. А, скажем, лазерные остались открытыми.
                        • 0
                          лазерные не так удобны, т.к. цвет лазерной сетки может совпасть с цветом фрагментов изображения на странице. тут патентуется идея использования разных диапазонов электромагнитных волн для распознавания изображения и для распознавания сетки.

                          интересно, догадались ли они запатентовать, наоборот, инфракрасный диапазон для распознавания текста и обычный — для распознавания сетки.
                          • +2
                            Иногда очевидные вещи патентуют как раз для того, чтобы не запатентовали другие умники, которые сами идеей не пользуются, а просто требуют баснословные деньги за лицензию.
                          • +6
                            >Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире

                            — И что в этом плохого?
                            — Они хотят собрать всю информацию во вселенной и хранить её в сфере.
                            — Значит они стремятся к знаниям?
                            — Да.
                            — Подонки!

                            (С) Футурама, сезон 5, серия 8
                            • +4
                              — Они считают, что должны знать всё. Скоро так и будет.
                              — Я зол как никогда!
                              — Как только они заполучат всю информацию, то захотят сделать так, чтобы новые данные не появлялись и уничтожат всю вселенную!

                              :)
                            • +1
                              "...Google поставила перед собой отсканировать..." — мне кажется, тут пропущено слово «задачу» :)
                              • НЛО прилетело и опубликовало эту надпись здесь
                              • НЛО прилетело и опубликовало эту надпись здесь
                                • 0
                                  Этому методу в принципе черт знает сколько лет. И пользуются им для своих нужд все подряд. Похоже в США надо патентовать не только идеи, но и отдельно идеи относительно каждого из возможных применений.
                                • 0
                                  Было бы круто, если бы они придумали как отсканировать книгу, не открывая ее вообще )
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                    • 0
                                      «Не открывая вообще»-сканер существует. И находится он в Александрийской библиотеке. Работает по принципу рентгена или томографа, применяется для книге, которые нельзя открывать. Сканирует книгу насквозь, послойно — и вуаля, после доработки манускрипт можно увидеть и полистать на сенсорном мониторе.

                                      Но сколько он стоит — я представить боюсь. Ибо на оцифровке книг у нас в России пытаются зарабатывать просто _нереальные_ деньги, при этом ничего не делая. Система практически не развита, оборудование и ПО стоит дорого, очень дорого. И при этом зачастую такого качества, что я каждый раз благодарю небеса, что это не медецинское оборудование, и передо мной лишь книга, а не умирающий человек.

                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.