Редактор Geektimes
94,6
рейтинг
10 ноября 2015 в 22:53

Оцифровка всемирного книжного наследия с помощью смартфонов

На планете более двух с половиной миллиардов пользователей смартфонов. Если бы каждый из них оцифровал хотя бы одну книгу, нам бы понадобился всего один день для всех когда-либо написанных произведений. Калев Литару, специалист по системам обработки данных с двадцатилетним стажем, предлагает новый способ оцифровки книг на основе краудсорсинга и обычных смартфонов.

image

В январе 2015 года пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. Тогда выгорело 2000 квадратных метров и обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. По словам директора библиотеки Юрия Пивоварова, деньги на оцифровку почти не выделялись. Проблема полной оцифровки книг, документов, рукописей не решена в глобальном масштабе, хотя существуют проекты, которые этим занимаются, и сами библиотеки в России и других странах пытаются перевести имеющиеся экземпляры в цифровой вид.

Для оцифровки книг используют громоздкие сканеры стоимостью от десяти тысяч долларов. За этими сканерами работают профессиональные операторы, время которых стоит денег. Операторы переворачивают страницы книги, а сканер фотографирует одновременно две страницы. Скорость работы обычно составляет до пятисот страниц в час, то есть за час работник отсканирует одну-две книги.

Калев Литару предлагает призвать на помощь энтузиастов со всего мира с их смартфонами. В качестве примера эффективности краудсорсинга он рассказывает о проекте eBird, который отслеживает миграции птиц. В этом проекте за тринадцать лет работали более ста тысяч волонтёров, что позволило зафиксировать 275 миллионов наблюдений из 2,87 миллионов уникальных локаций. Сейчас у людей на планете 2,6 миллиардов смартфонов, к 2020 году их количество вырастет до 6,1 миллиардов, в том числе за счёт развивающихся стран.

image
Сотрудники российской компании «Элар» работают над оцифровкой книг

Литару предлагает разделить проект на две части. На первом этапе нужно составить список книг, подлежащих оцифровке. Для этого используют каталог WorldCat и другие инструменты: в первоначальный список войдут все книги, которые есть в библиотеках и которые не были оцифрованы. Из этого списка исключат хрупкие экземпляры и те книги, которые находятся под защитой авторских прав. Составление списка может быть частично отдано на краудсорсинг — библиотеки будут публиковать список книг, статус которых в отношении защиты копирайтом неизвестен, а волонтёры будут проверять первые страницы книг и отправлять библиотекам эту информацию.

Один только первый этап позволит понять, каков процент оцифрованных книг в мире. По собственным данным Google, компания в рамках проекта Ngram оцифровала 6% всех опубликованных книг, но точный их список неизвестен.

После составления полного списка неоцифрованных произведений начинается основная краудсорсинговая часть проекта. Волонтёры будут приходить в библиотеку, брать книгу, доставать смартфон и фотографировать обложку. Система оптического распознавания символов наподобие той, что использует Google, определит автора и название книги и сравнит с имеющимся на сервере списком, после чего сообщит о необходимости оцифровать экземпляр или о том, что эта работу уже проведена. Если книга подлежит переводу в цифровой вид, волонтёр сфотографирует первые несколько страниц: на этом этапе система должна определить, насколько качественные получаются фотографии, всё ли хорошо со светом, можно ли распознать символы, не слишком ли у фотографа трясутся руки. Затем пользователь получает команду продолжить работу или взять другую книгу.

Литару провёл несколько тестов и выяснил, что таким образом один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу. Сам он в 2004 году для дипломной работы вручную оцифровал тридцать тысяч страниц материалов из более чем семисот документов, используя обычную цифровую камеру и дешёвую настольную лампу. Большую часть этой работы Литару выполнил в течение пятнадцати часов в один из выходных дней.

Изображения со смартфонов не будут того же качества, которое достигается с помощью профессиональной техники. Но их будет достаточно для чтения, а система оптического распознавания символов сделает текст доступным для поиска. Эти страницы были сфотографированы десять лет назад, а сегодня смартфоны имеют более качественные камеры и светодиодные вспышки.

Библиотеки могут позволить волонтёрам использовать имеющиеся в учреждении сканеры документов для этой работы. Все результаты будут отправлены на центральный сервер проекта, где будут переведены в PDF и другие форматы для чтения электронных книг, и где текст будет обработан и доступен для поиска.

В процесс оцифровки можно включить фактор геймификации. Волонтёры будут получать очки за оцифрованные произведения, а организации смогут устраивать «дни оцифровки» и дарить подарки лучшим участникам проекта. В работу смогут включиться даже школьники. Библиотеки будут получать отзывы от пользователей о наличии плохо оцифрованных страниц. Волонтёры станут кем-то вроде редакторов Википедии, а библиотеки будут координировать их работу.

Википедия и другие краудсорсинговые проекты показали свою эффективность. И краудсорсинг может вновь показать свою эффективность в оцифровке книжного наследия, уверен Калев Литару. Вместо селфи и фотографий еды в Instagram пользователи двух с половиной миллиардов смартфонов могут помочь сохранить множество произведений и создать огромную базу из всех когда-либо опубликованных книг, чтобы оставить её нашим потомкам.
Иван Сычев @ivansychev
карма
62,7
рейтинг 94,6
Редактор Geektimes
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (16)

  • –9
    А имеет ли смысл оцифровывать все существующие книги в публичном доступе? Не думаю, что потомки смогут все изучить, особенно что касается художественной литературы. А еще нужно учесть, что количество информации и так быстро увеличивается.
    • +12
      А имеет ли смысл заниматься наукой? Не думаю, что потомки смогут все изучить, особенно что касается геномных данных. А еще нужно учесть, что количество информации и так быстро увеличивается.
      • –7
        Практически все научные знания уже и так перенесены в цифровой вид, а в художественной литературе много избыточной информации. Сейчас то уже за одну жизнь не возможно прочесть все книги. Но в чем-то вы правы: потомки все меньше и меньше будут заниматься изучением всех деталей из-за их возрастающего количества, и все больше задач будет выполнять компьютер. А кто же будет читать всю художественную литературу? Роботы?
        • +10
          Всё правильно — художественная литература не нужна, иди мешай бетон.
          • –6
            Не говори что мне делать, и я не скажу куда тебе идти.
  • +6
    Копирасты же заклюют.
    Прежде чем оцифровывать книги, нужен проект глобальной пиринговой библиотеки, не привязанной к каким-либо сайтам, трекерам и т.п., куда все это можно было бы складывать, сортировать и обрабатывать. А такого проекта пока нет, к сожалению.
    • +1
      Google вроде отбились от них
      • +2
        Это не надолго. С новыми законами (вроде транстихоокеанского партнерства) копирайт станет сильнее и копирасты получат больше инструментов и возможностей душить любые инициативы, которые не приносят им прибыли.
    • 0
      Из этого списка исключат хрупкие экземпляры и те книги, которые находятся под защитой авторских прав.

      Я так понимаю это как раз для них и предназначено.
      • 0
        Так это получается, что почти ничего не остаётся. С другой стороны, можно в порядке личной инициативы сканировать то, что защищено авторским правом.
  • +6
    Это как?
    сканеры стоимостью от десяти тысяч долларов… профессиональные операторы,… Скорость работы обычно составляет до пятисот страниц в час,

    и тут внезапно
    смартфона… не слишком ли у фотографа трясутся руки. один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу


    • +1
      за пять-десять минут оцифровать 600-страничную

      Это 0.5 — 1 секунда на страницу. Да, это какой-то весьма приноровившийся пользователь.

      И 500 страниц в час тоже не рекорд. Вот первый нагугленый 200 страниц в минуту выдает
  • +6
    Михалков и Ко предпочтут, что бы все сгорело просто так, если никто за такое фотографирование бабла не отвалит, наверняка.
    • 0
      До Михалкова и Ко это даже и не дойдёт. Боюсь, что в этой стране инициатива останется только на страницах ГТ…
  • +1
    Так-то дело благое, только к книгам, копирайт на которые уже истек, просто так кого попало со смартфонами не пускают (и дело даже не в читательском билете), а с остальными книгами все упрется в копирайт. Впрочем, видел самописные варианты, когда книга в электронном виде «взятая почитать» блокировалась для чтения другими. Но это костыль, атавизм.
  • –2
    Это очень «удобно», когда горят старинные документы.
    Вдруг в них кто-нибудь найдет что-то, что не соответствует официальной версии истории…

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.