Оцифровка бумажных документов

В статье идет речь об особенностях различных моделей сканеров, а также затрагивается вопрос изготовления сканеров своими руками.

Оговоримся сразу: нас будет интересовать быстрая оцифровка книг и журналов в домашних условиях. Существует два основных способа сделать это: купить готовое устройство (планшетный книжный сканер) или купить полуфабрикаты, приложить немного усилий (умственных и физических) и получить некое подобие профессиональных решений.

Планшетный книжный сканер.

Рис.1. Книжный сканер OpticBook 3600 (http://www.plustek.ru/)

К достоинствам планшетных сканеров относят:

  1. Высокое качество цветопередачи.
  2. Высокая разрешающая способность.
  3. Отсутствие искажений для плоских и плотно прижатых документов.

Недостатки вытекают из достоинств, т.к. для получения изображения используется CCD (Charge Coupled Device) или CIS (Contact Image Sensor). Это, линейка свето-чувствительных сенсоров, которую механическим способом необходимо протягивать вдоль оригинала.

Рис.2. Линейный датчик: маленький, компактный, дешевый. Используется в планшетных сканерах. Рис.3. Полноформатный датчик. Это матрица светочувствительных элементов. Используется в цифровых фотоаппаратах.

 

Для указанного выше сканера OpticBook 3600 одна страница сканируется за 7 сек. для разрешения 300dpi в цвете  и без учета времени возврата каретки в исходное состояние. Размер области сканирования всего 216 на 297 мм (А4), цена более 8500 руб. на октябрь 2008г. Многовато будет, просто для того чтобы «медленно» сканировать книги. Другое дело - цифровой фотоаппарат. Теперь его наличие дома - просто необходимость. А раз нам все равно нужен фотоаппарат, то не попробовать ли нам сделать из него цифровой сканер книг? Правда тогда фотоаппарат должен обладать оптическим зумом, разрешением не мение 10 Мегапикселов и функцией макросъемки. Основное достоинство цифрового фотоаппарата — практически мгновенное сканирование (1-2 сек). Т.е. скорость оцифровки приблизительно равна максимальной скорости ручного перелистывания книги. Мечта однако! : ). Понимая перспективность такого способа сканирования, многие фирмы выпустили профессиональные решения на основе цифровых фотоаппаратов. Особое место среди них занимают сканеры Kirtas (http://www.i2s-digibook.com/). 2400 страниц в час умеют сканировать их APT BookScan 2400 Gold. Страницы переворачивает сам сканер с помощью «механической руки».

Рис.4. Центр сканирования фирмы Kirtas.

Рис.5. APT BookScan 2400 Gold. Ничего особенного! И стоит каких то 200 000 долларов.

Шутка, конечно! APT BookScan 2400 Gold - это наш идеал, созданный Kirtas в содружестве с исследовательским центром Xerox PARC. Приведем краткие характеристики и особенности:

Теперь посчитаем сколько тратит время  APT BookScan 2400 Gold на сканирование одной страницы. 3600сек. разделить на 2400стр.  = 1.5 секунды на 1 страницу. Честно скажу, я могу листать книгу практически  с такой же скоростью, если она предварительно закреплена. Тогда вопрос: «За что же надо платить более 200000 долларов?» Ответ очевиден: за промышленное решение, а наличие такого ресурса как http://books.google.com/, тому наглядное подтверждение. Из решений попроще, посмотрим на книжные сканеры фирмы Atiz  и Элар.

Рис.6. ATIZ BookSnap (цена более 213000 руб.). Рис.7. ATIZ BookSnap с чехлом для защиты от засветки.

 

Рис.8. Сканер Элар ПланСкан серия А .
Рис.9. Сканер Элар ПланСкан серия С.(Средняя производительность по данным производителя 250-300 сканов в час)
Рис.10. Сканер Элар ПланСкан Репро.

Сканеры ATIZ работать без прижимного стекла не могут, т.к. оно является выравнивающим. Именно благодаря выравнивающему V - образному стеклу и подвижной нижней книжной колыбели, происходит выравнивание листов и фиксация центра книги строго в одной и той же плоскости.

Рис.11. V-образное стекло поднято, страницы под действием внутреннего напряжения переплета книги деформированы. Рис.12. V-образное стекло опущено, страницы плотно прижаты к стеклу и выпрямлены. Все же, хорошо заметно, что книга имеет еще возможность самопроизвольно перемещаться вдоль  V-образной книжной колыбели, когда стекло поднято и оператор перелистывает страницы.
Рис.13. V-образное стекло и нижняя подвижная колыбель заставляют находиться центр разворота книги  в одном и том же месте. Однако, в точке стыка двух стекол  есть небольшая «мертвая зона», изображение под которой будет утеряно.

Сканеры от Элар могут работать и без стекла, но тогда чем они отличаются от штатива с закрепленным на нем цифровым фотоаппаратом? :)

Рис.14. Штатив с цифровым фотоаппаратом.

Отличие, конечно, существует. У них высокая цена и есть книжная колыбель. А это очень важно для получения цифрового изображения книги с минимальными искажениями. Именно книжная колыбель и прижимное стекло обеспечивают условия, когда  обе страницы одного разворота книги будут находиться на одной геометрической плоскости. Конструкцию и принцип работы сканера ATIZ BookSnap в домашних условиях воспроизвести довольно сложно, а вот что-то типа планетарного сканера от Элара  с прижимным стеклом, вполне реально.
 

Сформулируем основные задачи, которые должна решить конструкция нашего домашнего планетарного сканера:

Основной трудностью при реализации домашнего сканера будет разработка нашего  варианта книжной колыбели. Свою конструкцию я назвал«книжная кроватка». Это два листа фанеры, которые лежат на нижней полке на поролоновых подушках. Благодаря упругости поролона разворот книги будет достаточно плотно прижиматься к стеклу.

Исходные материалы (цены указаны по состоянию на март 2008г.):

Стекло, провода, сетевые вилки и ткань уже были в наличие. Из инструментов мне понадобились: дрель, электро-лобзик, отвертка.  Результат представлен ниже.

Рис.15. Наш «ПланСканХоум», собранный из реек и уголков. Полог из черной ткани обязателен для исключения бликов на прижимном стекле. Рис.16. Обратите внимание на конструкцию «книжной кроватки». На нижней полке на поролоне  лежат две фанерки, которые благодаря поролоновым подушкам и прижимают книгу к стеклу.
Рис.17. Проушины нужны для исключения продольного и поперечного смещения. Рис.18. Сзади на рейках весит полог из белой ткани и двумя основными источниками света.
Рис.19. Использую USB удлинитель для того что бы постоянно не втыкать кабель в фотоаппарат и ноутбук. Рис.20. Кроватка для крепления фотоаппарата. Проволокой фиксирую USB кабель и провод от блока питания.

Рис.21. Фотоаппарат устойчиво закреплен, его плоскость можно выровнять подкладывая под углы кроватки полоски  бумаги или фольги. Рис.22. Прижимное стекло опущено и разворот книги  выровнен в плоскости стекла. Поверхность «книжной кроватки» задекорирована черной матовой тканью (строго обязательно ).

Рис.23. Тонкая стальная пластина прижимает обложку книги к поверхности книжной кроватки, сама пластина фиксируется двумя полосками фанеры, прижатыми «щекой», затянутой болтом с винтом-барашком.
Рис.24. Боковое освещение носит вспомогательный характер. Обязательно используйте однотипные источники света. Выбирайте правильно или настраивайте Рис.25. Такая конструкция «книжной кроватки» без труда справляется с книгами толщиной до 3 см. (со сменой толщины поролоновых подушек до 6 см).

Перед сканированием книга должна быть выровнена и жестко зафиксирована. Это очень важно! Фиксация книги и ее выравнивание позволяют избавится или свести к миниму очень трудоемкие операции постобработки. Кусочком сухого мыла нанес на черную ткань «книжной кроватки» реперные метки для книг примерно одного формата. Такие метки позволяют визуально контролировать положение книги. Когда сканирование доходит до половины толщины книги, крепление книги переношу с правой половины «книжной кроватки» на левую. Само сканирование идет очень быстро: правой рукой приподнимаю стекло, левой переворачиваю страницу, правую руку со стеклом опускаю, а в это время поднимаю левую и нажимаю на фотоаппарате кнопку спуска. 3-4 сек. вполне хватает на разворот. Правда, через несколько часов начинаешь ощущать себя роботом. :) . Средняя производительность зависит от многих факторов, однако более 350 сканов в час (700 страниц в час) вместе с операциями закрепления книги и переноса сканов из фотоаппарата в компьютер не получается.

Для обрезки не нужных краев сканов разворота книги использую популярный СканКромсатор вер. 5.9. Потом с помощью Lizardtech Document Express Enterprise графические файлы кодирую в формат djvu. Опции кодирования выбираю в зависимости от содержания иллюстративного материала книги. DjvuOCR 2.4 и ABBYYR FineReader Версии 9.0 использую для  получения и внедрения OCR слоя в книгу. Обзор  djvu программ хорошо представлен здесь.

Итоги.

10 мегапикселов моего фотоаппарата маловато для сканирования книг большого формата. К сожалению, нельзя точно сказать, сколько мегапикселов необходимо. Все зависит от связки оптика + матрица. По моим оценкам надо от 18 до 32 Мп, чтобы на все случаи жизни хватило. Книги малого и среднего формата, которые не содержат фотографических иллюстраций и сохраняются только в черно-белом варианте, получаются хорошо. Главное, не надо слишком сильно приближать изображение книги к краям кадра. На краях обязательно появятся искажения. Лучше использовать не всю матрицу и понизить  разрешение, чем получить искажения на краях. Если книга или журнал имеет глянцевую поверхность, придется организовывать рассеянное  диффузное освещение. Опыт показал, что неплохих результатов можно добиться, если использовать обычные тонкие  белые полиэтиленовые пакеты без рисунка. Разрежем их и повесим между книгой и источниками света. Пакеты должны как бы сами начать светиться всей своей поверхностью. Главное, постараться размыть точечные источники света! Интересно, как эта проблема решена в сканерах APT BookScan 2400 Gold. Хорошо видно, что у них два мощных источника света по бокам и малейшее искривление листа глянцевой бумаги будет давать блики на линии изгиба.

Сканер использует два мощных направленных источника света. Скорее всего, он не сможет качественно сканировать книгу  с «бликующей»  глянцевой бумагой. Оператор внимательно наблюдает за ходом и результатом сканирования. Это значит, что полной автоматизации процесса сканирования добиться не удалось, иначе один бы человек ходил между сканерами и «заправлял их книгами».

Не до конца для меня остался решенным  вопрос удобного и надежного крепления книги. Самым перспективным считаю использование «лип». На левую и правую части книжной кроватки надо приклеить (пришить) полоски из одной половинки «липы» так, что бы они образовали сплошной коврик. Для книг с твердым переплетом из ткани сшить «безразмерную обложку», где с обратной стороны приклеить или пришить вторую половину «лип». Для книг с мягким переплетом  в нашу «безразмерную обложку» с липами надо будет вставлять твердый листок картона. Буду пробовать! Пожалуй, самая большая ошибка допущенная мной в конструкции моего ПланСканХоума - это невозможность быстрой его сборки и разборки. Хотя, все соединения на болтах, общее время разборки и сборки составляет более 50 мин.

 

Яндекс.Метрика
+7 (812) 309-78-59 | +7 (495) 223-46-76 | scan@atiz.ru
ООО "Алее Софтвер" © 2017