Поточное сканирование документов как сделать

Обновлено: 03.07.2024

Поточное сканирование документов, сканирование анкет — один из способов быстрой обработки результатов анкетирования широкого круга респондентов.

Содержание

Этапы процесса

Сканирование бумажных документов

Эффективность данного этапа определяется в большей степени качеством используемого оборудования.

Современные поточные сканеры оснащены системой автоматической подачи документов, что позволяет сократить ручной труд и достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.

Распознавание информации

На этапе распознавания используются программные OCR компоненты. Качество результирующих записей зависит от степени готовности анкеты к машинному чтению и тщательности предварительной настройки программного обеспечения.

Верификация данных

Производится автоматическая верификация полученных после распознавания данных. Наиболее частые проверки — проверка на ожидаемый тип данных (число/чекбокс/строка), проверка на присутствие значений. Все проблемные места, отмеченные на данном этапе маркируются для передачи на стадию коррекции.

Коррекция данных

Экспорт данных

Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов анкетирования.

Производительность систем ввода анкет

На этапах сканирования и распознавания анкет важную роль играет применяемая техника. Использование профессиональных промышленных сканеров и мощных станций распознавания позволит добиться максимальной скорости оцифровки (около 96000 анкет за 1 рабочий день для 1 сканера). Узким местом на пути получения готовой базы данных является этап коррекции данных. Для обеспечения минимального количества ошибок операторы вручную обрабатывают информацию помеченную на этапе верификации данных. Процедура занимает много времени и требует серьёзного специализированного обучения сотрудников.

Оцифровка книг • Поточное сканирование документов

Wikimedia Foundation . 2010 .

Полезное

Смотреть что такое "Поточное сканирование документов" в других словарях:

Оцифровка книг — Сверхпроизводительный сканер APT BookScan Оцифровка книг это процесс перевода бумажных книг в электронны … Википедия

Система электронного архива — Возможно, эта статья содержит оригинальное исследование. Добавьте ссылки на источники, в противном случае она может быть выставлена на удаление. Дополнительные сведения могут быть на странице обсуждения. Э … Википедия

Adobe Acrobat — Тип Редактор PDF Разработчик Adobe S … Википедия

Сканер изображений — У этого термина существуют и другие значения, см. Сканер. Сканер (ан … Википедия

Планетарный сканер — Планетарный сканер (англ. planetary scanner) разновидность сканера изображений, использующийся для бесконтактного сканирования книг и сброшюрованных документов. Планетарные сканеры широко используются для оцифровки оригиналов,… … Википедия

Оптическое распознавание символов — (англ. optical character recognition, OCR) механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные последовательность кодов, использующихся для представления символов в… … Википедия

Лазерный принтер — 1993 Apple LaserWriter Pro 630 … Википедия

Colortrac — Эту статью следует викифицировать. Пожалуйста, оформите её согласно правилам оформления статей … Википедия

XSane — XSane … Википедия

Ручной сканер — Ручные сканеры устройства, сканирование которыми производится путем проведения по обрабатываемому тексту или изображению. Термин возник с появлением первых монохромных портативных сканеров небольшого размера, функции которых ограничивались… … Википедия

Документ PDF можно создать непосредственно из бумажного документа с помощью сканера и программы Acrobat. В ОС Windows программа Acrobat поддерживает драйверы сканера TWAIN и драйверы Windows Image Acquisition (WIA) . На платформе Mac OS программа Acrobat поддерживает TWAIN и функцию записи изображений (ICA).

Предустановки сканирования доступны только для драйверов сканеров, поддерживающих режим Скрыть интерфейс сканера . Предустановки сканирования не предусмотрены в Mac OS.

Чтобы отсканировать бумажный документ в формат PDF с помощью Acrobat, выберите Инструменты > Создать PDF. Откроется окно Создать файл PDF из любого формата. Выберите Сканер для просмотра доступных параметров.

Windows:

Выберите Инструменты > Создать PDF > Сканер > Автоопределение цветовой модели.

Чтобы добавить сканируемый документ к существующему файлу, выполните следующие действия.

  1. Установите флажок Добавить к существующему файлу.
  2. Если файлы открыты в Acrobat, выберите нужный файл в раскрывающемся списке, либо нажмите Обзор и откройте соответствующий файл.

Нажмите Сканировать.

Сканирование бумажного документа в PDF с использованием предустановок (Windows)

Выберите Инструменты > Создать PDF > Сканер > [предустановки документа].

Чтобы добавить сканируемый документ к существующему файлу, выполните следующие действия.

  1. Установите флажок Добавить к существующему файлу.
  2. Если файлы открыты в Acrobat, выберите нужный файл в раскрывающемся списке, либо нажмите Обзор и откройте соответствующий файл.

Нажмите Сканировать.

Сканирование бумажного документа в PDF без использования предустановок

Выберите Инструменты > Создать PDF > Сканер > Параметры по умолчанию или Мои пользовательские настройки.

Чтобы добавить сканируемый документ к существующему файлу, выполните следующие действия.

  1. Установите флажок Добавить к существующему файлу.
  2. Если файлы открыты в Acrobat, выберите нужный файл в раскрывающемся списке, либо нажмите Обзор и откройте соответствующий файл.

Для сканирования нескольких файлов в PDF установите флажок Предлагать сканировать другой документ.

Если выбрать параметр Показать пользовательский интерфейс сканера вместо интерфейса Acrobat, то отобразятся другие диалоговые окна. Сведения о доступных параметрах см. в документации по сканеру. В Mac OS всегда отображается пользовательский интерфейс сканера.

Нажмите Сканировать.

Улучшение или оптимизация отсканированного документа PDF

Выберите Инструменты > Сканирование и распознавание > Повышение качества > Отсканированный документ.

Настройка установок сканера (Windows)

Выберите Инструменты > Создать PDF > Сканер.

Выберите предустановки: Автоопределение цветовой модели , Черно-белый документ , Цветной документ , Документ в градациях серого или Цветная фотография .


Нажмите значок Настройки рядом с предустановками. В зависимости от выбранного параметра отображается окно Заказное сканирование или Изменить предварительно установленные настройки для.

Для сканирования нескольких файлов в PDF установите флажок Предлагать сканировать другой документ.

Нажмите Сохранить параметры , чтобы сохранить предустановки, затем нажмите кнопку с изображением крестика (X), чтобы закрыть окно.

Параметры сканирования

После выбора сканера можно по своему усмотрению выбрать или настроить различные параметры сканирования.

Выберите установленный сканер. На компьютере должно быть установлено программное обеспечение от производителя сканера. Только в Windows: нажмите кнопку Параметры для указания параметров сканера.

Показать пользовательский интерфейс сканера

Выберите этот параметр, только если необходимо отобразить настройки в диалоговых окнах программы, предоставленной производителем сканера. Если этот параметр не выбран, сканирование начнется с использованием параметров, указанных в окне Заказное сканирование или Изменить предварительно установленные настройки .

Укажите одностороннее или двухстороннее сканирование. Если выбрано значение С обеих сторон , но в собственных параметрах сканера указано сканирование страниц только с одной стороны, то параметры сканера заменят параметры Acrobat.

Двухстороннее сканирование можно выполнять, даже если сам сканер не поддерживает двухстороннее сканирование. При выборе параметра С обеих сторон после сканирования первых сторон появится диалоговое окно. Можно сложить в лоток сканируемые страницы документа в обратном порядке и выбрать параметр Сканировать обратную сторону (Обратный порядок страниц) в диалоговом окне. При этом создается документ PDF со всеми страницами в правильной последовательности.

Цветовая модель (только Windows)

Разрешение (только Windows)

Размер бумаги (только Windows)

Выберите размер бумаги или укажите собственные значения ширины и высоты .

Предлагать сканировать другой документ

Если такой режим выбран, диалоговое окно, запрашивающее сканирование дополнительных страниц, будет отображаться после каждого сеанса сканирования.

Качество > Оптимизация изображения


Выберите этот параметр для запуска процесса оптимизации документа PDF. Этот параметр используется для сжатия и фильтрации изображений отсканированного PDF. Нажмите значок Настройки , чтобы настроить оптимизацию с помощью параметров сжатия файла и фильтрации.

Качество > Оптимизация изображения > Малый размер/высокое качество

Перетащите ползунок для настройки баланса между размером файла и качеством.

Вывод > Добавить к существующему файлу

Добавление преобразованного отсканированного изображения к существующему файлу PDF. Выберите открытый файл из раскрывающегося списка или найдите и выберите нужный файл PDF.

Вывод > Создать новый PDF-файл

Создание документа PDF.

Вывод > Сохранить файлы


Создание нескольких файлов из нескольких бумажных документов. Нажмите значок Настройки и укажите требующиеся параметры: создание портфолио PDF из файлов, количество страниц в каждом файле и префикс имени файла.

Распознавание текста (OCR)


Выберите этот параметр для преобразования изображений с текстом, содержащихся в файле PDF, в текст с возможностью поиска и выбора. Данный параметр выполняет оптическое распознавание символов ( OCR ), а также распознавание шрифтов и макета страницы для изображения с текстом. Нажмите значок Настройки , чтобы указать необходимые параметры в диалоговом окне Распознавание текста - Настройки . См. Распознавание текста в отсканированных документах.

Если этот параметр выбран, то после сканирования появляется диалоговое окно Свойства документа . В диалоговом окне Свойства документа можно добавлять метаданные или сведения об отсканированном документе в файл PDF. При создании нескольких файлов можно ввести общие метаданные для всех файлов.

Соответствие стандарту PDF/A

Выберите данный параметр, чтобы обеспечить соответствие создаваемого документа PDF стандартам ISO для PDF/A-1b.

В диалоговом окне Улучшить отсканированный документ PDF представлены элементы управления параметрами сжатия и фильтрации отсканированного изображения для документа PDF. Параметры по умолчанию подходят для широкого диапазона страниц документов, но при необходимости их можно изменить для повышения качества изображений, уменьшения размера файла или для настройки сканирования.

Применить адаптивное сжатие

Разделяет каждую страницу на черно-белые, цветные и области в градациях серого и выбирает режим, в котором сохраняется внешний вид при высокой степени сжатия каждого типа содержимого. Рекомендуемое разрешение сканирования — 300 точек на дюйм (dpi) для RGB-изображений и изображений в градациях серого; 600 dpi для черно-белого изображения.

Цветное сканирование/Сканирование в градациях серого

При сканировании цветных страниц или страниц в градациях серого выберите один из следующих параметров:

Применяет сжатие JPEG2000 к цветному содержимому изображения (использование этой настройки не рекомендуется при создании файлов PDF/A ; вместо этого используйте формат JPEG ).

Применяет сжатие ZIP к цветному содержимому изображения.

Применяет сжатие JPEG к цветному содержимому изображения.

Сканер использует выбранный параметр Цветное/Градации серого либо параметр Монохромное . Выбор зависит от параметров, указанных в диалоговом окне Сканирование Acrobat или в интерфейсе сканера TWAIN, который открывается при нажатии кнопки Сканировать в диалоговом окне Сканирование Acrobat. (по умолчанию диалоговое окно приложения сканера не открывается).

При сканировании черно-белых или однотонных страниц выберите один из следующих параметров.

JBIG2 (без потери качества) и JBIG2 (с потерями качества)

Применяет способ сжатия JBIG2 для входных черно-белых страниц. При значениях параметров высокого уровня качества используется сжатие без потерь; при низких значениях текст сжимается сильнее. Текстовые страницы обычно на 60% меньше, чем сжатые по алгоритму CCITT Group 4 страницы, но процесс сжатия занимает больше времени. Совместимый с Acrobat 5.0 (PDF 1.4) и более поздними версиями.

Для совместимости с Acrobat версии 4.0 используйте метод сжатия, отличный от JBIG2 .

Применяет сжатие по алгоритму CCITT Group 4 для черно-белых входных изображений страниц. Этот быстрый способ сжатия без потерь совместим с Acrobat 3.0 (PDF 1.2) и более поздними версиями.

Небольшой объем/Высокое качество

Настройка баланса между размером файла и качеством.

Поворачивает любую страницу, стороны которой не перпендикулярны сторонам области сканирования, для вертикального выравнивания страницы PDF. Выберите Вкл или Выкл .

Окрашивает в белый цвет близкие к белому области при цветном входном изображении или изображении в градациях серого (но не для черно-белых изображений).

Для наилучших результатов настройте параметры контрастности и яркости сканера, чтобы на отсканированной обычной черно-белой странице текст был темно-серого или черного цвета, а фон был белым. Тогда при выбранных параметрах Выкл или Низкое результаты будут лучше. При сканировании белого документа с желтым оттенком или газетной бумаги выберите параметры Среднее или Высокое для очистки страницы.

Удаляет структуру полутоновых точек, которая может снизить степень сжатия JPEG , вызвать муар и сделать текст трудным для распознавания. Подходит для сканирования с разрешением 200–400 dpi RGB-изображений и изображений в градациях серого, для параметра Адаптивное сжатие и при сканировании с разрешением от 400 до 600 dpi черно-белых изображений. При выборе параметра Вкл (рекомендуется) применяется фильтр для сканирования с разрешением 300 dpi (или выше) RGB-изображений и изображений в градациях серого. Выберите Выкл при сканировании страницы без иллюстраций или заполненных областей или при сканировании с разрешением выше, чем в рабочем диапазоне.

Делает текст отсканированного файла PDF более четким. Значение по умолчанию (низкое качество) подходит для большинства документов. Увеличьте его, если качество печатаемого документа низкое, а текст неясен.

Сканирование из Acrobat принимает изображения с разрешением в диапазоне 10–3000 dpi. При выборе параметра Изображение в возможностью поиска или ClearScan в разделе Стиль вывода PDF требуется разрешение выводимого изображения не ниже 72 dpi. Кроме того, разрешение выводимого изображения, превышающее 600 dpi, будет уменьшено до 600 dpi или менее.

Для большинства страниц сканирование в черно-белом режиме при 300 dpi дает лучшие результаты для преобразования. При разрешении 150 dpi точность оптического распознавания символов несколько снижается и количество ошибок распознавания шрифта возрастает; при разрешении 400 dpi и выше обработка замедляется, а размер файлов со сжатыми страницами увеличивается. Если на странице содержится много нераспознанных слов или текст небольшого размера (9 пунктов и меньше), попытайтесь выполнить сканирование в более высоком разрешении. Когда это возможно, сканируйте в черно-белом режиме.

Если оптическое распознавание символов (OCR) выключено, можно использовать разрешением в диапазоне 10 – 3000 dpi, рекомендованное разрешение – 72 dpi и выше. Для параметра адаптивного сжатия рекомендуемые разрешения при сканировании: 300 dpi для изображений в градациях серого и RGB и 600 dpi для черно-белых изображений.

Избегайте настройки параметров полутонов и диффузионного смешения сканера. Это может улучшить внешний вид, но станет сложно распознавать текст.

Для текстов, распечатанных на цветной бумаге, рекомендуется увеличить яркость и контрастность примерно на 10%. Если сканер обеспечивает световую фильтрацию, следует подавить цвет фона при помощи специального фильтра или лампы. Или, если текст не подавляется, попробуйте настроить контрастность и яркость сканера, чтобы очистить отсканированный документ.

Если у сканера есть ручное управление яркостью, настройте его так, чтобы символы были четкими и имели правильную форму. Если символы соединены между собой, используйте более высокие параметры (более яркого цвета). Если символы разделены, используйте более низкие параметры (более темного цвета).

Для исправления ошибок и решения проблем, связанных со сканером, обратитесь к следующей документации по устранению неполадок:

Сканирование документов – перевод информации с физического носителя в электронный вид (подробнее в статье: что такое сканирование). Сделать скан можно отдельным устройством (сканером) или воспользоваться МФУ (многофункциональным устройством). Последняя техника включает в себя несколько устройств и часто называется принтером 3 в 1. В состав входят принтер, сканер и копир (ксерокс). В обоих случаях отсканировать любой документ очень легко.


Подготовка к сканированию

Для исключения повреждения техники важно придерживаться правильного порядка действия при работе со шнурами подключения. Сперва подключаете USB-шнур к принтеру, далее к стационарному компьютеру или ноутбуку. Затем вставляете кабель питания в розетку. Только после этого можно нажимать на кнопку включения, находящуюся на корпусе.

Если на корпусе принтера мигают индикаторы, которые говорят об отсутствии чернил в картриджах, сканирование все равно получится сделать, так как краска в этом случае не используется. В работу запускается только сканер. Часто бывают случаи, когда принтером уже не пользуются ввиду дороговизны покупки новых картриджей. Выкидывать технику необязательно, ведь пользоваться сканером получится всегда.

Иная ситуация с установкой, когда ничего автоматически не выполняется. Тогда надо воспользоваться диском, который часто идет в комплекте с техникой, и содержит драйвер, необходимый для работы всех компонентов устройства.

  • просматривать уровень чернил в емкостях;
  • делать прочистки узлов принтера;
  • запускать сканирование;
  • выравнивать печатающие головки и ряд других функций, который отличается для каждой модели принтера.

Чтобы техника прослужила долго, и на скане не было видно следов пыли, грязи, надо аккуратно протереть поверхность стекла сухой тряпкой или бумажным полотенцем, салфеткой.

Что можно сканировать

Допускается сканирование любых носителей, которые не мешают закрытию верхней крышки. Конечно же, всегда сканируются обычные листы бумаги, причем можно оцифровать мелкие бумажные носители (брошюры, деньги, паспорт, фотографии и другие), пластиковые элементы, книги.

Как сделать скан на принтере

Рассмотрим процесс создания скана на принтере МФУ HP Deskjet 2130. Модель очень старая, но принцип сканирования будет аналогичен другим принтерам. Нужно лишь включить принтер, положить носитель под крышку, начать сканирование на компе любым удобным способом.

Как отсканировать документ:



Принтер отсканирует носитель и предложит сохранить документ в любое место, предварительно задав нужное имя файла.



ПО для сканирования от производителей

Чтобы обеспечить легкую работу с техникой, компании-производители разрабатывают специальное ПО. В интерфейсе софта доступны все возможные функции для управления конкретной моделью аппарата.

Функции могут немного отличаться в зависимости от бренда. Но основной набор настроек/параметров практически всегда идентичен. Можно задавать разрешение скана, выбирать цветность (ч/б или цветной скан), формат (png, jpeg, jpg, pdf и другие).

Список утилит для сканирования:

  • HP Scan;
  • Epson Scan;
  • Xerox Easy Printer Manager;
  • Canon MF ToolBox.

Для фирм Kyocera и Samsung софт также есть, скачать можно с официальных сайтов или установить с комплектного компакт-диска.

Сканирование через Paint


Откроется окно сканирования, где можете выбрать цветность картинки, выполнить предварительный просмотр, сразу отсканировать и даже настроить качество (разрешение, яркость и контрастность).





Такой вариант позволяет сканировать на компьютер с принтера максимально быстро. При необходимости можно сразу сделать форматирование скана средствами Paint, которые предлагаются на верхней панели редактора.

Другие программы

Нижеприведенные утилиты практически ничем не отличаются от официального софта. Разница только в некоторых программах, которые призваны делать сканы в какой-то определенный формат, например, в PDF.

Сканируем паспорт

  1. Снимите обложку, выньте все лишнее с паспорта.
  2. Положите документ на стекло и хорошо прижмите крышкой. Проследите, чтобы края листов документа не замялись.
  3. В настройках сканирования выберите формат для наилучшего качества (bmp или tiff). Разрешение поставьте максимально доступное.

Ксерокопия без ксерокса

При отсутствии МФУ, но имея два отдельных устройства для печати и сканирования, запросто получится сделать копию паспорта.

  • Сначала оцифруйте паспорт на компьютер.
  • Далее распечатайте скан паспорта на печатающем устройстве.

Результат ничем не будет отличаться, если бы делалось стандартное ксерокопирование.

Устранение проблем

Есть много причин, по которым не работает сканер или принтер. Самым простым способом выявить и решить проблему является запуск стандартного средства устранения неполадок в Windows. Открывается диагностика неполадок через контекстное меню проблемного устройства. Дополнительно может помочь полная переустановка программного обеспечения с предварительным удалением драйвера.

  1. Массово сканирует документы с прикреплением к РКК (регистрационной контрольной карточки) в СЭД;
  2. Формирует и распечатывает штрих-коды для регистрируемых документов;
  3. Позволяет легко найти нужный документ по отсканированным штрих-кодам;
  4. Формирует сканированный образ документа;
  5. Формирует электронную учётную карточку, содержащую электронный образ отсканированного документа;
  6. Передает корректно отсканированный электронный образ документа в БД.

Как это работает?

  • В сканнер загружаются все необходимые документы одной пачкой.

Работа в одно нажатие. Все действия происходят автоматически, сотруднику необходимо только загрузить бумажные документы в сканнер и нажать кнопку, остальное система сделает самостоятельно.

  • Каждому сканированному документу присваивается уникальный штрихкод для дальнейшего распознавания документа

Присваивание штрихкода документу. Сгенерированный штрихкод может быть распечатан как на самом документе, так и на отдельной его странице. Если документ уже имеет штрихкод стандартного формата, система распознает его и может использовать для своей идентификации.

  • Документ инфицируется по штрихкоду, и система связывает его с регистрационной карточкой соответствующего документа

Распределение документов в базу данных происходит автоматически. Отсканированные файлы формируются в формат PDF или другой требуемый формат и размещаются в соответствующие регистрационные карточки согласно штрих-коду.

Распознавание электронных документов

Данный процесс может быть расширен и скорректирован бизнес-логикой заказчика.

Технологическая обработка документа

Ввод графического или текстового формата

Сканирование возможно как графического образа документа, так и текстовый его формат. Что облегчает дальнейшую работу над документом. Распознавание и перевод текста документа реализован с помощью Websio Plugin и ABBYY FineReader.

Графический формат

Графический образ документа возможно конвертировать в следующие форматы: pdf, tiff, jpeg, png, bnp, gif. Реализована функция выбора размеров изображения при сканировании, а также его дополнительные настройки (глубина цвета, тип сжатия и т.п.).

Текстовый формат

При применении опции распознавания текста документы могут быть сохранены в различных форматах: txt, rtf, xls, xlsx, docs, html, xml, pdf. Также реализована возможность менять размер страницы, кодировку и прочие свойства документа при его сканировании. PDF-формат возможно сохранять как в виде текста, так и изображения.

Распознавание языка документа

  • Возможность замены бумажного документооборота и бумажных архивов электронной системой документооборота;
  • Повышение эффективности управления документами;
  • Сокращение времени на ввод документов и поиск документов;
  • Исключение человеческого фактора при вводе данных;
  • Общее увеличение скорости бизнес-процессов;
  • Повышение производительности сотрудников;
  • Оптимизация трудовых и временных затрат на работу с документами.

Варианты поставки

Для интеграции в существующую инфраструктуру:

  • Модуль формирования и печати штрих-кодов из РКК;
  • Модуль интеграции в составе СЭД DocSpace – автоматически размещает отсканированные и распознанные документы в карточки документов в СЭД;
  • Модуль поиска РКК в СЭД по сканированным штрих-кодам.

Для организации потокового ввода

Дополнительно к основному блоку включает средство интеграции с программой для потокового сканирования документов ABBYY Scan Station.

Для организации распознавания сканированных образов в автоматическом режиме

Дополнительно к основному блоку включает средство интеграции с программой для распознавания текста, которая переводит изображения документов и любые типы PDF-файлов ABBYY FineReader Corporate.

Читайте также: