Как сделать скан в эксель

Добавил пользователь Валентин П.
Обновлено: 05.10.2024

Преобразовать отсканированные документы и изображения в редактируемые Word, PDF, Excel и TXT (текст) форматы вывода

Как распознать текст?

Загрузить файл

Выберите файл, который вы хотите конвертировать с вашего компьютера, Google Drive, Dropbox или перетащите его на страницу

Выберите язык и формат вывода

Выберите все языки, используемые в документе. Также выберите любой желаемый формат вывода, например .doc (поддерживается более 10 текстовых форматов)

Конвертировать и скачать файл

Оптическое распознавание символов или оптическое считывание символов (OCR) - это электронное или механическое преобразование изображений рукописного или печатного текста в машинный код, будь то отсканированный документ, фотография документа, фотография сцены (например, текст на знаках и рекламных щитах на альбомной фотографии) или из текста субтитров, наложенного на изображение (например, из телевизионной трансляции).

Широко используется как форма ввода данных из печатных бумажных данных, будь то паспортные документы, накладные, банковские выписки, компьютеризированные квитанции, визитные карточки, почта, распечатки статических данных или любая подходящая документация - это распространенный метод оцифровки печатных текстов, чтобы их можно было редактировать, искать, хранить в электронном виде более компактно, отображается в режиме онлайн и используется в машинных процессах, таких как когнитивные вычисления, машинный перевод, (извлеченный) преобразование текста в речь, ключевые данные и анализ текста. OCR - это область исследований в области распознавания образов, искусственного интеллекта и компьютерного зрения.

В ранних версиях нужно было тренироваться с изображениями каждого персонажа и работать с одним шрифтом за раз. В настоящее время распространены современные системы, способные обеспечить высокую степень распознавания для большинства шрифтов, с поддержкой различных входных форматов файлов цифровых изображений. Некоторые системы способны воспроизводить форматированный вывод, который близко соответствует исходной странице, включая изображения, столбцы и другие нетекстовые компоненты.

× Предупреждение: Вы ввели верный пароль, но он не снимает ограничение на редактирование файла. Введите пароль с соответствующими правами доступа.

Иногда, чтобы отредактировать цифры или добавить какие-то графики, необходимо извлечь из файла таблицу. Этот онлайн-инструмент поможет вам конвертировать ваш файл в формат Excel. Если у вас есть отсканированная таблица в виде изображения или PDF, вы также можете воспользоваться опцией оптического распознавания символов (OCR), которая позволяет обнаружить в вашем исходном файле таблицы (например, в PDF) и преобразовать этот файл в Excel.

Мы поддерживаем множество форматов, которые можно преобразовать в Excel. Наиболее популярными направлениями являются конвертирование из PDF в Excel, а также JPG в Excel.

Расширение Online-Convert для Firefox

Оставайтесь на связи:

Оцените инструмент 4.7 / 5

Чтобы оставить отзыв, преобразуйте и скачайте хотя бы один файл

Задача переноса данных из таблицы в PDF-файле на лист Microsoft Excel - это всегда "весело". Особенно если у вас нет дорогих программ распознавания типа FineReader или чего-то подобного. Прямое копирование обычно ни к чему хорошему не приводит, т.к. после вставки скопированных данных на лист, они, скорее всего, "слипнутся" в один столбец. Так что их потом придется кропотливо разделять с помощью инструмента Текст по столбцам с вкладки Данные (Data - Text to Columns) .

И само-собой, копирование возможно только для тех PDF-файлов, где есть текстовый слой, т.е. с только что отсканированным с бумаги в PDF документом это не сработает в принципе.

Но все не так грустно, на самом деле :)

Если у вас Office 2013 или 2016, то за пару минут без дополнительных программ вполне можно реализовать перенос данных из PDF в Microsoft Excel. А помогут нам в этом Word и Power Query.

Для примера, давайте возьмем вот такой PDF-отчет с кучей текста, формул и таблиц с сайта Европейской Экономической Комиссии:

Исходный PDF

. и попробуем вытащить из него в Excel, скажем первую таблицу:

Нужная таблица в PDF

Шаг 1. Открываем PDF в Word

Почему-то мало кто знает, но начиная с 2013 года Microsoft Word научился открывать и распознавать PDF файлы (даже отсканированные, т.е. без текстового слоя!). Делается это совершенно стандартным образом: открываем Word, жмем Файл - Открыть (File - Open) и уточняем PDF-формат в выпадающем списке в правом нижнем углу окна.

Затем выбираем нужный нам PDF-файл и жмем Открыть (Open) . Word сообщает нам, что собирается запустить распознавание этого документа в текст:

Запуск распознавания PDF в Word

Соглашаемся и через несколько секунд увидим наш PDF открытым для редактирования уже в Word:

Распознанный PDF в Word

Само-собой, у документа частично слетит дизайн, стили, шрифты, колонтитулы и т.п., но для нас это не важно - нам нужны только данные из таблиц. В принципе, на этом этапе уже возникает соблазн дальше просто скопировать таблицу из распознанного документа в Word и просто вставить ее в Excel. Иногда это срабатывает, но чаще приводит ко всевозможным искажениям данных - например числа могут превратиться в даты или остаться текстом, как в нашем случае, т.к. в PDF используется не российские разделители:

Искаженные данные

Так что давайте не будем срезать углы, а сделаем все чуть сложнее, но правильно.

Этап 2. Сохраняем документ как веб-страницу

Чтобы потом загрузить полученные данные в Excel (через Power Query), наш документ в Word нужно сохранить в формате веб-страницы - этот формат является, в данном случае, неким общим знаменателем между Word'ом и Excel'ем.

Для этого идем в меню Файл - Сохранить как (File - Save As) или жмем клавишу F12 на клавиатуре и в открывшемся окне выбираем тип файла Веб-страница в одном файле (Webpage - Single file) :

Сохраняем как веб-страницу

После сохранения должен получиться файл с расширением mhtml (если у вас в Проводнике видны расширения файлов).

Этап 3. Загружаем файл в Excel через Power Query

Можно открыть созданный MHTML-файл в Excel напрямую, но тогда мы получим, во-первых сразу все содержимое PDF вместе текстом и кучей ненужных таблиц, а, во-вторых, опять потеряем данные из-за неправильных разделителей. Поэтому импорт в Excel мы будем делать через надстройку Power Query. Это совершенно бесплатная надстройка, с помощью которой можно загружать в Excel данные практически из любых источников (файлов, папок, баз данных, ERP-систем) и всячески затем полученные данные трансформировать, придавая им нужную форму.

Если у вас Excel 2010-2013, то скачать Power Query можно с официального сайта Microsoft - после установки у вас появится вкладка Power Query. Если у вас Excel 2016 или новее, то качать ничего не нужно - весь функционал уже встроен в Excel по-умолчанию и находится на вкладке Данные (Data) в группе Загрузить и преобразовать (Get & Transform) .

Так что идем либо на вкладку Данные, либо на вкладку Power Query и выбираем команду Получить данные или Создать запрос - Из файла - Из XML. Чтобы были видны не только XML-файлы - меняем в выпадающем списке в правом нижнем углу окна фильтры на Все файлы (All files) и указываем наш MHTML-файл:

Выбираем MHTML-файл для импорта в Excel

Обратите внимание, что импорт успешно не завершится, т.к. Power Query ждет от нас XML, а у нас, на самом деле, HTML-формат. Поэтому в следующем появившемся окне нужно будет щелкнуть правой кнопкой мыши по непонятному для Power Query файлу и уточнить его формат:

Уточняем настоящий формат файла

После этого файл будет корректно распознан и мы увидим список всех таблиц, которые в нем есть:

Выбираем таблицу для импорта

Посмотреть содержимое таблиц можно, если щелкать левой кнопкой мыши в белый фон (не в слово Table!) ячеек в столбце Data.

Когда нужная таблица определена, щелкните по зеленому слову Table - и вы "провалитесь" в её содержимое:

Нужная нам таблица

Останется проделать несколько простых действий, чтобы "причесать" ее содержимое, а именно:

  1. удалить ненужные столбцы (правой кнопкой мыши по заголовку столбца - Удалить)
  2. заменить точки на запятые (выделить столбцы, щелкнуть правой - Замена значений)
  3. удалить знаки равно в шапке (выделить столбцы, щелкнуть правой - Замена значений)
  4. удалить верхнюю строку (Главная- Удалить строки - Удаление верхних строк)
  5. удалить пустые строки (Главная - Удалить строки - Удаление пустых строк)
  6. поднять первую строку в шапку таблицы (Главная - Использовать первую строку в качестве заголовков)
  7. отфильтровать лишние данные с помощью фильтра

Когда таблица будет приведена в нормальный вид, ее можно выгрузить на лист командой Закрыть и загрузить (Close & Load) на Главной вкладке. И мы получим вот такую красоту, с которой уже можно работать:


Excel

Microsoft Excel позволяет нам представлять данные единообразно. Мы можем показывать сложные данные в виде диаграмм или табличного формата. Предположим, у вас есть список продуктов, которыми вы хотите поделиться, а также описание продукта и технические характеристики. Тогда использование Excel будет большой помощью. Думаете, как это можно сделать? Позволь мне сказать тебе это. Скажем, у вас есть информация о продукте в файле PDF, а затем наличие названия продукта в одном столбце и соответствующих файлов PDF в другом столбце решит проблему. Итак, в этой статье я расскажу вам, как вставить PDF-файл в лист Excel.

Вставьте файл PDF в лист Excel



Теперь PDF-файл был вставлен в лист Excel в виде объекта, похожего на диаграмму или любую форму. Мы можем перетащить или изменить размер, как мы хотим. Повторите те же шаги, чтобы вставить больше файлов PDF в лист.

Отрегулируйте вставленный PDF-файл с помощью ячейки

Измените размер PDF-файла так, чтобы он идеально помещался в ячейку. Вы видите, что вставленный PDF-файл не скрывает, не сортирует и не фильтрует по ячейкам. Но есть способ убедиться, что он настраивается с помощью ячеек.



Теперь, если вы фильтруете, сортируете или скрываете ячейки, то PDF-файл также будет делать то же самое.

Переименовать вставленный файл PDF




Теперь вы можете увидеть новое имя, данное файлу PDF.


Думаете сделать то же самое в Microsoft Word? Затем посмотрите, как связать объекты PPT или PDF в Word.

Читайте также: