Перейти к содержимому
Файлик24Файлик24

Как сделать отсканированный PDF доступным для поиска с помощью OCR

Превратите отсканированные PDF без текстового слоя в документы с поиском и выделением — OCR работает в браузере, поддерживает русский и английский.

·6 мин чтения

Отсканированный PDF — это по сути фотография страницы документа, хранящаяся внутри PDF-контейнера. Сканер фиксирует изображение физической страницы и сохраняет его в формате JPEG или PNG с определённым разрешением. Результат выглядит как текстовый документ, но не содержит никаких текстовых данных: нельзя выделить слова, скопировать предложение или использовать Ctrl+F для поиска.

OCR — Оптическое распознавание символов — решает эту проблему. Технология анализирует изображение каждой страницы, идентифицирует символы, слова и абзацы, видимые на изображении, и добавляет в PDF невидимый текстовый слой, точно соответствующий напечатанному тексту. После обработки OCR документ выглядит идентично исходному скану, но теперь поддерживает выделение, копирование и поиск текста.

Это руководство объясняет, как работает OCR, когда он необходим, как обработать отсканированный PDF в браузере бесплатно и как добиться наилучшей точности распознавания.

Попробуйте прямо сейчас — без регистрации и установки

OCR PDF

Что такое OCR и почему отсканированные PDF в нём нуждаются

Каждый отсканированный документ начинается как изображение. Когда вы кладёте физическую страницу на сканер и нажимаете кнопку сканирования, устройство фотографирует страницу с заданным разрешением — обычно 150, 300 или 600 DPI — и сохраняет результат как файл изображения. Если выходной формат — PDF, изображение оборачивается в PDF-контейнер. PDF-просмотрщик может корректно его отображать, но файл не знает, что содержит изображение: он знает только цвета пикселей, но не символы.

Это ограничение проявляется сразу, как только вы пытаетесь что-то сделать с текстом. Нельзя выделить отрывок, чтобы скопировать его в другой документ. Нельзя найти имя, дату или пункт договора. Программы экранного доступа для людей с нарушениями зрения не могут обработать содержимое. Поисковые системы, индексирующие ваши файлы, ничего не находят в документе.

OCR устраняет разрыв между изображением и текстом. Движок распознавания анализирует изображение с помощью сопоставления образцов и машинного обучения, чтобы идентифицировать каждый символ, восстановить слова и предложения и привязать их к их позициям на странице. Эта информация хранится как скрытый текстовый слой в PDF — невидимый при обычном просмотре, но доступный для всех текстовых функций PDF.

Внешний вид документа после OCR не изменяется. Отсканированное изображение остаётся видимым содержимым. Текстовый слой размещается прозрачно поверх, выровненный с напечатанным текстом, так что при выделении текста в PDF-просмотрщике выделение подсвечивает правильные слова на изображении сканирования.

Типичные ситуации, когда необходим OCR

Подписанные договоры, которые были распечатаны и подписаны от руки, нужно отсканировать и вернуть в виде PDF. Без OCR эти отсканированные договоры являются файлами изображений — они выглядят правильно, но их нельзя найти или извлечь из них текст. Применение OCR создаёт доступную для поиска версию, которую можно эффективно архивировать.

Официальные документы от государственных органов, нотариусов и судов часто выдаются как физические бумаги, которые нужно оцифровать. Паспорта, свидетельства, налоговые уведомления, документы на собственность и судебные решения — всё это выигрывает от OCR при сканировании, делая их доступными для поиска в системе управления документами.

Старые архивные документы — деловые записи, исторические тексты, личная переписка — существуют только на бумаге или в нераспознанных PDF-сканах. OCR делает эти архивы доступными для поиска и позволяет извлекать, анализировать и ссылаться на содержимое без ручного чтения.

Книги и академические статьи, существующие только в физическом виде или как PDF с изображениями, с помощью OCR можно сделать пригодными для выделения текста, что удобно для цитирования, создания заметок и индексирования содержимого.

Как сделать отсканированный PDF доступным для поиска: пошаговая инструкция

Откройте инструмент «OCR PDF» в браузере. Аккаунт, email и установка программ не нужны. Перетащите отсканированный PDF в область загрузки или нажмите для выбора файла. Файл загружается в браузер — он никогда не передаётся на сервер.

Выберите язык текста документа. Правильный выбор языка важен: движок OCR использует языково-специфичные наборы символов, словарные образцы и частотные таблицы для повышения точности распознавания. Выбор неправильного языка приведёт к заменам символов и словам, не соответствующим реальному тексту. Если документ содержит и русский, и английский текст, выберите комбинированный вариант «Русский+Английский».

Нажмите кнопку «Запустить OCR». Процесс распознавания выполняется в вашем браузере с использованием движка OCR Tesseract, скомпилированного в WebAssembly. Время обработки зависит от количества страниц и сложности содержимого. Одна страница обычно обрабатывается за 5–15 секунд в современном браузере на настольном компьютере. Документ из 20 страниц может занять 2–5 минут.

После завершения обработки скачайте результирующий PDF. Откройте его в любом PDF-просмотрщике и проверьте текстовый слой, нажав Ctrl+F и найдя слово, которое присутствует в документе. Просмотрщик должен выделить совпадение прямо на изображении скана. Попробуйте выделить и скопировать предложение, чтобы убедиться в корректности текстового слоя.

Факторы, влияющие на точность OCR

Важнейший фактор точности OCR — качество скана. Чистый, высококонтрастный скан при 300 DPI и выше даёт наилучшие результаты. Движок OCR зависит от возможности чётко отличить формы символов от фона. Выцветшие чернила, низкий контраст, размытый текст или сильный фоновый шум значительно снижают точность.

Размер текста имеет значение. Основной текст стандартных размеров (10–12 пунктов, эквивалент не менее 40 пикселей высоты символа при 300 DPI) распознаётся очень точно — обычно выше 98% для чистых документов. Очень мелкий текст (сноски, юридический мелкий шрифт менее 8 пунктов) и очень крупный декоративный текст создают больше трудностей.

Ориентация документа влияет на распознавание. Текст на наклонном или повёрнутом скане даёт меньшую точность, поскольку движку приходится компенсировать поворот перед обработкой символов. Использование инструмента выравнивания PDF для исправления наклона страниц перед применением OCR улучшает результаты для документов, отсканированных под небольшим углом.

Рукописный текст стандартными инструментами OCR не распознаётся надёжно. Tesseract и аналогичные движки предназначены для печатного текста. Распознавание рукописного текста требует специализированных моделей машинного обучения. Напечатанные документы с редкими рукописными аннотациями — например, подписанная форма с рукописными датой или подписью — будут иметь напечатанные части, распознанные корректно, тогда как рукописные части, вероятно, дадут неверные результаты.

Движок OCR Tesseract

Tesseract — движок OCR с открытым исходным кодом, который лежит в основе большинства браузерных и многих настольных инструментов OCR для PDF. Изначально разработанный HP в 1980-х годах и впоследствии поддерживаемый Google более десяти лет, Tesseract теперь является независимым проектом с открытым исходным кодом и считается отраслевым стандартом.

Tesseract поддерживает более 100 языков и использует комбинацию классических алгоритмов компьютерного зрения и нейронных сетей LSTM для распознавания символов и восстановления текста. Для чистых печатных документов на поддерживаемых языках Tesseract достигает точности распознавания отдельных символов выше 95%.

При использовании в браузере через WebAssembly Tesseract выполняется полностью в вкладке браузера с использованием локальных ресурсов процессора. Сервер не задействован, а скорость обработки зависит от устройства пользователя. Современный ноутбук обрабатывает одну страницу PDF приблизительно за 5–10 секунд. Более старые устройства или мобильные телефоны могут занимать больше времени.

Языковые файлы данных Tesseract задают наборы символов, словари и модели образцов, используемые при распознавании. Загрузка правильных языковых данных для языка документа необходима для хороших результатов. Браузерные инструменты обычно загружают языковые данные по требованию — выбор русского языка загружает русскую языковую модель; выбор английского — английскую.

После OCR: что можно делать с документом

После завершения OCR и добавления текстового слоя в PDF документ получает полную текстовую функциональность. Можно искать любое слово или фразу с помощью Ctrl+F в любом PDF-просмотрщике — просмотрщик выделяет совпадения прямо на изображении страницы скана. Это работает в Adobe Acrobat, встроенном просмотрщике Chrome, Firefox, Safari и всех стандартных приложениях для чтения PDF.

Выделение и копирование текста работают в обычном режиме. Можно кликнуть и перетащить для выделения отрывка, затем скопировать его в буфер обмена и вставить в любой другой документ. Это позволяет извлекать конкретную информацию — имена, даты, пункты договора, суммы — без повторного набора вручную.

Программы экранного доступа теперь могут обрабатывать содержимое документа, делая его доступным для пользователей с нарушениями зрения. Системы управления документами, индексирующие содержимое PDF для поиска — такие как SharePoint, Google Drive или Dropbox — теперь смогут индексировать и находить документ при поиске по его содержимому.

Если вывод OCR нуждается в редактировании или исправлении — например, если определённые символы были распознаны неверно — можно конвертировать доступный для поиска PDF в документ Word с помощью инструмента PDF в DOCX, отредактировать текст там и при необходимости снова экспортировать в PDF.

Сделать отсканированный PDF доступным для поиска с помощью OCR означает превратить документ-изображение в полноценный текстовый документ без изменения его внешнего вида. После обработки документ поддерживает полнотекстовый поиск, выделение и копирование текста, доступ программ чтения с экрана и индексирование системами управления документами.

Качество результата зависит прежде всего от качества скана — чистый, высококонтрастный скан при 300 DPI и выше обеспечивает точное распознавание в большинстве случаев. Для документов, где важен каждый символ, стоит проверить вывод OCR и исправить ошибки распознавания. Для архивирования и общего поиска даже несовершенный OCR обеспечивает несравнимо большую функциональность, чем PDF только с изображениями.