Оптическое распознавание символов (OCR) относится к программному обеспечению, которое создает цифровую версию печатного, печатного или рукописного документа, который компьютеры могут читать без необходимости печатать или вводить текст вручную. Оптическое распознавание текста обычно используется для отсканированных документов в формате PDF , но также может создавать машиночитаемую версию текста в файле изображения.
Что такое OCR
OCR, также называемая распознаванием текста, представляет собой программную технологию, которая преобразует такие символы, как цифры, буквы и знаки препинания (также называемые глифами) из печатных или письменных документов, в электронную форму, более легко распознаваемую и читаемую компьютерами и другими программами. Некоторые программы распознавания делают это, когда документ сканируется или фотографируется с помощью цифровой камеры, а другие могут применять этот процесс к документам, которые были ранее отсканированы или сфотографированы без распознавания текста. OCR позволяет пользователям искать в документах PDF, редактировать текст и переформатировать документы.
Для чего используется OCR?
Для быстрого ежедневного сканирования OCR может не иметь большого значения. Если вы выполняете большое количество операций сканирования, возможность поиска в PDF-файлах, чтобы найти именно тот файл, который вам нужен, может сэкономить немало времени и повысить функциональность распознавания текста в вашей программе сканирования. Вот некоторые другие вещи, с которыми OCR помогает:
- Автоматизированная обработка данных и ввод данных ( Пример : системы отслеживания соискателей для резюме).
- Создание отсканированных книг для поиска.
- Преобразование рукописных сканов в читаемый компьютером текст.
- Повышение удобства использования документов программами для чтения, которые помогают пользователям с нарушениями зрения.
- Сохранение исторических документов и газет, а также их поиск.
- Извлечение данных и передача в бухгалтерские программы (Пример: квитанции и счета).
- Индексирование документов для использования поисковыми системами .
- Распознавание номерных знаков водителя с помощью камеры контроля скорости и программного обеспечения камеры с подсветкой.
- Синтезаторы речи для людей, которые не могут говорить — физик-теоретик Стивен Хокинг, пожалуй, самый известный пользователь программы синтезатора речи.
Зачем использовать OCR?
Почему бы просто не сделать снимок, верно? Потому что вы не сможете ничего редактировать или искать текст, потому что это будет просто изображение. Сканирование документа и запуск программного обеспечения OCR могут превратить этот файл в то, что вы можете редактировать, и сможете искать.
История OCR
Хотя самое раннее использование распознавания текста относится к 1914 году, широкое развитие и использование технологий, связанных с оптическим распознаванием символов, началось всерьез в 1950-х годах, в частности, с создания очень упрощенных шрифтов, которые было легче преобразовать в текст, читаемый цифровым способом. Первый из этих упрощенных шрифтов был создан Дэвидом Шепардом и широко известен как OCR-7B. OCR-7B все еще используется сегодня в финансовой индустрии для стандартного шрифта, используемого на кредитных и дебетовых картах. В 1960-х годах почтовые службы в нескольких странах начали использовать технологию оптического распознавания символов, чтобы значительно ускорить сортировку почты, в том числе в США, Великобритании, Канаде и Германии. OCR по-прежнему является основной технологией, используемой для сортировки почты для почтовых служб по всему миру. В 2000 году ключевые знания о границах и возможностях технологии оптического распознавания текста были использованы для разработкиПрограммы CAPTCHA используются для остановки ботов и спамеров.
За прошедшие десятилетия оптическое распознавание текста стало более точным и изощренным благодаря достижениям в смежных технологических областях, таких как искусственный интеллект , машинное обучение и компьютерное зрение. Сегодня программное обеспечение OCR использует распознавание образов, обнаружение функций и анализ текста для более быстрого и точного преобразования документов, чем когда-либо прежде.