Оптическое распознавание ЦСл текстов (OCR) 1. Создание пользовательского языка и словаря Настройка программы FineReader для сканирования церковнославянских текстов начинается с создания пользовательского языка. Для этого следует вызвать через меню "Сервис" окно редактора языков, затем создать на базе русского языка язык ЦСл. Следующим этапом является определение алфавита языка, в основу которого положен формат
После чего определяются: Кроме того, следует задать пользовательский словарь. Словарь можно получить с сайта Библиотеки святоотеческой литературы отсюда. Для успешной работы со словарем необходимо добавить в начало файла строку следующего содержания: DICTIONARY_PROPERTIES=USE_CONFIDENCE Можно не создавать язык, а использовать его из предложенного пакета (пакет работает на версиях ABBYY FineReader 6.0 и выше). Тогда в окне редактора языков следует указать путь к этому пакету в графе "путь к пользовательским языкам и словарям". 2. Редактирование текстов в формате HIP Для набора и редактирования текстов в формате 3. Обучение эталона Для того, чтобы получить возможность распознавать тексты на церковнославянском, нужно обучить пользовательский эталон (если не действуют имеющиеся) через вкладку Сервис→ Опции→ Распознавание→ Обучение. Предварительно отключите флаг "Использовать встроенные эталоны".
Большой эталон, рассчитанный на самые разные церковные издания, можно скачать с сайта Библиотеки святоотеческой литературы отсюда. 4. Распознавание Перед распознаванием текстов отключите флаг "Очищать фон" во вкладке Сервис→ Опции→ Распознавание→ Тип страницы.
6. Проверка При проверке не рекомендуется использовать опцию "Останавливаться на неуверенно распознанных словах" (во вкладке Сервис→ Опции→ Проверка→ Установки), так как они будут встречаться в каждом слове. Проще просмотреть неуверенно распознанные слова или символы (которые выделяется синим цветом) в окне Текст. |