Читать книгу Журнал PC Magazine/RE №10/2011 - PC Magazine/RE - Страница 11
Лаборатория
Тесты и обзоры: pcmag.ru/reviews
Программы
ОглавлениеABBYY FineReader 11: лучше и быстрее
Игорь Новиков
ABBYY FineReader 11: две страницы (или более) могут обрабатываться одновременно
ABBYY FineReader 11 – лучше, быстрее, точнее!
ABBYY FineReader 11: скорость распознавания заметно возросла
ABBYY FineReader 11: если присмотреться, то легко заметить, что новая версия загружает все ядра процессора
ABBYY FineReader 11 Professional Edition
Рекомендуемая изготовителем цена: 3990 руб. (коробочная версия), 3590 руб. (версия для загрузки).
ABBYY, www.abbyy.ru
Оценка: очень хорошо
Достоинства. Отличное качество распознавания, возможность многопроцессорной обработки, наличие типовых сценариев работы, новые языки, в том числе арабский, возможность сохранения файлов в форматах, рассчитанных на электронные книги и мобильные устройства.
Недостатки. Отсутствие инструмента редактирования сценариев работы в профессиональной версии (есть только в корпоративной).
Как известно, пакет ABBYY FineReader предназначен для сканирования и преобразования бумажных документов в электронные редактируемые форматы. Известно также, что за 18 лет сменилось 11 версий продукта. Прочитав эти слова, кто-то может подумать, что, кроме смены интерфейса и появления второстепенных «кнопочек», от новой версии не стоит ожидать чего-то существенного. Кажется невероятным обнаружить что-то принципиально новое в программе, давно ставшей едва ли не самой популярной OCR-системой не только в России, но и в мире. Однако разработчикам ABBYY FineReader 11 это удалось.
Первое, что бросается в глаза в новой версии, – возросшее быстродействие. Как отмечают сами разработчики, сокращение временного цикла при обработке файлов доходит до 45 %. Появился режим черно-белой обработки деловых документов и книг, позволяющий получить электронный документ до 30 % быстрее по сравнению с работой в полноцветном режиме. Рост быстродействия особенно заметен при обработке многостраничных файлов.
Откуда такие скорости? Рывок достигнут благодаря модернизации ядра ABBYY FineReader. Во-первых, систему научили еще более эффективно использовать несколько процессорных ядер. Например, при распознавании многостраничного документа каждая страница и каждый этап обработки запускаются в новом процессе, который «приземляется» на первое доступное процессорное ядро. Во-вторых, реализован черно-белый режим, позволяющий абстрагироваться от цветовой информации исходного изображения.
Еще одно улучшение, позволившее повысить скорость – переработанный список типовых операций. На первый взгляд чисто организационное улучшение. Однако впечатление меняется, если решается конкретная практическая задача. Зачем пользователю последовательно выбирать команды всех этапов обработки документов? Сканировать, распознавать, передавать в Word… Можно обойтись одной командой: «Передать в Word». Если ведется обработка простого документа, то после нажатия кнопки все остальные операции выполняются автоматически, не прерывая процесс на вопросы с очевидными ответами, а сразу передавая подготовленный текст в программу редактирования. (Такая задача была и в прошлой версии, но в этой она работает явно лучше и доступ к ней стал проще.)
Аналогичные улучшения можно наблюдать в любой подсистеме 11-й версии FineReader. Зачем при сканировании многостраничного документа искать кнопку для обработки каждого нового листа, если можно задать длительность паузы в работе сканера между его последовательными проходами? Достаточно просто заменять один лист другим, не отвлекаясь на поиски кнопки Продолжить. Повышается эффективность работы, производительность труда оператора и снижается его утомляемость.
При тестировании мы иногда задавались вопросом: «Насколько эти функции новы? Они были раньше, и мы почему-то не обращали на них внимания?» Действительно, часть «новых» функций существовала в предыдущих версиях, но они были как бы «скрыты» в недрах меню. Видимо, предполагалось, что пользователь сам найдет их, когда потребуется. При новом подходе к интерфейсу многое меняется, теперь своевременно выдаются подсказки. Чаще всего они полезны, поскольку большинство выполняемых операций, как правило, относится к числу типовых.
Новый интерфейсный подход изменил стереотип «мастеров». В предыдущих версиях они существовали в первую очередь как помощь неопытному пользователю, в новой же версии превращаются в дополнительный козырь. Меняется традиционный сценарий функциональной загрузки (так называемая формула «80/20»), когда обычно только пятая часть доступных функций оказывается востребованной на практике. Благодаря новому интерфейсу удается «поднять из недр» программы функции и возможности, ранее выпадавшие из поля зрения.
Еще одна функция предназначена в первую очередь для корпоративных пользователей – удаление конфиденциальной информации. Возможно, не все обращают на это внимание, но при работе любой программы неминуемо создаются временные файлы, в которые может попадать любая, в том числе закрытая, информация. Но в большинстве случаев пользователь не контролирует этот процесс. Все происходит в недрах компьютера, и вычищать вручную эти данные невозможно и неудобно.
В эпоху бумажного документооборота контроль за сохранностью конфиденциальных данных, например, при копировании документов был чисто «механическим». С переходом на электронную форму хранения данных старые методы перестали действовать. В новой версии FineReader появилась функция удаления конфиденциальных данных из документа, которая позволяет убирать конфиденциальную информацию и с текста, и с изображения. Текст заменяется черной полосой или черными точками во всех слоях документа.
Интересны также новые возможности выбора выходных форматов для сохранения подготовленных документов. Появились новые «мобильные» форматы ePub, fb2 и др. Это качественно расширяет сам подход к применению ABBYY FineReader 11. Если раньше целевым местом для сохранения «снятых» данных был компьютер, то сегодня их список расширяется благодаря мобильным гаджетам: iPad, клонам Android-смартфонам и планшетам, «читалкам» электронных книг. Нам понравился также способ передачи данных через системный буфер обмена. Сам по себе он не нов, но прежде иной раз терялся в недрах программы. Сейчас это один из наиболее эффективных способов качественно и быстро перенести собранный текст в другие документы.
В версии 11 расширен список используемых языков: теперь их 189, включая арабский. Интерес к арабскому языку повышенный, что объясняется его особенностью не только в обратном привычному для нас направлению письма, но и в использовании необычной, довольно сложной системы диакритических знаков (точки, различные значки, размещаемые сверху или снизу основного символа). Они – необходимый элемент языка, но с точки зрения OCR представляют значительную трудность для качественного распознавания. Именно поэтому в мире до сих пор практически нет OCR-продуктов, способных похвастаться качественным распознаванием арабского текста.
Как ни странно, это относится и к другим языкам, например к русскому. Ведь «сканирование» может выполняться не только с помощью сканеров, но и цифровыми камерами или мобильными телефонами. Качество снимков во втором случае часто получается неважным из-за многочисленных артефактов, но благодаря новым алгоритмам, рассчитанным на письменность с большим количеством нестандартных начертаний, удается повысить качество распознавания.
Следует отметить одно ограничение пакета. ABBYY FineReader 11 доступен в двух версиях, Professional и Corporate. Корпоративная версия пакета отличается наличием целого ряда средств, таких как Hot Folder, возможность интеграции с SharePoint, работы в терминальном режиме и т. д. Есть там и возможность создания собственных сценариев, которой недостает в редакции для «профи». Некоторая логика тут прослеживается, готовые сценарии для типовых задач включены в «профессиональный» пакет, – кроме того, существует масса инструментов создания макрокоманд для Windows (а подготовить такую макрокоманду с помощью AutoHotKey – дело максимум 20 мин). Тем не менее и в версии Professional хотелось бы иметь доступ к штатным инструментам.
В качестве тестового задания для пакета ABBYY FineReader 11 выступал отсканированный архив PC Magazine/RE (один номер – 60–100 файлов в формате PNG, каждый объемом 30–40 Мбайт). Примерно 40 номеров было распознано в течение четырех дней. При этом первые два дня работа выполнялась на одноядерной машине, затем на многоядерной. Выигрыш в скорости при выполнении реального задания составил примерно полтора раза. Зависимость явно нелинейная, но надо учитывать, что при обработке объемных файлов начинает сказываться и пропускная способность сети (номера размещались на сетевом сервере).
Главное же – отличное качество распознавания. Попытки отсканировать «залежи» архива предпринимались неоднократно, но версия ABBYY FineReader 10, к сожалению, не очень корректно обрабатывала последовательность текстовых блоков на оригиналах, имеющих сложную, многоколоночную верстку. Версия ABBYY FineReader 9 лучше понимала порядок колонок, но хуже справлялась с таблицами, особенно если там имелись объединенные ячейки. В новой версии серьезных проблем не отмечалось, полоса выдавалась один в один с оригиналом (в режиме точной копии) и, что важно, корректно трансформировалась при сохранении как текст. Пример распознанного файла можно найти на 20years.pcmag.ru/first_issue (это самый первый номер журнала, который тогда еще носил название PC Magazine/USSR, 1/1991).