Современный документооборот характеризуется передачей и обработкой больших объемов данных. И здесь одну из важнейших ролей играют системы автоматизированного распознавания текста, призванные заменить ручной труд машинисток, которые переносят данные с бумажных носителей в информационные системы для дальнейшей обработки. Статистика показывает, что профессиональная машинистка, при наборе документа совершает 4 ошибки на тысячу знаков в начале работы и до 20 — к концу рабочего дня. Современные же системы автоматического ввода допускают не более 1 ошибки на тысячу знаков. Чем же так хороша система SmartCapture?
SmartCapture
-
Основные возможности SmartCapture — это:
- Мультипроектная обработка, т.е. способность обрабатывать несколько проектов одновременно. Вы можете работать, например, с платежными поручениями и требованиями, обрабатывать сложные формы анкет на выдачу пластиковых карт или кредита, и одновременно с этим обрабатывать и передавать данные для различных структурных подразделений Вашей организации.
- Безопасность системы: аутентификация пользователей с использованиям электронной подписи, либо учетной записи и пароля, для доступа к работе с системой. Получить доступ к процессу обработки информации в рамках конкретного проекта может только человек, чьи данные внесены Администратором системы в список пользователей. Причем доступ может быть разрешен как ко всем станциям, так и только к отдельным из них. Применение электронной подписи для подтверждения подлинности документов.
- Logger: система сбора статистических данных позволяет хранить информацию о каждом проекте, и о движении всех документов в конкретном проекте, с момента создания документа (файла образа) до экспорта полученных данных во внешнюю среду.
- Масштабируемость: система может быть оснащена дополнительными станциями в любое время, процесс обработки документов для этого прерывать не надо; число станций может быть изменено для решения определенной задачи.
- Возможность обработки документов, полученных из различных источников: система может гибко вписаться в схему интеграции корпоративной информации, выступая в качестве получателя информации из различных источников (сканер, факс, многофунциональные устройства, электронные письма и т.д.) и являясь поставщиком данных для прочих потребителей информации в организации.
- Широкие настройки параметров экспорта. Богатый набор встроенных экспортеров позволяет системе преобразовывать данные в необходимый пользователю формат, начиная от текстовых фалов и заканчивая передачей полученной информации в базы данных.
- Получение данных, используя технологию гибких форм. Технология гибких форм позволяет системе обрабатывать документы, которые, как правило, не имеют четкой структуры, и поля данных меняют свое местоположение от документа к документу. В качестве таких документов выступают платежные поручения и требования, которые действуют на территории Республики Беларусь с 1 мая 2006 года и допустимые отклонения, в размерах которых не позволяют использовать жесткие формы. Система логически определяет местоположение таких полей в теле документа и извлекает из них необходимые данные.
- Расширяемость: возможность взаимодействия с внешним кодом заказчика для проверки правил и т.д. При необходимости система может контролировать правильность полученных данных, используя наборы внешних правил, разработанные с учетом требований заказчика. Это гарантирует, что ключевая информация, необходимая заказчику, будет 100% верной.
- Возможность одновременной обработки документов различных типов. Система способна в рамках проекта обрабатывать документы различных типов — одно и многостраничные, с постоянно и переменной структурой, самостоятельно логически определяя тип документа и применяя к нему соответствующие правила проверки.
- Возможность обработки многостраничных документов. Система способна обрабатывать многостраничные документы, основная проблема обработки которых — определение конца предыдущего документа и начала следующего в потоке документов. Логика системы позволяет справиться с этой задачей.
- Возможность удаленного экспорта. Система способна выполнять экспорт в инфромационную систему заказчика даже случае различных параметров доступа в центральном и удаленном отделениях.
- Распознавание штрих-кодов. Поддерживается распознавание штрих-кодов, в том числе двумерных типа PDF-417.
- Распознавание рукопечатного текста. Поддерживается обработка машиночитаемых форм, заполненных рукопечатными символами.
-
SmartCapture — основной продукт в линейке программного обеспечения, основанного на технологии SDP, и один из самых перспективных продуктов в области автоматизированной обработки документов.SmartCapture используется для потоковой обработки и извлечения данных из документов, как на бумажном носителе, так и из графических файлов различных форматов, а также файлов широко распространенного формата PDF. Эта система способна обрабатывать:
- одно- и многостраничные документы;
- документы на бумажном носителе или полученные с использованием факсовых программ и т.д. ;
- документы с постоянной структурой (например, бланки заказов, различные виды анкет, приложения и т.д.);
- полуструктурированные документы (счета, распоряжения, накладные, платежные поручения и требования и т.д.);
- документы, которые не имеют, как правило, четкой структуры (контракты, письма, и т.д.).
Применение
В настоящее время SmartCapture доступен в следующих исполнениях:
— для решения задач автоматизации обработки документов в государственных учреждениях —SmartCapture;
— для нужд банков — SmartCapture Bank, которая поставляется вместе с шаблоном платежных требований и платежных поручений в национальной валюте и Станцией Дополнительного Контроля, предназначеной для осуществления контроля оформления ряда платежных документов уполномоченным лицом банка;Уникальная гибкость технологии позволяет использовать продукт в системах интеграции корпоративной информации, в качестве поставщика данных, необходимых конкретным пользователям в режиме реального времени или создавая виртуальные хранилища данных. Кроме того, многозадачность и многопоточность SmartCapture позволяют использовать ее в качестве поставщика данных для различных организаций, давая возможность создавать удаленный центр, который предоставляет услуги обработки информации.
SmartCapture способна осуществлять экспорт данных в следующие форматы:
- XML;
- XSLT;
- HTML;
- RTF;
- XLS;
- TXT;
- PDF;
- ADO;
- ODBC.
SmartCapture способна интегрироваться со следующими системами документооборота и межплатформенного ПО:
- DOCS Open;
- WebSphere.
Кроме того, SmartCapture Bank обладает способностью экспорта в специальные формат: bank exporter — экспортер платежных поручений и требований.
Система может применяться в качестве одного из структурных звеньев в системах интеграции корпоративных приложений, поддерживая широко распространенный стандарт XML. При этом система обладает возможностью передавать информацию остальным составляющим структуры в необходимом для них формате.
Производительность
Производительность системы можно наращивать в режиме реального времени, не прекращая ни на минуту обработку документов, путем увеличения числа станций распознавания и проверки правил, для работы которых не требуется контроль оператора.
Дополнительные модули
Дополнительный модуль SmartArchive. Модуль предназначен для организации хранения и оптимизированного поиска данных, полученных при обработке пакетов документов системой SmartCapture. Модуль позволяет создавать архивы в соответствии с заданными пользователем параметрами (например, разделять данные в рамках обрабатываемого пакета по каким-либо критериям), а также осуществлять поиск данных, по алгоритмам, заданным различными наборами правил.
Дополнительный модуль SC: Канцелярия. Модуль предназначен для обработки всей входящей почтовой корреспонденции. В состав модуля входит станция сканирования, проект “входящие письма”, модуль интеграции с системой электронного документооборота предприятия.
Дополнительный модуль SCBank: Экспресс кредитование. Модуль предназначен для автоматизации ввода и обработки кредитного портфеля при оказании услуги экспресс кредитования. В состав модуля входит станция сканирования, проекты “заявление на кредит” и “паспорт”, модуль интеграции с базой данных экспресс кредитования банка.
-
SmartCapture — это распределенная система, которая состоит из шести станций, каждая из которых спроектирована для решения определенных задач в процессе работы с потоками документов.
Весь процесс ввода документов, т.е. перевода данных, содержащихся в информационных полях заполненных документов, в электронный вид, состоит из следующих основных этапов:
- сканирование документа, либо получение документа из иных источников;
- анализ типа и структуры документа (разбиение потока документов на отдельные страницы);
- получение (захват) данных из документа;
- проверка данных. Верификация — одна из функций, позволяющая системе показывать высокие результаты по извлечению данных. Групповая верификация предполагает ситуацию, когда неуверенно распознанные символы с одинаковым значением из разных документов объединяются в группы, которые подтверждаются оператором. Это повышает эффективность проверки неуверенно распознанных символов при больших объемах данных. Контекстная верификация предполагает, что при низком качестве документа, понять и подтвердить, что означает тот или иной символ можно только исходя из контекста;
- корректировка ошибок. После проверки правил и верификации документы, содержащие ошибки поступают на станцию корректировки, где ошибки устраняются оператором, а затем проверенные документы отправляются на повторную проверку;
- контроль качества. Станция контроля качества осуществляет мониторинг процессов, происходящих в системе, и позволяет устранять логические ошибки, например в структуре документа;
- экспорт данных в информационную систему. Как уже отмечалось, система обладает развитыми экспортными функциями, широким диапазоном форматов и возможностью интеграции с ведущими системами документооборота и межплатформенного ПО;
Как правило, процесс считается завершённым, когда все заполненные документы обработаны, а все данные введены, проверены и экспортированы в формат используемой информационной системы. При этом требуется обеспечить высокое качество данных и скорость обработки. Функции логического распознавания, верификации, контроля качества и др. позволяют SmartCapture гарантировать высокие результаты.
В зависимости от особенностей построения схемы комплекса или порядка прохождения банковских документов заказчика возможны и иные реализации технологического процесса. В качестве примеров могут служить решения, разработанные нами и применяемые у наших клиентов.
Вариант А. Реализация системы с единым республиканским центром обработки документов и станциями сканирования, размещенными в удаленных отделениях.
В этом случае документы, отсканированные в отделениях, передаются в республиканский центр обработки, где после процесса распознавания полученные данные проходят корректировку в отдельном подразделении.
Вариант B. Реализация системы с разделенными областными центрами обработки документов и станциями сканирования, размещенными в удаленных отделениях.
Такая реализация позволяет сократить нагрузку на каналы связи, т.е. предъявлять к ним упрощенные требования и, как следствие, увеличить количество обрабатываемых документов. Кроме того, такая организация процесса позволяет учитывать особенности информационных систем областных управлений, при их существенных отличиях между собой. В этом случае данные, полученные на этапе сканирования, передаются по каналам связи в центры обработки, расположенные в областных управлениях, где соответствующие структурные подразделения будут заниматься их корректировкой.
Вариант C. Реализация системы с единым республиканским центром распознавания документов и станциями сканирования и корректировки, размещенными в удаленных отделениях.
При такой организации процесса нет необходимости формировать структурные подразделения, занимающиеся корректировкой. Станции сканирования и корректировки могут быть размещены на одном компьютере, для обработки поступаемых документов достаточно обучить необходимое число операторов. Все это позволяет в итоге снизить затраты на персонал и материально-техническое оснащение. Вместе с тем, в отличие от предыдущего варианта, при увеличении количества станций распознавания увеличивается производительность системы в целом, а не отдельных ее участков.
Вариант D. Реализация системы с единым республиканским центром распознавания документов, станциями корректировки, размещенными в областных центрах обработки и станциями сканирования, размещенными в удаленных отделениях.
Данное решение сочетает в себе гибкость предыдущих вариантов технического процесса. Так оно позволяет увеличивать производительность всей системы в целом, за счет увеличения количества станций распознавания в республиканском центре; равномерно распределять нагрузку за счет существования региональных подразделений, ответственных за корректировку документов. Вместе с тем, нет необходимости в использовании нескольких станций администратора для работы в регионах. Кроме того, вступает в силу т.н. принцип мануфактуры – человек может выполнять работу эффективнее, выполняя одну задачу, а, не тратя силы на несколько.
-
Для функционирования SmartCapture необходимы компьютеры, удовлетворяющие следующим требованиям:
Аппаратные требования:
Станция Администратора
- CPU: P4 2.0 GHz
- RAM: 512 MB
- Network adapter: 3Com 100Mbit
- HDD: 100 GB 7200 rpm
- RAID controller
Станция Smart Scan*
- CPU: P4 2.0 GHz
- RAM: 256 MB
- Network adapter: 3Com 100Mbit
- HDD: 40 GB 7200 rpm
- SCSI2 Card или USB 2.0
- TWAIN-совместимый сканер
Станция распознавания
- CPU: P4 2.8 GHz
- RAM: 512 MB
- Network adapter: 3Com 100Mbit
- HDD: 40 GB 7200 rpm
Станция Корректировки Ошибок*
- CPU: P4 2.0 GHz
- RAM: 256 MB
- Network adapter: 3Com 100Mbit
- HDD: 40 GB 7200 rpm
Станция Контроля Качества
- CPU: P4 2.0 GHz
- RAM: 256 MB
- Network adapter: 3Com 100Mbit
- HDD: 40 GB 7200 rpm
Программные требования для всего комплекса:
- ОС: Windows XP Service Pack 2 or Windows 2000 Service Pack 4
- .NET Framework 1.1
Дополнительные программные требования для Станции распознавания:
- ABBYY Form Reader 6.0 только для Станции Form OCR
- ABBYY Fine Reader Engine 7.0 for только для Станции Fine OCR
* Возможно размещение на одном компьютере