rss Twitter Добавить виджет на Яндекс
Реклама:
     
 
 
 
     
     
 
 
 
     
     
 

Cognitive Technologies представляет новую технологию Cognitive ScanPack

Компания Cognitive Technologies объявляет о выходе новой технологии, предназначенной для пакетного сканирования, обработки и сжатия документов — Cognitive ScanPack. Ее создание стало возможно благодаря новым алгоритмам анализа изображений, разработка которых является очередным этапом в решении задачи понимания документов. Технология предназначена для широкого класса бизнес-документов (факсы, договоры, деловые письма, счета, накладные, таблицы и т.д.), доля которых в отечественном документообороте составляют более 90%. В настоящее время технология Cognitive ScanPack уже применяется в системах ввода документов мощностью 10 000 – 100 000 страниц в день, созданных специалистами Cognitive Technologies.

При работе с оцифрованными документами, книгами и журналами и т.д. существует две основные проблемы. Во-первых, требуется получить их приемлемое визуальное качество. Однако, известно, что качественное изображение практически всегда занимает чрезмерные объемы дискового пространства. С громоздкими оцифрованными документами неудобно работать, дорого хранить, при их передаче по сетям связи генерируется значительный трафик. 

Во-вторых, существует необходимость улучшения качества изображения (например, для его дальнейшего распознавания) — очищения от различного рода помех и искажений: следов маркера, капель чернил, следов некачественной печати, следов от дырокола. Да и исходный документ может быть ветхим, напечатанным на плохой бумаге, или быть плохой копией оригинала. 

Разработанная в компании Cognitive Technologies технология Cognitive ScanPack позволяет решить обе эти проблемы и автоматизировать весь процесс оцифровки бумажных документов — от сканирования до сжатия и упаковки в файлы.

Главным отличием технологии Cognitive ScanPack от существующего программного обеспечения для пакетного сканирования и ввода документов является реализация возможностей эффективного сжатия изображений документов. Данный результат был получен за счет реализации в технологии некоего подобия экспертной системы — Cognitive ScanPack умеет понимать тип и структуру документа и автоматически подбирает наиболее подходящий режим обработки. После удаления искажений и помех изображение автоматически разделяется на так называемые слои (текст, иллюстрации, печати, подписи и т. п.). При этом система сама принимает разумное решение — выбирает для каждого слоя свой — наиболее оптимальный алгоритм сжатия с целью получения наиболее качественное и одновременно компактного изображения. В Cognitive ScanPack предусмотрена возможность распознавания текстовых слоев при помощи встроенного ядра OCR-системы CuneiForm (OpenOCR). 

После обработки и сжатия все слои (включая слой с распознанным текстом) собираются в одностраничный или многостраничный файл в формате PDF/A (стандарт для долговременного хранения документов ISO 19005-1:2005).

Данный подход позволяет снизить объем оцифрованных документов в среднем до 10 раз. Например, страховой полис ОСАГО при сохранении в формате JPEG с качеством, пригодным для работы, будет занимать объем 2,42 МБ. Сжатие того же документа с помощью Cognitive ScanPack даст файл объемом 408 КБ, при аналогичном (в некоторых случаях и более лучшем) качестве результата. 

На разработку технологии Cognitive ScanPack разработчиками было затрачено два года (около 10 000 человеко-часов). Технология имеет значительный потенциал для наращивания качества обработки и сжатия изображений за счет развития алгоритмов понимания структуры документа и анализа изображений. Также в ближайших планах разработчиков расширение набора типов обрабатываемых документов цветными печатными изданиями: газетами, журналами и т.п. 

Мировой рынок технологий и систем, подобных Cognitive ScanPack, еще не сформирован, но по предварительным оценкам только в российском сегменте его потенциальный объем составит порядка одного миллиарда долларов США. 

Использование технологии Cognitive ScanPack позволяет автоматизировать процесс сканирования и обработки документов и получать компактные и одновременно качественные оцифрованные документы для долговременного хранения, пригодные для полнотекстового поиска по ним.

Редактор раздела: Алена Журавлева (info@mskit.ru)

Рубрики: ПО

Ключевые слова: автоматизация, системы автоматизации, системная интеграция, системный интегратор

наверх
 
 
     

А знаете ли Вы что?

     
 

MSKIT.RU: последние новости Москвы и Центра

13.11.2024 Т2 запустил первый тариф после ребрендинга

31.10.2024 «Осенний документооборот – 2024»: взгляд в будущее системы электронного документооборота

NNIT.RU: последние новости Нижнего Новгорода

ITSZ.RU: последние новости Петербурга