Добавить новость
Добавить компанию
Добавить мероприятие
Cognitive Technologies представляет новую технологию Cognitive ScanPack
14.04.2011 11:35
версия для печати
При работе с оцифрованными документами, книгами и журналами и т.д. существует две основные проблемы. Во-первых, требуется получить их приемлемое визуальное качество. Однако, известно, что качественное изображение практически всегда занимает чрезмерные объемы дискового пространства. С громоздкими оцифрованными документами неудобно работать, дорого хранить, при их передаче по сетям связи генерируется значительный трафик. Во-вторых, существует необходимость улучшения качества изображения (например, для его дальнейшего распознавания) — очищения от различного рода помех и искажений: следов маркера, капель чернил, следов некачественной печати, следов от дырокола. Да и исходный документ может быть ветхим, напечатанным на плохой бумаге, или быть плохой копией оригинала. Разработанная в компании Cognitive Technologies технология Cognitive ScanPack позволяет решить обе эти проблемы и автоматизировать весь процесс оцифровки бумажных документов — от сканирования до сжатия и упаковки в файлы. Главным отличием технологии Cognitive ScanPack от существующего программного обеспечения для пакетного сканирования и ввода документов является реализация возможностей эффективного сжатия изображений документов. Данный результат был получен за счет реализации в технологии некоего подобия экспертной системы — Cognitive ScanPack умеет понимать тип и структуру документа и автоматически подбирает наиболее подходящий режим обработки. После удаления искажений и помех изображение автоматически разделяется на так называемые слои (текст, иллюстрации, печати, подписи и т. п.). При этом система сама принимает разумное решение — выбирает для каждого слоя свой — наиболее оптимальный алгоритм сжатия с целью получения наиболее качественное и одновременно компактного изображения. В Cognitive ScanPack предусмотрена возможность распознавания текстовых слоев при помощи встроенного ядра OCR-системы CuneiForm (OpenOCR). После обработки и сжатия все слои (включая слой с распознанным текстом) собираются в одностраничный или многостраничный файл в формате PDF/A (стандарт для долговременного хранения документов ISO 19005-1:2005). Данный подход позволяет снизить объем оцифрованных документов в среднем до 10 раз. Например, страховой полис ОСАГО при сохранении в формате JPEG с качеством, пригодным для работы, будет занимать объем 2,42 МБ. Сжатие того же документа с помощью Cognitive ScanPack даст файл объемом 408 КБ, при аналогичном (в некоторых случаях и более лучшем) качестве результата. На разработку технологии Cognitive ScanPack разработчиками было затрачено два года (около 10 000 человеко-часов). Технология имеет значительный потенциал для наращивания качества обработки и сжатия изображений за счет развития алгоритмов понимания структуры документа и анализа изображений. Также в ближайших планах разработчиков расширение набора типов обрабатываемых документов цветными печатными изданиями: газетами, журналами и т.п. Мировой рынок технологий и систем, подобных Cognitive ScanPack, еще не сформирован, но по предварительным оценкам только в российском сегменте его потенциальный объем составит порядка одного миллиарда долларов США. Использование технологии Cognitive ScanPack позволяет автоматизировать процесс сканирования и обработки документов и получать компактные и одновременно качественные оцифрованные документы для долговременного хранения, пригодные для полнотекстового поиска по ним. Редактор раздела: Алена Журавлева (info@mskit.ru) Рубрики: ПО Ключевые слова: автоматизация, системы автоматизации, системная интеграция, системный интегратор
наверх
Для того, чтобы вставить ссылку на материал к себе на сайт надо:
|
|||||
А знаете ли Вы что?
MSKIT.RU: последние новости Москвы и Центра13.11.2024 Т2 запустил первый тариф после ребрендингаз> 31.10.2024 «Осенний документооборот – 2024»: взгляд в будущее системы электронного документооборотаз>
|
||||