Информационный портал mskIT

Оригинал документа: http://mskit.ru/news/n43990/


     
 

Cognitive Technologies объявляет о начале программы «Распознавание должно быть на каждом компьютере»

14.12.2007 05:53
Компания Cognitive Technologies анонсирует разработки в области Open Source. Данное направление в течение последних двух лет переживает небывалый подъем во всем мире и преимущества его очевидны: любой желающий может бесплатно получить программный продукт; любой желающий может доработать продукт в соответствии со своими желаниями и требованиями, благодаря тому, что коды программы открыты.
Как свидетельствует мировой опыт развития Open Source - решений, данные условия предоставляют широкие возможности для масштабного развития программных продуктов. Пример Linux, Apache, Open Office и других продуктов не дает повода в этом усомниться.

Кроме того, как коммерческая компания, Cognitive Technologies видит реальную выгоду от развития направления. OCR – технологии составляют незначительный сегмент ИТ-рынка, но для того, чтобы его активно развивать требуется довольно значительный производственный ресурс. Еще в 1995 году Cognitive Technologies сделал стратегическое заявление о том, что OCR-системы уже достигли промышленного качества распознавания. Дальнейшее повышение точности распознавания не является первостепенной задачей (две или четыре ошибки сделает система на пяти листах не столь принципиально). В дальнейшем они будут трансформироваться в утилиты к «большим системам». К этому, в итоге, и была сведена деятельность компании в части распознавания печатных текстов.

Сегодня уже привычно видеть модули распознавания в системах электронного документооборота, графических и текстовых редакторах. Не секрет, что в ближайшее время возможность распознавания появится и в поисковых машинах. Стоит сказать, что за период с 2000 года никаких революционных изменений в технологиях OCR не произошло. Развитие данных систем шло, главным образом, по пути совершенствования их сервисной стороны и расширения списка дополнительных возможностей (распознавание новых языков и т.д.) (Отметим, что в этот период времени серьезные результаты были получены в сферах forms processing и «понимания» документов).

Весь период разработки OCR CuneiForm, по оценке Cognitive Technologies, составил порядка 470 человеко-лет.
Таким образом, по мнению Cognitive Technologies подключение ресурса «сообщества» в разработки в сфере OCR под руководством ученых-консультантов и менеджеров Cognitive Technologies должно принести значимый эффект. Отметим, что Cognitive Technologies уже имеет значительный научно-производственный опыт работ по направлению Open Source. В течение двух последних лет компания является исполнителем проекта ФЦП «Электронная Россия» по созданию Open Source-решений для органов государственной власти России. Кроме того, несколько месяцев назад Cognitive Technologies начала Open Source проект по распознаванию марок автомобилей, который реализуется с участием студенческого сообщества под эгидой кафедры Когнитивных Технологий, открытой Cognitive Technologies в МФТИ. Результаты по данному проекту планируется получить к 2010 году.

Необходимо отметить, что для компании Cognitive Technologies, в которой научные исследования занимают значительную долю деятельности, Open Source проект OCR CuneiForm представляет огромный научно-практический интерес. Компания предполагает получить комплекс идей и методов, который сможет значительно усилить данную систему и получить в ближайшее время ряд «прорывных» технологических решений.

Объем мирового рынка свободного ПО, по данным аналитической компании Saugatuck Technology, к 2010 году составит $22 млрд. при ежегодном росте в 30%. По данным исследовательского центра "Финам", рынок свободного ПО в России составляет сегодня $40 млн. К 2010 году эта цифра достигнет $200 млн.
Доля Cognitive Technologies к 2010 году может составить 5-7% за счет оказания услуг, технической поддержки и рекламы.

Предполагается, что одним из основных результатов Open Source - проекта OCR CuneiForm должен стать рост популярности и распространенности решений в области распознавания печатных текстов благодаря открытости кода и нулевой стоимости ПО. По данным Cognitive Technologies число активных пользователей систем распознавания (те, кто используют OCR не реже 1 раза в месяц) за счет использования Open Source к 2010 году может возрасти в 5 раз, во многом за счет активного подключения к использованию OCR офисных сотрудников, учащихся школ, студентов вузов, а также государственных структур, для которых бесплатное ПО станет хорошей альтернативой пиратским продуктам.

Таким образом, число пользователей OCR к этому периоду времени может составить порядка 25 млн. человек. (Сегодня это число составляет порядка 5 млн. чел.)

Компания Cognitive Technologies планирует развивать проект в три этапа:

1. OCR Cuneiform - программa Freeware
12 декабря 2007 года OCR CuneiForm станет доступной для широкого использования (freeware). Полную версию системы можно будет скачать с сайта Cognitive Technologies www.cuneiform.ru
2. Подготовка web-сервиса
В рамках данного этапа будет подготовлен Интернет-ресурс www.Cuneiform.ru. Любой желающий сможет бесплатно распознать документы в on-line.
Сроки: конец января 2008 г.
Компания Cognitive Technologies планирует довести число распознаваний на www.Cuneiform.ru до 10 000 в день к концу 2008 г.
3. Подготовка и размещение исходных кодов OCR Cuneiform
Сроки: март 2008 г.

С начала марта 2008 года Cognitive Technologies в качестве инвестора и координатора планирует начать работы по подготовке новой версии OCR CuneiForm с участием широких слоев компьютерного «сообщества».

Информация об OCR CuneiForm:
OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.
распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
полное сохранение топологии страницы;
поддержка пакетного режима сканирования и распознавания;
простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
встроенный текстовый редактор для работы с распознанным текстом;
совмещенный показ изображений и результатов распознавания.
В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.
    
Информация о компании Cognitive Technologies
Компания Cognitive Technologies обладает более чем 35-летним опытом разработки и внедрения программного обеспечения (ПО). Коллектив разработчиков Cognitive Technologies был создан в 1968 году под руководством известного советского ученого, члена-корреспондента РАН В. Л. Арлазарова. Сотрудниками этого коллектива были реализованы более 3000 проектов по созданию и внедрению информационных комплексов, автоматизированных систем управления и операционных систем в органах государственной власти и на крупных промышленных предприятиях СССР, создана программа "КАИССА" (первый чемпион мира по шахматам среди компьютерных программ) и "советский Microsoft" - СУБД ИНЕС (более 2500 инсталляций в стране и в мире).
В 1993 году на базе Лаборатории искусственного интеллекта Института системного анализа РАН (бывший ВНИИСИ АН СССР) О. Усковой и В. Арлазаровым была создана компания Cognitive Technologies.

Редактор раздела: Юрий Мальцев (info@mskit.ru)

Рубрики: Интеграция, ПО, Web

наверх
 
 
     

А знаете ли Вы что?

     
   
     


Copyright 2004 mskIT. Все права защищены
Перепечатка материалов приветствуется при ссылке на www.mskIT.mskit.ru
Ресурс разработан и поддерживается компанией Peterlink Web