Тесты цифровой техники

Как развернуть Greenplum в облаке без потерь в производительности и роста затрат – новое исследование от «Кругов Громова»

Аналитика Почты Mail по спаму: вложения в формате Cab и поддельные письма от госсервисов — тренды 2025 года

Эволюция в управлении строительными данными: кейс девелопера Ак Барс Дом и Tangl


	Переход на ITSZ.ru


	Переход на NNIT.ru

Новости на ITSZ Новости на NNIT

Машина наконец-то понимает речь человека

01.06.2011 06:21
версия для печати

31 мая 2011 года компания IBM представила решение для анализа контента. В основе этого решения лежит система искусственного интеллекта, которой был оснащен суперкомпьютер IBM Watson, созданный группой исследователей под руководством Дэвида Феруччи.

В современном мире порядка 85% данных являются неструктурированными. Связано это с тем, что компьютеры, широко применяемые для различных сфер деятельности людей, обычный язык людей не понимают. Корпорации IBM потребовалось около 50 лет, чтобы разработать компьютер, понимающий вопросы, сформулированные на естественном языке и находить на них ответы в базе данных.

Руководитель направления по развитию ECM IBM в Центральной и Восточной Европе Мартин Свик (Martin Svik) Так был создан Watson, суперкомпютер, состоящий из 90 серверов Power 7750, каждый из которых содержит по 4 восьмиядерных процессора Power 7. Суммарная оперативная память Watson – более 15 терабайт. Возможности этого суперкомпьютера были испытаны в телешоу Jeopardy (быстрые ответы на самые разнообразные вопросы). Соперниками были Брэд Раттер и Кен Дженнигс. Суперкомпьютер одержал победу. Во время телешоу он не был подключен к Интернету. Система имела доступ к 200 миллионам страниц структурированной и неструктурированной информации объемом 4 терабайта, включая полный текст Википедии.

Руководитель направления по развитию ECM IBM в России и СНГ Дмитрий Лактионов подчеркнул, что поиск по неструктурированной информации является важной задачей современного общества, о решении которой нужно думать уже сейчас. Несколько лет назад IBM выпустила инструмент WebSphere II OmniFind Edition. Это комплексный продукт, который позволяет выполнять поиск по структурированным или неструктурированным источникам данных. На данный момент продукт поддерживает 12 различных языков, в том числе и русский и многие из известных форматов, определенных стандартом MIME.

Руководитель направления по развитию ECM IBM в России и СНГ Дмитрий Лактионов Сегодня IBM предлагает систему, способную понимать естественный язык. На ее основе уже действует медицинское приложение, анализирующее вопросы пациентов по поводу медицинских препаратов и медтехники. Претензии структурируются по темам, и после анализа могут стать основанием, например, для отзыва неправильно работающей медицинской техники.

Предлагаемая система – IBM OmniFind Enterprise Edition может работать в качестве среды корпоративного поиска, решающая проблему быстрого поиска необходимых данных, разбросанных зачастую по нескольким корпоративным ресурсам.

При анализе информации есть возможность цветом выделять ту или иную эмоциональную окраску сказанного или написанного (например, в социальных сетях). К аналитической машине можно подключать порядка 30 видов различных ресурсов. Система поддерживает практически все распространенные форматы файлов.

Функцию расширенного анализа содержимого документов использует сама корпорация IBM. Пользователи этой системы – сотни тысяч сотрудников корпорации по всему миру. В системе имеются анализаторы, помогающие вычленить из контекста, например, имена комментаторов или другую информацию. Возможно произвести группировку информации по различным индустриям, видам документов. Все эти действия производятся при помощи конвейера анализаторов.

Плюс этой системы в ее гибкости, а минус в том, что для создания анализаторов требуется привлекать квалифицированных программистов.

Руководитель направления по развитию ECM IBM в Центральной и Восточной Европе Мартин Свик (Martin Svik) рассказал о применении технологии, позволяющей понимать естественный язык.

Применяться она может для анализа полицейских протоколов, для крупных Call-центров, для анализа обращений клиентов, например, телекоммуникационной компании. Такие обращения помогли одной из конкретных компаний выявить потребность в новых сервисах и на их основе разработать и предложить новые услуги. В результате компания добилась уменьшения оттока абонентов и повысила прибыль.

Также возможно использование системы в госорганах при намерении принять закон. Анализируя форумы, высказывания в социальных сетях можно выявить настроения, царящие в обществе и отношение к разрабатываемому закону.

В случае с Call-центрами идея заключается в том, чтобы компьютер распознавал речь клиентов, трансформировал ее в текст, и оператор мог работать уже с текстом. Это улучшает обслуживание клиентов, помогает «обойти» такие моменты, как невнятно сформулированный вопрос или речь с явным акцентом, что обычно затрудняет работу операторов.

В настоящее время предлагаемое решение применяется для анализа научной работы вузов (к сожалению, не российских), на основе которой будет выделен грант.

Что касается применения в России, то локализация продукта осуществлена в отношении базовых аспектов языка. Но для конкретных применений требуется глубокая отраслевая локализация, которую смогут провести заказчики либо своими силами, либо с помощью партнеров по внедрению.

Автор: Елена Шашенкова (info@mskit.ru)

Рубрики: Оборудование, ПО

Ключевые слова: использование программного обеспечения, прикладное программное обеспечение, программное обеспечение виды программного обеспечения, программное обеспечение компьютера, разработка программного обеспечения, разработки , разработка программ, программы soft, IBM, оборудование