Big Data. Некоторые практические нюансы | Інформаційна корпоративна служба

Организация постепенно обрастает системами: учетными, финансовыми, аналитическими, CRM и т.д. А следом ее руководство сталкивается с проблемой – как из двух и более систем получить данные в один отчет.

Решается возникшая задача, как правило, тремя способами: вручную копированием информации (зачастую в Экселе), специальной настройкой (BI-системой) и построением единого корпоративного хранилища данных (ХД или DWH) с BI.

Тут важно отметить, что помимо интеграции данных, когда ХД позволяет хранить данные из различных систем, уменьшается нагрузка и на сами эти системы, т.к. пользователи не работают с самими системами, а с интегрированными данными из них.

Для бизнес-пользователей, далеких от ИТ, вероятно, не очень интересно знать какие ХД или BI используются, для чего и пр. Им важно получать определенные данные в заданное время.

Ниже в несколько популяризированном виде предлагаю информацию по системам, доставляющим интегрированную информацию пользователям, в виде своеобразного списка по производителям как баз данных для ХД, так и средств ETL, data mining, BI, т.е. всего того, что требуется серьезным организациям для работы с большими данными.

Дотошные ИТ-специалисты меня, возможно, упрекнут, что нельзя смешивать «коней и людей», т.е. сами платформы, средства визуализации и инструменты интеграции. Но для пущей наглядности пойду на такой риск.

Итак, чертова дюжина производителей, которых потенциальным заказчикам стоит рассмотреть при выборе системы:

Teradata: широкое распространение благодаря хорошему сочетанию цена-качество. Номер 1 по данным квадрантов Gartner.
Oracle: Oracle 11g, OBIEE (was Siebel), ODI, Hyperion, Essbase, Exadata, Golden Gate, Oracle OLAP. Хорошее распространение, хорошее качество, хорошая поддержка.
IBM: DataStage/DataQuality, Infosphere, Cognos, TM1, DB/2, Express, Netezza. Гигант в DWH-BI, в ТОП-3.
Informatica: PowerCentre, IDE, IDQ. Лучший ETL/DI инструмент. До сих пор не куплена большими компаниями.
SAP: BusinessObjects, Business Warehouse, Netweaver BI, Sybase, HANA. Гигант в DWH-BI.
Microsoft: SQL Server, PDW, SSAS, SSIS, SSRS, Crescent, Performance Point, PowerPivot. Наиболее широкое распространение DWH-BI в мире.
EMC/Greenplum: хранилища с MPP (massively parallel processing), работает под Unix/Linux.
HP/Vertica: Vertica – колоночная СУБД, прямой конкурент Sybase IQ от SAP.
SAS: аналитика, data mining, ETL/DI, DQ (DataFlux), MDM. В мире #1 по data mining.
Tableau: лучший SSAS клиент, хорошие графики/визуализация.
MicroStrategy: комплексное решение по отчетности.
QlikTech: QlikView – продукт для аналитики, быстрый во внедрении (1-2 месяца).
Jaspersoft: сильный рост популярности в мире. Широко известен благодаря низкой стоимости. Включает: DI/ETL, Отчетность, Аналитика.

Первые 6 позиций в списке довольно широко применяются в Украине для решения задачи работы с большими данными. Из второй половины списка в Украине есть внедрения SAS, QlikView и пара на MicroStategy, но больше для решения конкретных частных задач. Остальные продукты, к сожалению, практически не получили распространения в нашей стране.

Сегодня, буквально несколько штрихов о практических аспектах.

Поиск / подключение источников
Чаще всего поиск больших данных осуществляют по неструктурированным источникам. Для этих целей существуют механизмы (фетчеры), позволяющие находить данные с веб-форумов, интернет-сайтов, в том числе социальных сетей. Примером является open-source ПО Nutch.

Big Data. Некоторые практические нюансы

Сбор
Так как данных очень много, используют системы распределенных вычислений (типа open-source ПО Hadoop для пакетной работы и NoSQL для точечных ad-hoc), позволяющие распараллелить выполнение запросов по сотням/тысячам серверов. Из терабайт получают максимум гигабайты.

Обработка
После сбора полученные данные надо как-то упорядочить. Есть два основных подхода к этому. Первый предполагает занесение всей информации в реляционную базу данных и затем работу с ней уже традиционными BI-инструментами. Второй – это когда собранные данные загружаются в песочницы (чаще всего в оперативную память), анализируются и, если необходимо, сохраняются в отчетах.

Big Data. Некоторые практические нюансы

Принцип работы
Преимущества второго варианта обработки очевидны – не требуется больших затрат на приобретение для больших объемов реляционных СУБД и нет необходимости заранее знать/проектировать схему данных – поэтому я подробнее рассмотрю его.
Для этого варианта необходима in-memory база данных и инструмент, позволяющий осуществлять морфологический и семантический анализ с последующей визуализацией результатов.
Неделю назад вышел новый релиз такого продукта – Endeca 3.1: Колоночно-ориентированная in-memory СУБД.
Принципиально важно: для Endeca не требуется знать схему данных, что позволяет быстро интегрировать любые типы данных, структурированные или неструктурированные, без усилий, присущих традиционным реляционным моделям данных.
В качестве аппаратного обеспечения наиболее часто используются Exalytics.
Как известно, Exalytics используют для трех видов задач, два из которых известны, наверное, уже всем: для бизнес-аналитики (классического BI) и для систем бюджетирования. Третья возможность как раз предоставляется с помощью Endeca по работе с неструктурированной информацией.

Практическое применение
Продукты такого класса открывают огромные возможности для практического применения технологий, связанных с Big Data:

Мониторинг социальных медиа в режиме реального времени (контроль информационного фона)
Анализ потенциальных и явно выраженных потребностей в товарах и услугах, в т.ч. для определения максимальной начальной цены
Комплексная аналитика по впечатлениям клиентов
Комплексное представление истории развития какой-либо темы в режиме «единого окна»
Конкурентный анализ (конкурентная разведка)
Ведение автоматического досье
Подготовка дайджестов, накопление собственной базы данных новостных документов
Геотаргетирование

А. Попов, Компьютерное обозрение