Business Intelligence (BI) системы для бизнес-анализа. Эффективная бизнес-аналитика и качественный анализ данных Подходы к анализу данных бизнес аналитика

За десятилетия работы с крупными заказчиками компания «Форс» накопила огромный опыт работы в области бизнес-анализа и сейчас активно развивает технологии больших данных. Об экспертизе в этой области, крупных внедрениях, собственных решениях, крупнейшем в мире центре тестирования решений Oracle в интервью CNews рассказала Ольга Горчинская, директор по исследовательским проектам и руководитель направления Big Data «Форс».

15.10.2015

Ольга Горчинская

За последние годы сменилось поколение руководителей. К управлению компаниями пришли новые люди, которые делали карьеру уже в эпоху информатизации, и они привыкли использовать компьютеры, интернет и мобильные устройства как в повседневной жизни, так и для решения рабочих задач.

CNews: Насколько инструменты BI востребованы российскими компаниями? Есть ли изменения в подходе к бизнес-анализу: от «аналитики в стиле Excel» к использованию аналитического инструментария топ-менеджерами?

Ольга Горчинская:

Сегодня потребность в инструментах бизнес-анализа уже достаточно высока. Их используют крупные организации практически во всех секторах экономики. И средний, и малый бизнес тоже понимают преимущества перехода от Excel к специализированным аналитическим решениям.

Если мы сравним эту ситуацию с той, что была в компаниях еще пять лет назад, то увидим значительный прогресс. За последние годы сменилось поколение руководителей. К управлению компаниями пришли новые люди, которые делали карьеру уже в эпоху информатизации, и они привыкли использовать компьютеры, интернет и мобильные устройства как в повседневной жизни, так и для решения рабочих задач.

CNews: Но проектов больше не становится?

Ольга Горчинская:

В последнее время мы отмечаем некоторое снижение числа новых крупных BI-проектов. Во-первых, играет роль сложная общая экономическая и политическая ситуация. Она сдерживает старт некоторых проектов, связанных с внедрением западных систем. Интерес к решениям на основе свободно распространяемого программного обеспечения также затягивает старт BI-проектов, поскольку требует предварительного изучения этого сегмента ПО. Зрелость многих решений Open Source в области аналитики не настолько высока, чтобы использовать их повсеместно.

Во-вторых, уже произошло определенное насыщение рынка. Сейчас не так много организаций, где не используется бизнес-анализ. И, видимо, проходит время активного роста внедрений больших корпоративных аналитических систем.

И, наконец, важно отметить – сейчас у заказчиков идет смещение акцентов в использовании BI-инструментов, что сдерживает рост числа привычных нам проектов. Дело в том, что лидирующие поставщики – Oracle, IBM, SAP – строят свои BI-решения на идее единой согласованной логической модели данных, означающей, что, прежде чем что-то анализировать, необходимо четко определить и согласовать все понятия и показатели.

Вместе с очевидными преимуществами это приводит к большой зависимости бизнес-пользователей от ИТ специалистов: при необходимости включить в круг рассмотрения какие-то новые данные бизнесу приходится постоянно обращаться к ИТ для загрузки данных, согласования их с существующими структурами, включения в общую модель и т.д. Сейчас мы видим, что бизнес хочет большей свободы, и ради возможности самостоятельно добавлять новые структуры, интерпретировать и анализировать их по собственному усмотрению пользователи готовы пожертвовать какой-то частью корпоративной согласованности.

Поэтому сейчас на первый план выходят легкие инструменты, позволяющие конечным пользователям работать непосредственно с данными и не очень заботиться о согласованности на корпоративном уровне. В результате мы наблюдаем успешное продвижение Tableaux и Qlick, которые позволяют работать в стиле Data Discovery, и некоторую потерю рынка большими поставщиками решений.

CNews: Это объясняет, почему ряд организаций внедряет по несколько BI-систем – особенно это заметно в финансовом секторе. Но можно ли считать такую информатизацию нормальной?


Ольга Горчинская

Сегодня ведущую роль играют инструменты, которые мы раньше считали слишком легковесными для корпоративного уровня. Это решения класса Data Discovery.

Ольга Горчинская:

Действительно, на практике часто в крупных организациях используется не единая, а несколько независимых аналитических систем, каждая со своими BI-инструментами. Идея общекорпоративной аналитической модели оказалась некоторой утопией, она не так популярна и даже ограничивает продвижение аналитических технологий, поскольку на практике каждый департамент, а то и отдельный пользователь хочет независимости и свободы. В этом нет ничего ужасного. Ведь в одном и том же банке специалистам в области рисков и маркетологам нужны совершенно разные BI-инструменты. Поэтому вполне нормально, когда компания выбирает не громоздкое единое решение для всех задач, а несколько небольших, наиболее подходящих для отдельных департаментов систем.

Сегодня ведущую роль играют инструменты, которые мы раньше считали слишком легковесными для корпоративного уровня. Это решения класса Data Discovery. В них заложена идея простоты работы с данными, быстроты, гибкости и удобного для восприятия представления результатов анализа. Есть и еще одна причина растущей популярности таких инструментов: компании все больше испытывают потребность работать с информацией изменяющейся структуры, вообще неструктурированной, с «размытым» смыслом и не всегда понятной ценностью. В этом случае востребованы более гибкие инструменты, чем классические средства бизнес-анализа.

«Форс» создал крупнейшую в Европе и уникальную в России площадку – Fors Solution Center. Основная его задача – приблизить новейшие технологии Oracle к конечному заказчику, помочь партнерам в их освоении и применении, сделать процессы тестирования оборудования и ПО максимально доступными. Это своего рода дата-центр для тестирования партнерами систем и облачных решений.

CNews: Как технологии больших данных помогают развиваться бизнес-аналитике?

Ольга Горчинская:

Эти направления – большие данные и бизнес-аналитика – сближаются друг с другом и, на мой взгляд, граница между ними уже размыта. Например, углубленная аналитика считается «большими данными», хотя она существовала еще до появления Big Data. Сейчас интерес к машинному обучению, статистике повышается, и с помощью этих технологий больших данных можно расширить функциональность традиционной бизнес-системы, ориентированной на вычисления и визуализацию.

Кроме этого, концепцию хранилищ данных расширило использование технологии Hadoop, что привело к новым стандартам построения корпоративного хранилища в виде «озера данных» (data lakes).

CNews: Для каких наиболее перспективных задач используются решения в области больших данных?

Ольга Горчинская:

Мы используем технологии больших данных в BI-проектах в нескольких случаях. Первый – когда необходимо повысить производительность существующего хранилища данных, что очень важно в условиях, когда у компаний большими темпами растут объемы используемой информации. Хранить сырые данные в традиционных реляционных базах данных очень дорого, для их обработки требуются все большие мощности. В таких случаях разумнее использовать инструментарий Hadoop, очень эффективный вследствие самой своей архитектуры, гибкий, приспосабливаемый для конкретных нужд и выгодный с экономической точки зрения, так как в его основе лежит Open Source решение.

С помощью Hadoop мы, в частности, решили задачу хранения и обработки неструктурированных данных в одном крупном российском банке. В данном случае речь шла о больших объемах регулярно поступающих данных меняющейся структуры. Эту информацию необходимо обрабатывать, разбирать, извлекать из нее числовые показатели, а также сохранять и исходные данные. Учитывая значительный рост объемов поступающей информации, использовать для этого реляционное хранилище становилось слишком дорогим и малоэффективным способом. Мы создали отдельный Hadoop-кластер для обработки первичных документов, результаты которой загружаются в реляционное хранилище для анализа и дальнейшего использования.

Второе направление – внедрение средств углубленной аналитики для расширения функциональности BI-системы. Это очень перспективное направление, поскольку оно связано не только с решением ИТ-задач, но и с созданием новых возможностей для бизнеса.

Вместо организации специальных проектов по внедрению углубленной аналитики мы стараемся расширять рамки существующих проектов. Например, практически для любой системы полезной функцией является прогнозирование показателей на основе имеющихся исторических данных. Это не такая простая задача, она требует не только навыков работы с инструментами, но и определенной математической подготовки, знания статистики и эконометрики.

В нашей компании есть специальная группа специалистов по анализу данных, которые отвечают этим требованиям. Ими был выполнен проект в области здравоохранения по формированию регламентной отчетности, причем дополнительно в рамках этого проекта было реализовано прогнозирование загруженности медицинских организаций и их сегментация по статистическим показателям. Ценность таких прогнозов для заказчика понятна, для него это не просто использование какой-то новой экзотической технологии, а вполне естественное расширение аналитических возможностей. В результате стимулируется интерес к развитию системы, а для нас – новые работы. Сейчас мы аналогичным образом внедряем технологии прогнозной аналитики в проекте для городского управления.

И, наконец, у нас есть опыт внедрения технологий больших данных там, где речь идет об использовании неструктурированных данных, прежде всего, различных текстовых документов. Интернет открывает большие возможности с его огромными объемами неструктурированной информации, содержащей полезные сведения для бизнеса. Очень интересный опыт у нас был связан с разработкой системы оценки стоимости объектов недвижимости для компании РОСЭКО по заказу Российского общества оценщиков. Для подбора объектов-аналогов система осуществляла сбор данных из источников в интернете, обрабатывала эту информацию с использованием лингвистических технологий и обогащала с помощью гео-аналитики с применением методов машинного обучения.

CNews: Какие собственные решения «Форс» развивает на направлениях бизнес-аналитики и больших данных?

Ольга Горчинская:

Мы разработали и развиваем специальное решение в области больших данных – ForSMedia. Это платформа анализа данных социальных сетей для обогащения знаний о клиентах. Ее можно использовать в разных отраслях: финансовом секторе, телекоме, ритейле – везде, где хотят как можно больше знать о своих клиентах.


Ольга Горчинская

Мы разработали и развиваем специальное решение в области больших данных – ForSMedia. Это платформа анализа данных социальных сетей для обогащения знаний о клиентах.

Типичный сценарий использования – разработка таргетированных маркетинговых кампаний. Если у компании 20 миллионов клиентов, распространять все рекламные объявления по базе нереально. Нужно сузить круг получателей объявлений, и целевая функция здесь – повысить отклик клиентов на маркетинговое предложение. В этом случае мы можем загрузить в ForSMedia базовые данные обо всех клиентах (имена, фамилии, даты рождения, место жительства), а затем на основании информации социальных сетей дополнить их новыми полезными сведениями, включая круг интересов, социальный статус, состав семьи, область профессиональной деятельности, музыкальные предпочтения и т. д. Безусловно, такие знания можно найти далеко не для всех клиентов, поскольку определенная их часть вообще не используют социальные сети, но для целевого маркетинга и такой «неполный» результат дает огромные преимущества.

Социальные сети – очень богатый источник, хотя работать с ним сложно. Не так легко идентифицировать человека среди пользователей – люди часто используют разные формы своих имен, не указывают возраст, предпочтения, непросто выяснить особенности пользователя на основе его постов, групп подписки.

Платформа ForSMedia решает все эти задачи на основе технологий больших данных и позволяет в массовом режиме обогащать данные о клиентах и анализировать результаты. Среди используемых технологий – Hadoop, среда статистических исследований R, средства лингвистической обработки компании RCO, инструменты Data Discovery.

Платформа ForSMedia максимально использует ПО свободного распространения и может быть установлена на любой аппаратной платформе, отвечающей требованиям бизнес-задачи. Но для крупных внедрений и при повышенных требованиях к производительности мы предлагаем специальную версию, оптимизированную для работы на программно-аппаратных комплексах Oracle – Oracle Big Data Appliance и Oracle Exalytics.

Использование в больших проектах инновационных интегрированных комплексов Oracle – важное направление нашей деятельности не только в области аналитических систем. Такие проекты получатся недешевыми, но за счет масштабов решаемых задач они полностью себя оправдывают.

CNews: Заказчики могут как-то испытать эти системы, прежде чем принимать решение о покупке? Вы предоставляете, например, тестовые стенды?

Ольга Горчинская:

В этом направлении мы не просто предоставляем тестовые стенды, а создали крупнейшую в Европе и уникальную в России площадку – Fors Solution Center. Основная его задача – приблизить новейшие технологии Oracle к конечному заказчику, помочь партнерам в их освоении и применении, сделать процессы тестирования оборудования и ПО максимально доступными. Идея возникла не на пустом месте. «Форс» уже почти 25 лет занимается разработкой и внедрением решений на базе технологий и платформ Oracle. У нас большой опыт работы и с клиентами, и с партнерами. Фактически «Форс» - это центр компетенций Oracle в России.

Учитывая этот опыт, в 2011 году, когда появились первые версии машины баз данных Oracle Exadata, мы создали первую лабораторию по освоению этих систем, назвав ее ExaStudio. На ее базе десятки компаний могли открыть для себя возможности новых программно-аппаратных решений Exadata. Наконец, в 2014 году мы превратили ее в своего рода дата-центр для тестирования систем и облачных решений – это и есть Fors Solution Center.

Сейчас в нашем Центре представлена полная линейка новейших программно-аппаратных комплексов Oracle – от Exadata и Exalogic до машины больших данных Big Data Appliance, – которые, по сути, выступают как тестовые стенды для наших партнеров и клиентов. Помимо тестирования, здесь можно получить услуги по аудиту информационных систем, миграции на новую платформу, настройке, конфигурированию и масштабированию.

Центр активно развивается и в направлении использования облачных технологий. Не так давно архитектура Центра была доработана таким образом, чтобы предоставлять свои вычислительные ресурсы и услуги в облаке. Теперь заказчики могут воспользоваться производительными мощностями по схеме самообслуживания: загружать в облачную среду тестовые данные, приложения и осуществлять тестирование.

В результате компания-партнер или заказчик могут без предварительных инвестиций в оборудование и пилотные проекты на своей территории загрузить собственные приложения в наше облако, протестировать, сравнить результаты по производительности и принять то или иное решение о переходе на новую платформу.

CNews: И последний вопрос – что вы представите на Oracle Day?

Ольга Горчинская:

Oracle Day – это главное мероприятие года в России для корпорации и всех ее партнеров. «Форс» неоднократно был его генеральным спонсором, и в этом году - тоже. Форум будет целиком посвящен облачной тематике - PaaS, SaaS, IaaS, и пройдет как Oracle Cloud Day, поскольку Oracle уделяет огромное внимание этим технологиям.

На мероприятии мы представим свою платформу ForSMedia, а также будем рассказывать об опыте использования технологий больших данных, о проектах в области бизнес-аналитики. И, конечно, расскажем о новых возможностях нашего Fors Solution Center в области построения облачных решений.

Малый бизнес в странах СНГ пока не применяет анализ данных для развития бизнеса, определения корреляций, поиска скрытых закономерностей: предприниматели обходятся отчетами маркетологов и бухгалтеров. Руководители малых и частично средних предприятий больше полагаются на свою интуицию, чем на анализ. Но при этом у аналитики огромный потенциал: она помогает снизить затраты и повысить прибыль, быстрее и объективнее принимать решения, оптимизировать процессы, лучше понимать клиентов и совершенствовать продукт.

Бухгалтер не заменит аналитика

Руководители малых предприятий часто полагают, что отчеты маркетологов и бухгалтеров достаточно адекватно отображают деятельность компании. Но на основе сухой статистики принять решение очень сложно, а ошибка в подсчетах без профильного образования неминуема.

Кейс 1. Пост-анализ акционных кампаний. К Новому году предприниматель объявил акцию, в рамках которой определенные товары предлагались со скидкой. Оценив выручку за новогодний период, он увидел, как повысились продажи, и обрадовался своей находчивости. Но давайте учтем все факторы:

  • Продажи особенно сильно растут в пятницу, в день, когда выручка максимальная - это недельный тренд.
  • Если сравнивать с ростом продаж, который обычно происходит под Новый год, то выигрыш не так и велик.
  • Если отфильтровать акционные товары, оказывается, что показатели продаж ухудшились.

Кейс 2. Исследование товарооборачиваемости. У магазина женской одежды сложности с логистикой: товар на некоторых складах в дефиците, а на некоторых лежит месяцами. Как определить без анализа продаж, сколько брюк завести в один регион, а сколько пальто отправить в другой, при этом получить максимальную прибыль ? Для этого нужно просчитать товарооборачиваемость, соотношение скорости продаж и среднего товарного запаса за определенный период. Если выразиться проще, товароборачиваемость это показатель того, за сколько дней магазин продаст товар, как быстро продается средний запас, как быстро окупается товар. Хранить большие запасы экономически невыгодно, так как это замораживает капитал, замедляет развитие. Если запас снижать, может появиться дефицит, и компания снова недополучит прибыль. Где найти золотую середину, соотношение, при котором продукт не застаивается на складе, и в то же время вы можете дать определенную гарантию, что клиент найдет нужную единицу в магазине? Для этого аналитик должен помочь вам определить:

  • желательную оборачиваемость,
  • динамику оборачиваемости.

При расчете с поставщиками с отсрочкой нужно также высчитывать соотношение кредитной линии и оборачиваемости. Оборачиваемость в днях = Средний товарный запас * количество дней / Товарооборот за этот период.

Расчет остатков ассортимента и общей оборачиваемости по магазинам помогает понять, куда необходимо переместить часть товара. Стоит подсчитывать и то, какая оборачиваемость у каждой единицы ассортимента, чтобы принимать решение уценка при пониженном спросе, дозаказ при повышенном, перемещение на иной склад. По категориям можно разработать отчет по оборачиваемости в таком виде. Видно, что майки и джемперы продаются быстрее, а вот пальто - достаточно долго. Сможет ли такую работу провести обычный бухгалтер? Сомневаемся. При этом регулярный расчет товарооборачиваемости и применение результатов может повысить прибыль на 8-10%

В каких сферах применим анализ данных?

  1. Продажи. Важно понимать, почему продажи идут хорошо (или плохо), какова динамика. Чтобы решить эту задачу, нужно исследовать факторы влияния на прибыль и выручку – например, проанализировать длину чека и выручку на покупателя. Такие факторы можно исследовать по группам товаров, сезонам, магазинам. Можно определять возвышения и ямы продаж, анализируя возвраты, отмены и другие операции.
  2. Финансы. Мониторинг показателей нужен любому финансисту для наблюдения за кешфлоу и распределения активов по различным сферам деятельности бизнеса. Это помогает оценить эффективность налогообложения и другие параметры.
  3. Маркетинг. Любая маркетинговая компания нуждается в прогнозах и пост-анализе акций. На этапе проработки идеи нужно определить группы товаров (контрольные и целевые), для которых создаем предложение. Это – тоже работа для аналитика данных, так как обычный маркетолог не обладает нужным инструментарием и навыками для хорошего анализа.Например, если для контрольной группы сумма выручки и количество покупателей одинаково больше в сравнении с целевой – акция не сработала. Для определения этого нужен интервальный анализ.
  4. Управление. Иметь лидерские качества недостаточно для лидера компании. Количественные оценки работы персонала в любом случае нужны для грамотного управления предприятием. Эффективность управления фондом оплаты труда, соотношение зарплаты и продаж важно понимать так же, как и эффективность процессов – например, загруженности касс или занятости грузчиков в течении дня. Это помогает правильно распределять рабочее время.
  5. Web-анализ. Сайт нужно грамотно продвигать, чтобы он стал каналом продаж, а для этого нужна правильная стратегия продвижения. Здесь вам поможет веб-анализ. Как его применять? Изучать поведение, возраст, пол и другие характеристики клиентов, активность на определенных страницах, клики, канал трафика, результативность рассылок и прочее. Это поможет совершенствовать бизнес и сайт.
  6. Управление ассортиментом. АВС-анализ крайне необходим для управления ассортиментом. Аналитик должен распределить товар по характеристикам, чтобы провести такой вид анализа и понять, какой товар самый рентабельный, какой в основе, а от какого стоит избавиться. Для понимания стабильности продаж хорошо проводить XYZ-анализ.
  7. Логистика. Больше понимания о закупках, товарах, их хранении и доступности даст изучение логистических показателей. Потери и потребности товара, товарный запас также важно понимать для успешного управления бизнесом.

Эти примеры показывают, насколько широкие возможности у анализа данных даже для малых предприятий. Опытный директор повысит прибыль компании и получит выгоду из самых незначительных сведений, правильно используя анализ данных, а работу менеджера значительно упростят наглядные отчеты.

Доступная работа с Big Data с помощью визуальной аналитики

Совершенствуйте бизнес-аналитику и решайте рутинные задачи, используя информацию, скрытую в Big Data, с помощью платформы TIBCO Spotfire. Это — единственная платформа, которая предоставляет бизнес-пользователям интуитивный, удобный пользовательский интерфейс, что позволяет использовать весь спектр аналитических технологий для Больших Данных без привлечения ИТ-специалистов или наличия специального образования.

Интерфейс Spotfire позволяет одинаково удобно работать как с небольшими наборами данных, так и с многотерабайтными кластерами больших данных: показаний датчиков, информации из социальных сетей, точек продаж или геолокационных источников. Пользователи с любыми уровнями знаний с легкостью работают с содержательными панелями управления и аналитическими рабочими процессами просто используя визуализации, которые являются графическим отображением объединения миллиардов точек данных.

Предиктивная аналитика – это обучение в процессе работы на основе совместного опыта компании для принятия более аргументированных решений. Используя Spotfire Predictive Analytics, вы можете находить новые рыночные тренды из информации, полученной в результате бизнес-аналитики и принимать меры для минимизации рисков, что позволит повысить качество управленческих решений.

Обзор

Подключение к Большим Данным для высокопроизводительной аналитики

Spotfire предлагает три основных типа аналитики с бесшовной интеграцией с Hadoop и другими крупными источниками данных:

  1. Визуализация данных по требованию (On-Demand Analytics): встроенные, настраиваемые пользователем коннекторы данных, которые упрощают сверхскоростную, интерактивную визуализацию данных
  2. Анализ в БД (In-Database Analytics): интеграция с платформой распределительных вычислений, которая позволяют делать вычисления данных любой сложности на основе больших данных.
  3. Анализ в оперативной памяти (In-Memory Analytics): интеграция с платформой статистического анализа, которая берет данные непосредственно из любого источника данных, включая традиционные и новые источники данных.

Вместе все эти методы интеграции представляют мощное сочетание визуального исследования и продвинутой аналитики.
Это позволяет бизнес-пользователям получить доступ, объединять и анализировать данные из любых источников данных с помощью мощных, удобных в использовании панелей управления и рабочих процессов.

Коннекторы больших данных

Коннекторы Spotfire для больших данных поддерживают все виды доступа к данным: In-datasource, In-memory и On-demand. Встроенные коннекторы данных Spotfire включают:

  • Сертифицированные коннекторы данных Hadoop для Apache Hive, Apache Spark SQL, Cloudera Hive, Cloudera Impala, Databricks Cloud, Hortonworks, MapR Drill и Pivotal HAWQ
  • Другие сертифицированные коннекторы больших данных включают Teradata, Teradata Aster и Netezza
  • Коннекторы для исторических и текущих данных из таких источников, как OSI PI сенсорные датчики

In-Datasource распределенные вычисления

В дополнение к удобному функционалу Spotfire визуального выбора операций для SQL запросов, которые обращаются к распределенным в источниках данным, Spotfire может создавать алгоритмы статистического и машинного обучения, которые функционируют внутри источников данных и возвращают только необходимые результаты для создания визуализаций в системе Spotfire.

  • Пользователи работают с дэшбордами с функционалом визуального выбора, которые обращаются к скриптам, используя встроенные возможности языка TERR,
  • Скрипты TERR инициируют работу функционала распределенных вычислений во взаимодействии с Map/Reduce, H2O, SparkR, or Fuzzy Logix,
  • Эти приложения в свою очередь обращаются к системам с высокой эффективностью как Hadoop или другие источники данных,
  • TERR может быть развернут как движок расширенной аналитики в узлах Hadoop, которые управляются с помощью MapReduce или Spark. Язык TERR также можно использовать для узлов данных Teradata.
  • Результаты визуализируются на Spotfire.

TERR для продвинутой аналитики

TIBCO Enterprise Runtime для R (TERR) – TERR является статистическим пакетом корпоративного уровня, который был разработан компанией TIBCO для полной совместимости с языком R, реализуя многолетний опыт компании в аналитической системе, связанный с S+. Это позволяет заказчикам продолжать разработку приложений и моделей не только используя открытый код R, но и интегрировать и развернуть свой код R на коммерческой надежной платформе без необходимости переписывать свой код. TERR обладает более высокой эффективностью и надежным управлением памятью, обеспечивает более высокую скорость обработки данных на больших объемах в сравнении с языком R с открытым кодом.

Объединяя весь функционал

Объединение вышеупомянутых мощных функциональных возможностей означает, что даже в случае сложнейших задач, требующих проведения аналитики с высоким уровнем надежности, пользователи взаимодействуют с простыми и удобными в использовании интерактивными рабочими процессами. Это позволяет бизнес-пользователям визуализировать и анализировать данные, а также делиться результатами аналитики, без необходимости знания деталей архитектуры данных, лежащих в основе бизнес-анализа.

Пример: Интерфейс Spotfire для конфигурации, запуска и визуализации результатов модели, которая определяет характеристики потерянных грузов. С помощью этого интерфейса бизнес-пользователи могут выполнять вычисления с использованием TERR и Н2О (фреймворк для распределенных вычислений), обращаясь к данным транзакций и отгрузок, хранящихся в кластерах Hadoop.

Аналитическое пространство для больших данных


Продвинутая и предиктивная аналитика

Пользователи используют дэшборды Spotfire c функционалом визуального выбора, чтобы запустить богатый набор расширенных возможностей, которые позволяют с легкостью делать прогнозы, создавать модели и оптимизировать их во время работы. Используя большие данные, анализ может быть проведен внутри источника данных (In-Datasource), возвращая только агрегированную информацию и результаты, необходимые для создания визуализаций на платформе Spotfire.


Машинное обучение

Доступен широкий набор инструментов машинного обучения в списке встроенных функций Spotfire, которые можно использовать с помощью одного нажатия. Статистики имеют доступ к программному коду, написанному на языке R и могут расширять используемый функционал. Функционалом машинного обучения можно делиться с другими пользователями для легкого повторного использования.

Доступны следующие методы машинного обучения для непрерывных категориальных переменных на Spotfire и на TERR:

  • Линейная и логистическая регрессия
  • Деревья принятия решений (Decision trees), алгоритм случайного леса (Random forest), градиентный бустинг машин (GBM)
  • Обобщенные линейные (аддитивные) модели ( Generalized Additive Models )
  • Нейронные сети


Анализ контента

Spotfire обеспечивает аналитику и визуализацию данных, значительная часть которых не использовалась раннее – это неструктурированный текст, который хранится в таких источниках, как документы, отчеты, заметки CRM систем, логи сайтов, публикации в социальных сетях и многое другое.


Локационная аналитика

Многослойные карты высокого разрешения являются отличным способом визуализации больших данных. Богатый функционал Spotfire для работы с картами позволяет Вам создавать карты с таким количеством справочных и функциональных слоев, какое Вам необходимо. Spotfire также дает возможность использовать сложную аналитику во время работы с картами. В дополнение к географическим картам система создает карты для визуализации поведения пользователей, складов, производства, сырья и многих других показателей.

Об анализе информации в последнее время говорят так много и столько всего, что можно окончательно запутаться в проблеме. Это хорошо, что многие обращают внимание на такую актуальную тему. Плохо только то, что под этим термином каждый понимает то, что ему нужно, часто не имея общей картины по проблеме. Фрагментарность в таком подходе является причиной непонимания того, что происходит и что делать. Все состоит из кусков, слабо связанных между собой и не имеющих общего стержня. Наверняка, вы часто слышали фразу "лоскутная автоматизация". С этой проблемой уже неоднократно сталкивались многие и могут подтвердить, что основная проблема при таком подходе состоит в том, что практически никогда невозможно увидеть картину в целом. С анализом ситуация аналогичная.

Для того чтобы было понятно место и назначение каждого механизма анализа, давайте рассмотрим все это целиком. Будет отталкиваться от того, как человек принимает решения, поскольку объяснить, как рождается мысль, мы не в состоянии, сконцентрируемся на том, как можно в этом процессе использовать информационные технологии. Первый вариант – лицо, принимающее решение (ЛПР), использует компьютер только как средство извлечения данных, а выводы делает уже самостоятельно. Для решения такого рода задач используются системы отчетности, многомерный анализ данных, диаграммы и прочие способы визуализации. Второй вариант: программа не только извлекает данные, но и проводит различного рода предобработку, например, очистку, сглаживание и прочее. А к обработанным таким образом данным применяет математические методы анализа – кластеризацию, классификацию, регрессию и т.д. В этом случае ЛПР получает не сырые, а прошедшие серьезную обработку данные, т.е. человек уже работает с моделями, подготовленными компьютером.

Благодаря тому, что в первом случае практически все, что связано собственно с механизмами принятия решений, возлагается на человека, проблема с подбором адекватной модели и выбором методов обработки выносится за пределы механизмов анализа, т. е. базой для принятия решения является либо инструкция (например, каким образом можно реализовать механизмы реагирования на отклонения), либо интуиция. В некоторых случаях этого вполне достаточно, но если ЛПР интересуют знания, находящиеся достаточно глубоко, если так можно выразиться, то просто механизмы извлечения данных тут не помогут. Необходима более серьезная обработка. Это и есть тот самый второй случай. Все применяемые механизмы предобработки и анализа позволяют ЛПР работать на более высоком уровне. Первый вариант подходит для решения тактических и оперативных задач, а второй – для тиражирования знаний и решения стратегических проблем.

Идеальным случаем была бы возможность применять оба подхода к анализу. Они позволяют покрыть почти все потребности организации в анализе бизнес информации. Варьируя методики в зависимости от задач, мы будем иметь возможность в любом случае выжать максимум из имеющейся информации.

Общая схема работы приведена ниже.

Часто при описании того или иного продукта, анализирующего бизнес информацию, применяют термины типа риск-менеджмент, прогнозирование, сегментация рынка… Но в действительности решения каждой из этих задач сводятся к применению одного из описанных ниже методов анализа. Например, прогнозирование – это задача регрессии, сегментация рынка – это кластеризация, управление рисками – это комбинация кластеризации и классификации, возможны и другие методы. Поэтому данный набор технологий позволяет решать большинство бизнес задач. Фактически, они являются атомарными (базовыми) элементами, из которых собирается решение той или иной задачи.

Теперь опишем отдельно каждый фрагмент схемы.

В качестве первичного источника данных должны выступать базы данных систем управления предприятием, офисные документы, Интернет, потому что необходимо использовать все сведения, которые могут пригодиться для принятия решения. Причем речь идет не только о внутренней для организации информации, но и о внешних данных (макроэкономические показатели, конкурентная среда, демографические данные и т.п.).

Хотя в хранилище данных не реализуются технологии анализа, оно является той базой, на которой нужно строить аналитическую систему. В отсутствие хранилища данных на сбор и систематизацию необходимой для анализа информации будет уходить большая часть времени, что в значительной степени сведет на нет все достоинства анализа. Ведь одним из ключевых показателей любой аналитической системы является возможность быстро получить результат.

Следующим элементом схемы является семантический слой. Вне зависимости от того, каким образом будет анализироваться информация, необходимо, чтобы она была понятна ЛПР, поскольку в большинстве случаев анализируемые данных располагаются в различных базах данных, а ЛПР не должен вникать в нюансы работы с СУБД, то требуется создать некий механизм, трансформирующий термины предметной области в вызовы механизмов доступа к БД. Эту задачу и выполняет семантический слой. Желательно, чтобы он был один для всех приложений анализа, таким образом легче применять к задаче различные подходы.

Системы отчетности предназначены для того, чтобы дать ответ на вопрос "что происходит". Первый вариант его использования: регулярные отчеты используются для контроля оперативной ситуации и анализа отклонений. Например, система ежедневно готовит отчеты об остатках продукции на складе, и когда его значение меньше средней недельной продажи, необходимо реагировать на это подготовкой заказа на поставку, т. е. в большинстве случаев это стандартизированные бизнес операции. Чаще всего некоторые элементы этого подхода в том или ином виде реализованы в компаниях (пусть даже просто на бумаге), однако нельзя допускать, чтобы это был единственный из доступных подходов к анализу данных. Второй вариант применения систем отчетности: обработка нерегламентированных запросов. Когда ЛПР хочет проверить какую-либо мысль (гипотезу), ему необходимо получить пищу для размышлений подтверждающую либо опровергающую идею, т. к. эти мысли приходят спонтанно, и отсутствует точное представление о том, какого рода информация потребуется, необходим инструмент, позволяющий быстро и в удобном виде эту информацию получить. Извлеченные данные обычно представляются либо в виде таблиц, либо в виде графиков и диаграмм, хотя возможны и другие представления.

Хотя для построения систем отчетности можно применять различные подходы, самый распространенный на сегодня – это механизм OLAP. Основной идеей является представление информации в виде многомерных кубов, где оси представляют собой измерения (например, время, продукты, клиенты), а в ячейках помещаются показатели (например, сумма продаж, средняя цена закупки). Пользователь манипулирует измерениями и получает информацию в нужном разрезе.

Благодаря простоте понимания OLAP получил широкое распространение в качестве механизма анализа данных, но необходимо понимать, что его возможности в области более глубокого анализа, например, прогнозирования, крайне ограничены. Основной проблемой при решении, задач прогнозирования является вовсе не возможность извлечения интересующих данных в виде таблиц и диаграмм, а построение адекватной модели. Дальше все достаточно просто. На вход имеющейся модели подается новая информация, пропускается через нее, а результат и есть прогноз. Но построение модели является совершенно нетривиальной задачей. Конечно, можно заложить в систему несколько готовых и простых моделей, например, линейную регрессию или что-то аналогичное, довольно часто именно так и поступают, но это проблему не решает. Реальные задачи почти всегда выходят за рамки таких простых моделей. А следовательно, такая модель будет обнаруживать только явные зависимости, ценность обнаружения которых незначительна, что и так хорошо известно и так, или будут строить слишком грубые прогнозы, что тоже совершенно неинтересно. Например, если вы будете при анализе курса акций на фондовом рынке исходить из простого предположения, что завтра акции будут стоить столько же, сколько и сегодня, то в 90% случаев вы угадаете. И насколько ценны такие знания? Интерес для брокеров представляют только оставшиеся 10%. Примитивные модели в большинстве случаев дают результат примерно того же уровня.

Правильным подходом к построению моделей является их пошаговое улучшение. Начав с первой, относительно грубой модели, необходимо по мере накопления новых данных и применения модели на практике улучшать ее. Собственно задача построения прогнозов и тому подобные вещи выходят за рамки механизмов систем отчетности, поэтому и не стоит ждать в этом направлении положительных результатов при применении OLAP. Для решения задач более глубокого анализа применяется совершенно другой набор технологий, объединенных под названием Knowledge Discovery in Databases .

Knowledge Discovery in Databases (KDD) – это процесс преобразования данных в знания. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных, интерпретации полученных результатов. Data Mining – это процесс обнаружения в "сырых" данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Привлекательность этого подхода заключается в том, что вне зависимости от предметной области мы применяем одни и те же операции:

  1. Извлечь данные. В нашем случае для этого нужен семантический слой.
  2. Очистить данные. Применение для анализа "грязных" данных может полностью свести на нет применяемые в дальнейшем механизмы анализа.
  3. Трансформировать данные. Различные методы анализа требуют данных, подготовленных в специальном виде. Например, где-то в качестве входов может использоваться только цифровая информация.
  4. Провести, собственно, анализ – Data Mining.
  5. Интерпретировать полученные результаты.

Это процесс повторяется итеративно.

Data Mining, в свою очередь, обеспечивает решение всего 6 задач – классификация, кластеризация, регрессия, ассоциация, последовательность и анализ отклонений.

Это все, что необходимо сделать, чтобы автоматизировать процесс извлечения знаний. Дальнейшие шаги уже делает эксперт, он же ЛПР.

Интерпретация результатов компьютерной обработки возлагается на человека. Просто различные методы дают различную пищу для размышлений. В самом простом случае – это таблицы и диаграммы, а в более сложном – модели и правила. Полностью исключить участие человека невозможно, т.к. тот или иной результат не имеет никакого значения, пока не будет применен к конкретной предметной области. Однако имеется возможность тиражировать знания. Например, ЛПР при помощи какого-либо метода определил, какие показатели влияют на кредитоспособность покупателей, и представил это в виде правила. Правило можно внести в систему выдачи кредитов и таким образом значительно снизить кредитные риски, поставив их оценки на поток. При этом от человека, занимающегося собственно выпиской документов, не требуется глубокого понимания причин того или иного вывода. Фактически это перенос методов, когда-то примененных в промышленности, в область управления знаниями. Основная идея – переход от разовых и не унифицированных методов к конвейерным.

Все, о чем говорилось выше, только названия задач. И для решения каждой из них можно применять различные методики, начиная от классических статистических методов и кончая самообучающимися алгоритмами. Реальные бизнес задачи решаются практически всегда одним из указанных выше методов или их комбинацией. Практически все задачи – прогнозирование, сегментация рынка, оценка риском, оценка эффективности рекламных кампаний, оценка конкурентных преимуществ и множество других – сводятся к описанным выше. Поэтому, имея в распоряжении инструмент, решающий приведенный список задач, можно говорить, что вы готовы решить любую задачу бизнес анализа.

Если вы обратили внимание, мы нигде не упоминали о том, какой инструмент будет использоваться для анализа, какие технологии, т.к. сами задачи и методы их решения не зависят от инструментария. Это всего лишь описание грамотного подхода к проблеме. Можно использовать все, что угодно, важно только, чтобы был покрыт весь список задач. В этом случае можно говорить о том, что имеется действительно полнофункциональное решение. Очень часто в качестве "полнофункционального решения задач бизнес анализа" предлагаются механизмы, покрывающие только незначительную часть задач. Чаще всего под системой анализа бизнес информации понимается только OLAP, чего совершенно недостаточно для полноценного анализа. Под толстым слоем рекламных лозунгов находится всего лишь система построения отчетов. Эффектные описания того или иного инструмента анализа скрывают суть, но достаточно отталкиваться от предложенной схемы, и вы будете понимать действительное положение вещей.

Каждый крупный бизнес и большинство средних структур сталкиваются с проблемой предоставления руководству неточных данных о состоянии дел компании. Причины могут быть разные, но последствия всегда одинаковы – неверные или несвоевременные решения, отрицательно сказывающиеся на результативности финансовых операций. Для исключения подобных ситуаций предназначена профессиональная система бизнес аналитики или BI ( с англ. – Business Intelligence ). Эти высокотехнологичные «помощники» способствуют построению системы управленческого контроля каждого аспекта внутри бизнеса.

По своей сути BI системы – это продвинутое аналитическое программное обеспечение для бизнес-анализа и формирования отчетности. Эти программы могут использовать данные из различных источников информации и предоставлять их в удобном виде и разрезе. В результате руководство получает быстрый доступ к полной и прозрачной информации о положении дел компании. Особенность отчетов, полученных с помощью BI – возможность самостоятельного выбора руководителем, в каком разрезе получить информацию.


Современные Business Intelligence системы многофункциональны. Именно поэтому в крупных компаниях они постепенно вытесняют другие способы получения бизнес-отчетности. К основным их возможностям специалисты относят:

  • Подключения к различным базам данных, в частности, к ;
  • Формирование отчетов разной сложности, структуры, вида и компоновки с высокой скоростью. Также есть возможность задать расписание формирования отчетности по расписанию без непосредственного участия и рассылки данных;
  • Прозрачную работу с данными;
  • Обеспечение четкой связи между информацией из различных источников;
  • Гибкую и интуитивно понятную настройку прав доступа сотрудников в системе;
  • Сохранение данных в любом удобном для вас формате – PDF, Excel, HTML и многих других.

Возможности информационных систем бизнес-аналитики позволяют руководителю не зависеть от IT-отдела или своих помощников, подающих требуемую информацию. Также это отличная возможность демонстрировать правильное направление своих решений не словами, а точными цифрами. Многие крупные сетевые корпорации на Западе уже давно используют BI-системы, среди которых всемирно известные Amazon, Yahoo, Wall-Mart и др. Вышеназванные корпорации тратят приличные деньги на бизнес-аналитику, но внедренные BI системы приносят неоценимую пользу.

Польза профессиональных систем бизнес аналитики базируется на принципах, которые поддерживаются во всех передовых BI приложениях:

  1. Наглядность. Основной интерфейс любого ПО для анализа бизнеса должен отражать основные показатели. Благодаря этому руководитель быстро сможет оценить положение дел на предприятии и начать предпринимать что-либо в случае необходимости;
  2. Кастомизация. Каждый пользователь должен иметь возможность настроить интерфейс и функциональные клавиши максимально удобным для себя образом;
  3. Многослойность. Каждый набор данных должен иметь несколько разрезов (слоев) для предоставления той детализации информации, которая необходима на конкретном уровне;
  4. Интерактивность. Пользователи должны иметь возможность собирать информацию из всех источников и по нескольким направлениям одновременно. Необходимо, чтобы система имела функцию настройки оповещения по ключевым параметрам;
  5. Многопоточность и разграничение доступа. В BI системе должна быть реализована одновременная работа большого количества пользователей с возможностью установки им различных уровней доступа.

Всё IT-сообщество сходиться во мнении, что информационные системы бизнес аналитики являются одним из перспективнейших направлений развития отрасли. Однако их внедрение зачастую затрудняют технические и психологические преграды, неслаженная работа менеджеров и отсутствие прописанных сфер ответственности.

При размышлении о внедрении систем класса BI важно помнить, что успех проекта будет во многом зависеть от отношения сотрудников компании к нововведению. Это относится ко всем IT-продуктам: скептическое отношение и страх перед сокращением могут свести на нет все усилия по внедрению. Поэтому очень важно понимать, какие чувства вызывает система бизнес аналитики у будущих пользователей. Идеальная ситуация сложится в случае, когда сотрудники компании будут относиться к системе как к помощнику и инструменту усовершенствования работы.

Перед началом проекта по внедрению BI технологии необходимо провести тщательный анализ бизнес-процессов компании и принципов принятия управленческих решений. Ведь именно эти данные будут участвовать в анализе ситуации в компании. Также это поможет сделать выбор BI системы вместе с другими основными критериями:

  1. Цели и задачи внедрения BI систем;
  2. Требования к хранению данных и возможность ими оперировать;
  3. Функции интеграции данных. Без использования данных из всех источников в компании руководство не сможет получить целостной картины положения дел;
  4. Возможности по визуализации. Для каждого человека идеальная BI аналитика выглядит по-разному, и система должна удовлетворять потребности каждого пользователя;
  5. Универсальность или узкая специализация. В мире существуют системы, направленные на определенную отрасль, так и универсальные решения, позволяющие собрать информацию в любом разрезе;
  6. Требовательность к ресурсам и цена на программный продукт. Выбор BI системы, как и любого ПО, зависит от возможностей компании.

Вышеперечисленные критерии помогут руководству сделать осознанный выбор среди всего многообразия известных систем бизнес аналитики. Существуют и другие параметры (например, структура хранения данных, веб-архитектура), но они требуют квалификации в узких IT-областях.

Недостаточно просто сделать выбор, купить ПО, установить и настроить его. Успешное внедрение BI систем любого направления основывается на следующих правилах:

  • Корректность данных. Если данные для анализа неверные, то существует вероятность серьезной ошибки системы;
  • Полноценное обучение каждого пользователя;
  • Быстрое внедрение. Необходимо сосредоточится на верном формировании необходимых отчетов на всех ключевых местах, а не на идеальном обслуживании одного пользователя. Скорректировать внешний вид отчета или добавить еще один его разрез для удобства всегда можно после внедрения;
  • Осознавайте окупаемость инвестиций в систему BI. Эффект зависит от множества факторов и в некоторых случаях оказывается виден лишь через несколько месяцев;
  • Оборудование должно быть рассчитано не только на современную ситуацию, но и на ближайшее будущее;
  • Осознавайте, зачем было начато внедрение системы BI, и не требуйте от программного обеспечения невозможного.


По статистике всего лишь 30% руководителей компаний довольны внедрением BI систем. За долгие годы существования ПО для анализа бизнеса специалисты сформулировали 9 ключевых ошибок, которые могут снизить эффективность до минимума:

  1. Неочевидность цели внедрения для руководства. Зачастую проект создается силами IT-отдела без тесного участия руководителей. В большинстве случаев в процессе внедрения и функционирования появляются вопросы по цели и задачам BI системы, выгоде и удобству использования;
  2. Отсутствие прозрачности в управлении, работе сотрудников и принятии решений. Менеджеры могут не знать алгоритмов работы сотрудников на местах, а управленческие решения могут приниматься не только на основе сухих фактов. Это приведет к невозможности сохранения существующей парадигмы в результате внедрения BI системы. И зачастую сломать сложившуюся годами культуру корпоративного управления невозможно;
  3. Недостаточная достоверность данных. Попадание ложной информации в систему анализа бизнеса недопустимо, иначе сотрудники не смогут доверять ей и пользоваться ею;
  4. Неверный выбор профессиональной системы бизнес аналитики. Множество примеров в истории, когда руководство нанимает стороннюю организацию для внедрения BI системы и не принимает участия в ее выборе, говорят сами за себя. В результате внедряется система, не позволяющая получить нужный отчет или с которой невозможна интеграция одного из существующих в компании ПО;
  5. Отсутствие плана на будущее. Особенность BI систем в том, что это не статичное ПО. Невозможно закончить проект внедрения и не вспоминать о нем. Возникает множество требований от пользователей и руководства в части доработок;
  6. Передача BI системы сторонней организации на поддержку. Как показывает практика, чаще всего такие ситуации приводят к изоляции продукта и оторванности системы от реального положения дел. Собственная служба поддержки намного быстрее и эффективнее реагирует на отзывы пользователей и требования руководства;
  7. Желание сэкономить. В сфере бизнеса это нормально, но BI аналитика работает, только если принимает во внимание все аспекты деятельности компании. Именно поэтому наиболее эффективны глубокие аналитические системы с высокой стоимостью. Желание получить несколько отчетов по интересующим областям приводит к частым ошибкам в данных и большой зависимости от квалификации IT-специалистов;
  8. Различная терминология в компании. Важно, чтобы все пользователи понимали основные термины и их смысл. Простое недопонимание может привести к неверной трактовке отчетов и показателей BI системы;
  9. Отсутствие единой стратегии анализа бизнеса на предприятии. Без выбранного единого для всех сотрудников курса любая система класса BI будет лишь набором разрозненных отчетов, удовлетворяющих требования отдельных руководителей.

Внедрение BI систем – важный шаг, способный помочь вывести бизнес на новый уровень. Но для этого потребует не только достаточно большого вливания финансов, но и времени, и сил каждого сотрудника компании. Далеко не каждый бизнес готов грамотно закончить проект внедрения системы анализа бизнеса.