Anvil
О компанииАнвил Balanced ScoreсardАнвил АналитикМетодологияКонтакты
ЦЕЛИ.
РЕШЕНИЯ.
Методология: Просто о терминах анализа

Просто о терминах анализа.

DSS

DSS (Decision Support System, СППР, Системы Поддержки Принятия Решений) - класс систем, призванных облегчить труд людей, выполняющих анализ. Основная задача СППР - предоставить инструмент для выполнения анализа данных. Система не генерирует правильные решения, а только предоставляет данные в соответствующем виде (отчеты, таблицы, графики и т.п.) для изучения и анализа, именно поэтому такие системы обеспечивают выполнение функции поддержки принятия решений.

OLAP

OLAP (On-Line Analytical Processing, Интерактивная аналитическая обработка) - технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.

Основное назначение OLAP-систем - поддержка аналитической деятельности, произвольных (часто используется термин ad-hoc - "на лету") запросов пользователей. Цель OLAP-анализа - проверка возникающих гипотез.

В процессе принятия решений пользователь генерирует некоторые гипотезы. Для превращения этих гипотез в законченные решения они должны быть проверены. Проверка гипотез осуществляется на основании информации об анализируемой предметной области. Как правило, наиболее удобным способом представления такой информации является зависимость между некоторыми параметрами. Например, зависимость объемов продаж от региона, времени, категории товара и т.п.

В процессе анализа данных OLAP позволяет объединять, просматривать и анализировать данные с точки зрения множественности измерений.

Двенадцать правил для определения OLAP-системы:

  • Многомерность - OLAP-система на концептуальном уровне должна представить данные в виде многомерной модели, что упрощает процессы анализа и восприятия информации.
  • Прозрачность - OLAP-система должна скрывать от пользователя реальную реализацию многомерной модели, способ организации, источники, средства обработки и хранения.
  • Доступность - OLAP-система должна предоставлять пользователю единую, согласованную и целостную модель данных, обеспечивая доступ к данным независимо от того, как и где они хранятся.
  • Постоянная производительность при разработке отчетов - производительность OLAP-систем не должна значительно уменьшаться при увеличении количества измерений, по которым выполняется анализ.
  • Клиент-серверная архитектура - OLAP-система должна быть способна работать в среде "клиент-сервер", т.к. большинство данных, которые сегодня требуется подвергать оперативной аналитической обработке, хранятся распределено.
  • Равноправие измерений - OLAP-система должна обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разной число измерений и различную степень разреженности данных.
  • Поддержка многопользовательского режима - OLAP-система должна предоставлять возможность работать нескольким пользователям совместно с одной аналитической моделью или создавать для них различные модели из единых данных.
  • Неограниченные перекрестные операции - OLAP-система должна обеспечивать сохранение функциональных отношений, описанных с помощью определенного формального языка между ячейками OLAP-куба при выполнении любых операций среза, вращения, консолидации, детализации. Система должна автоматически выполнять преобразование установленных отношений, не требуя от пользователя их переопределения.
  • Интуитивная манипуляция данными - OLAP-система должна предоставлять способ выполнения операций среза, вращения, консолидации и детализации над OLAP-кубом без необходимости пользователю совершать множество действий с интерфейсом.
  • Гибкие возможности получения отчетов - OLAP-система должна поддерживать различные способы визуализации данных, т.е. отчеты должны представляться в любой возможной ориентации. Средства формирования отчетов должны представлять синтезируемые данные или информацию, следующую из модели данных в ее любой возможной ориентации.
  • Неограниченная размерность и число уровней агрегации - исследование о возможном числе необходимых измерений, требующихся в аналитической модели, показало, что одновременно может использоваться до 19 измерений.

Архитектура OLAP-системы состоит из следующих компонентов:

  • OLAP-сервер - обеспечивает хранение данных, выполнение над ними необходимых операций и формирование многомерной модели на концептуальном уровне. В настоящее время OLAP-серверы объединяют с Хранилищами Данных или Витринами Данных;
  • OLAP-клиент - представляет пользователю интерфейс к многомерной модели данных, обеспечивая его возможностью удобно манипулировать данными для выполнения задач анализа.

OLAP-серверы скрывают от конечного пользователя способ реализации многомерной модели. Они формируют OLAP-кубы, с которыми пользователи посредством OLAP-клиента выполняют все необходимые манипуляции, анализируя данные. Между тем способ реализации очень важен, т.к. от него зависят производительность и занимаемые ресурсы. Выделяют три основных способа реализации:

  • MOLAP - для реализации многомерной модели используют многомерные базы данных;
  • ROLAP - для реализации многомерной модели используют реляционные базы данных;
  • HOLAP - для реализации многомерной модели используют и многомерные, и реляционные базы данных.

Часто можно встретить термин DOLAP. Это настольный (desktop) вариант OLAP. Данные при этом загружаются и обрабатываются на стороне клиента, что влечет за собой большие затраты вычислительных ресурсов.

OLAP-Dimension

OLAP-Dimension (OLAP-Измерение) - это последовательность значений одного из анализируемых параметров. Например, для параметра "Город" это список городов.

Одновременный анализ по нескольким OLAP-измерениям определяется как многомерный анализ.

Каждое OLAP-измерение может быть представлено в виде иерархической структуры. Например, OLAP-измерение "Клиент" может иметь следующие иерархические уровни: "Страна - Регион - Город - Клиент". Более того, OLAP-измерения могут несколько видов иерархического представления. Например, OLAP-измерение "Время" может включать две иерархии со следующими уровнями: "Год - Квартал - Месяц - День" и "Неделя - День".

OLAP-Measures

OLAP-Measures (OLAP-меры или показатели) - данные, количественно характеризующие анализируемые факты. OLAP-меры располагаются на пересечениях осей OLAP-измерений. Это могут быть объемы продаж, выраженные в единицах продукции или в денежном выражении, остатки на складе, издержки и т.п.

OLAP-Cube

OLAP-Cube (OLAP-Куб или Гиперкуб) - это многомерная модель данных. Ребрами OLAP-Куба являются измерения, а ячейками меры.

Над OLAP-Кубом могут выполняться следующие операции:

  • Срез (Slice) - формируется подмножество многомерного массива данных, соответствующее единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Если рассматривать термин "срез" с позиции конечного пользователя, то наиболее часто его роль играет двумерная проекция OLAP-Куба. То есть операция "Срез" - это разновидность фильтрации по измерениям в многомерной модели данных.
  • Вращение (Rotate) - изменение расположения изменений, представленных в отчете или на отображаемой странице. Например, операция вращения может заключаться в перестановке местами строк и столбцов таблицы или перемещении интересующих измерений в столбцы или строки создаваемого OLAP-отчета, что позволяет предать ему желаемый вид.
  • Консолидация (Drill Up) и детализация (Drill Down) - операции, которые определяют переход вверх по направлению от детального (down) представления данных к агрегированному (up) и наоборот соответственно.

Data Warehouse

Date Warehouse (DW, Хранилище Данных, ХД) - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений.

Предметная ориентация - является фундаментальным отличием Хранилища Данных от OLTP. Разные OLTP - модули могут содержать данные, описывающие одну и ту же предметную область с разных точек зрения (например, с точки зрения бухгалтерского учета, складского учета, планового отдела и т.п.). Решение, принятое на основе только одной точки зрения, может быть не эффективным или даже не верным. Хранилище Данных позволяет интегрировать информацию, отражающую разные точки зрения на одну предметную область.

Предметная ориентация позволяет также хранить в Хранилище Данных только те данные, которые нужны для их анализа (например, для анализа нет необходимости хранить информацию о номерах документов купли-продажи, в то время как их содержимое - количество, цена проданного товара - необходимо).

Интеграция - информационные системы, как правило, разрабатываются в разное время разными поставщиками. Это приводит к тому, что данные, отражающие один и тот же объект реального мира в разных системах, описывают по-разному. Обязательная интеграция данных в Хранилище Данных позволяет решить эту проблему, приведя данные к единому формату. Часто многие системы, переходя с версии на версию, частично либо полностью не поддерживают совместимость данных. Использование Хранилища Данных позволит использовать информацию из новых и старых версий учетных систем для анализа данных.

Поддержка хронологии - данные в учетных системах необходимы для выполнения операция над ними в текущий момент времени. Поэтому они могут не иметь привязки ко времени. Для анализа данных часто важно иметь возможность отслеживать хронологию изменений показателей предметной области. Поэтому все данные, хранящиеся в Хранилище Данных, должны соответствовать последовательным интервалам времени.

Неизменяемость - требования к учетным системам накладывают ограничения на время хранения в них данных. Те данные, которые не нужны для оперативной обработки, как правило, удаляются из учетной системы для уменьшения занимаемых ресурсов. Для анализа, наоборот, требуются данные за максимально больший период времени. Поэтому, в отличие от учетных систем, данные в Хранилище Данных после загрузки выполняют только операции чтения. Это позволяет существенно повысить скорость доступа к данным, как за счет возможной избыточности хранящейся информации, так и за счет исключения операций модификации. При реализации в Системе Поддержки Принятия Решений концепции Хранилища Данных данные из разных учетных систем копируются в единое хранилище. Собранные данные приводятся к единому формату, согласовываются и обобщаются. Аналитические запросы адресуются к Хранилищу Данных.

Хранилище Данных не является законченным архитектурным решением Системы Поддержки Принятия решений и тем более не является готовым программным продуктом. Цель концепции Хранилищ Данных - определить требования к данным, помещаемым в Хранилище Данных, общие принципы и этапы построения Хранилища Данных, основные источники данных, дать рекомендации по решению потенциальных проблем, возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке.

Необходимо понимать, что концепция анализа данных, скорее, это концепция подготовки данных для анализа;

Не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конктретно и как они будут выполняться.

Таким образом, концепция Хранилищ Данных определяет лишь самые общие принципы построения аналитической системы и в первую очередь сконцентрирована на свойствах и требованиях к данным, но не на способах их организации и их представления в целевой базе данных и режимах их использования. Хранилище данных - это концепция построения аналитической системы, но не концепция ее использования. Она не решает ни одну из следующих проблем:

  • Выбор наиболее эффективного для анализа способа организации данных;
  • Организация доступа к данным;
  • Использование технологии анализа.

Проблемы использования собранных данных решают подсистемы анализа. Такие подсистемы используют следующие технологии:

  • Регламентированные запросы;
  • Оперативный анализ данных (OLAP);
  • Интеллектуальный анализ данных (Data Mining).

Если регламентированные запросы успешно применялись еще задолго до появления концепции ХД, то оперативный (OLAP) и интеллектуальный (Data Mining) анализ в последнее время все больше использует Хранилища Данных.

Data Mart

Data Mart (DW, Витрина Данных, ВД) - это упрощенный вариант Хранилища Данных, содержащий только тематически объединенные данные.

Витрина данных максимально приближена к конечному пользователю и содержит данные, тематически ориентированные на него (например, Витрина Данных для работников отдела маркетинга может содержать данные, необходимые для маркетингового анализа). Витрина Данных существенно меньше по объему, чем Хранилище Данных, и для ее реализации не требуется больших затрат. Они могут быть реализованы как самостоятельно, так и вместе с Хранилищем Данных.

ETL

ETL (E - extraction (извлечение), T - transformation (преобразование), L - loading (загрузка)) - процесс переноса данных из учетных систем предприятия в Хранилище Данных, включающий в себя этапы извлечения, преобразования, и загрузки.

Извлечение данных - чтобы начать процесс ETL, необходимо извлечь данные из одного или нескольких источников и подготовить их к этапу преобразования. Можно выделить два способа извлечения данных:

  • Извлечение данных вспомогательными программными средствами непосредственно из структур хранения информации (файлов, электронных таблиц, БД и т.п.)
  • Выгрузка данных средствами учетных систем предприятия.

Преобразование данных - после того как сбор данных завершен, необходимо преобразовать их для размещения на новом месте. На этом этапе выполняются следующие процедуры:

  • Обобщение данных (aggregation) - перед загрузкой данные обобщаются. Процедура обобщения заменяет многочисленные детальные данные относительно небольшим числом агрегированных данных. Например, предположим, что данные о продажах за год занимают в учетной системе несколько тысяч записей. После обобщения данные преобразуются в меньшее число кратких записей, которые будут перенесены в Хранилище Данных;
  • Перевод значений (value translation) - в учетных системах данные часто хранятся в закодированном виде для того, чтобы сократить избыточность данных и память для их хранения. Например, названия товаров, городов, специальностей и т.п. могут храниться в сокращенном виде. Поскольку Хранилище Данных содержит обобщенную информацию и рассчитаны на простое использование, закодированные данные обычно заменяют на более понятные описания;
  • Создание полей (field derivation) - при создании полей для конечных пользователей создается и новая информация. Например, учетная система содержит одно поле для указания количества проданных товаров, а второе для указания цены одного экземпляра. Для исключения операции вычисления суммы товаров можно создать специальное поле для хранения во время преобразования данных;
  • Очистка данных (cleaning) - направлена на выявление и удаление ошибок и несоответствий в данных с целью улучшения их качества. Проблемы с качеством встречаются в отдельных учетных системах, например в таблицах баз данных могут быть ошибки при вводе, отдельная информация может быть утрачена, могут присутствовать "загрязнения" данных и т.д. Очистка также применяется для согласования атрибутов полей таким образом, чтобы они соответствовали атрибутам Хранилища Данных.

Загрузка данных - после того как данные преобразованы для размещения в Хранилище данных, осуществляется этап их загрузки. При загрузке выполняется запись преобразованных детальных и агрегированных данных. Кроме того, при записи новых детальных данных часть старых может переноситься в архив.

Data Mining

Data Mining (Добыча данных) (другое название Knowledge In Data - обнаружение знаний в данных) - исследование и обнаружение системой в "сырых" данных скрытых знаний, которые ранее небыли известны, нетривиальны, практически полезны, доступны для интерпретации.

Data Mining изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных. Data Mining возник на пересечении систем баз данных, статистики и искусственного интеллекта.

OLTP

Основная задача OLTP-систем - обеспечение выполнения операций с базой данных.

Практика использования OLTP-систем показала неэффективность их применения для полноценного анализа информации. Такие системы достаточно успешно решают задачи сбора, хранения и поиска информации, но они не удовлетворяют требованиям, предъявляемым к современным системам поддержки принятия решений.