Лавров В.В. Хранилища данных и OLAP - файл n1.doc

Лавров В.В. Хранилища данных и OLAP
Скачать все файлы (2445.1 kb.)

Доступные файлы (11):
n1.doc85kb.20.03.2012 12:06скачать
n2.sql
n3.sql
n4.xls453kb.21.05.2013 09:37скачать
n5.doc347kb.21.05.2012 16:22скачать
n6.doc213kb.25.03.2012 11:04скачать
n7.doc233kb.25.03.2012 23:11скачать
n8.doc1581kb.23.03.2012 21:19скачать
n9.doc77kb.17.03.2012 08:43скачать
n10.doc456kb.22.03.2012 18:21скачать
n11.doc38kb.26.03.2012 10:03скачать

n1.doc

Модуль 1. Введение в OLAP-системы

В рамках данного модуля будут рассмотрены следующие вопросы:

1 Бизнес-аналитика


В условиях высокой конкуренции в сфере бизнеса, отсутствия стабильности экономических условий, в которых функционируют современные предприятия, устанавливаются все более жесткие требования к качеству принимаемых руководством предприятия решений на всех уровнях иерархии управления. Процесс принятия решений предполагает знания и учета множества аспектов и данных, характеризующих актуальное состояние и тенденции развития компании. В то же время объем этой информации ежедневно увеличивается. Эти факторы способствуют активному развитию систем бизнес-аналитики (Business Intelligence). В русскоязычных источниках также можно встретить аналогичный термин «системы поддержки принятия решений».

Под термином «Business Intelligence (BI)», или «бизнес-аналитика», понимают:

Бизнес-аналитика располагает различными методиками, а также средствами автоматизации, которые служат для поддержки принятия решений:

2 Понятие OLAP. Требования Кодда к OLAP-системам. Тест FASMI


Традиционным подходом к организации баз данных и соответствующих обслуживающих приложений является OLTP-подход.

OLTP, или Online Transaction Processing, – это обработка транзакций в реальном времени. Структура такой базы данных сильно нормализована и оптимизирована для выполнения коротких идущих большим потоком транзакций, при этом клиенту требуется от системы минимальное время отклика. Обрабатываемый и сохраняемый OLTP-системой в течение дня объем данных может достигать нескольких гигабайт. Примерами применения OLTP-подхода могут служить системы учета биржевых, банковских операций, системы бухгалтерского и складского учёта и т.д.

Благодаря нормализации в таких системах значительно снижается избыточность данных и вычислительные потребности на операции обновления, что делает OLTP-системы идеальными для хранения данных. Однако сложность структуры таблиц и большие объемы накопленных данных приводят к снижению скорости выполнения сложных запросов на извлечение данных (например, посчитать прибыль организации по кварталам за последние пять лет), снижению производительности системы в целом. В результате эти системы оказываются непригодными для решения задач, диктуемых бизнес-аналитиками.

Поиск решения данной проблемы привел к формированию совершенно нового подхода, получившего название OLAP (Online Analytical Processing) – технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений. Цель таких систем – проверка гипотез пользователя-аналитика.

Основоположником термина «OLAP» является Эдгар Кодд, известный как классик теории реляционных баз данных. В 1993 году он опубликовали статью «Обеспечение OLAP (оперативной аналитической обработки) для пользователей-аналитиков», в которой были изложены 12 законов, заложившие основу концепции аналитической обработки данных в реальном времени. Позднее, в 1995 году эти правила были дополнены еще шестью. Ниже будет рассмотрен полный список выдвинутых Коддом требований к OLAP-системам, позволяющий глубже понять их идеологические основы.

  1. Многомерное концептуальное представление данных. Эта особенность – основа технологии OLAP. Вместо привычной модели данных реляционных источников, основанной на плоской системе координат, пользователь получает в свое распоряжение интуитивно понятную многомерную модель, в которой данные организуются в виде многомерных кубов (гиперкубов). Осями многомерной системы координат служат основные атрибуты анализируемого бизнес-процесса (товар, регион, тип покупателя, время и т.д.). На пересечениях осей (измерений) многомерной системы координат находятся данные, количественно характеризующие процесс – меры (объемы, остатки на складе, издержки и т. п.). Подробнее OLAP-кубы рассматриваются в модуле 3.

  2. Интуитивное манипулирование данными.

  3. Доступность: OLAP как посредник между гетерогенными источниками данных и представлением для конечного пользователя.

  4. Пакетное извлечение против интерпретации. Требуется, чтобы продукт в равной степени эффективно обеспечивал доступ и к собственному хранилищу данных, и к внешним данным.

  5. Модели анализа OLAP. Требуется, чтобы OLAP-системы поддерживали формирование настраиваемых отчетов, формирование разрезов и группировок данных, проверку гипотез (ответы на вопрос "что, если…?") и модели поиска целей.

  6. Архитектура "клиент-сервер". Требуется также, чтобы серверный компонент был бы достаточно интеллектуальным для того, чтобы различные клиенты могли подключаться с минимумом усилий и программирования.

  7. Прозрачность. Это требование означает, что пользователь получает все необходимые данные из OLAP-машины, не подозревая, откуда они берутся.

  8. Многопользовательская поддержка. Инструменты OLAP должны обеспечивать одновременный доступ (чтение и запись), интеграцию и конфиденциальность.

  9. Обработка ненормализованных данных. Данное требование указывает на необходимость интеграции между OLAP-машиной и ненормализованными источниками данных. Модификации данных, выполненные в среде OLAP, не должны приводить к изменениям данных, хранимых в исходных внешних системах.

  10. Сохранение результатов OLAP: хранение их отдельно от исходных данных.

  11. Исключение отсутствующих значений. Отсутствующие значения должны отличаться от нулевых значений.

  12. Обработка отсутствующих значений. Все отсутствующие значения будут игнорироваться OLAP-анализатором без учета их источника.

  13. Гибкость формирования отчетов. Измерения должны быть размещены в отчете так, как это нужно пользователю.

  14. Стандартная производительность отчетов. Требуется, чтобы производительность формирования отчетов существенно не падала с ростом количества измерений и размеров базы данных.

  15. Автоматическая настройка физического уровня. Требуется, чтобы OLAP-системы автоматически настраивали свою физическую схему в зависимости от типа модели, объемов данных и разреженности базы данных.

  16. Универсальность измерений. Все измерения должны быть равноправны, каждое измерение должно быть эквивалентно и в структуре, и в операционных возможностях.

  17. Неограниченное число измерений и уровней агрегации. Кодд предлагает, что в случае принятия некоторого максимума, он должен обеспечивать хотя бы 15 измерений, а предпочтительнее – 20.

  18. Неограниченные операции между размерностями. Все виды операций должны быть дозволены для любых измерений.

Альтернативным набором критериев определения OLAP является широко известный сформулированный Найджелом Пендсом и Ричардом Критом в 1995 г. тест FASMI, или Fast Analysis of Shared Multidimensional Information – Быстрый Анализ Разделяемой Многомерной Информации:

3 Технологии OLAP и OLTP. Особенности, различия


Сопоставим основные характеристики технологий OLAP и OLTP в форме таблицы, чтобы окончательно развести эти два понятия (таблица 1).
Таблица 1 – Сравнительная характеристика технологий OLAP и OLTP

Признак сравнения

OLAP

OLTP

Объем хранимой информации

Большой объем информации

Большой объем информации

Хранение данных

Синхронизированная информация из различных баз данных с использованием общих классификаторов

Зачастую различные базы данных для отдельных подразделений

Признак сравнения

OLAP

OLTP

Отношение к нормализации

Ненормализованная схема, существуют дубликаты данных

Нормализованная схема, дубликаты данных отсутствуют

Частота изменения данных

Производится редко через пакетную загрузку

Интенсивное изменение данных

Специфика режима работы с данными

Система выполняет сложные ранее не регламентированные запросы над большими объемами данных с широким применением агрегатных функций, группировок; анализ временных зависимостей

Система работает в транзакционном режиме; транзакции малы по объему обрабатываемой информации; наборы процедур, запросов определены заранее

Пользователи

Малое количество пользователей (менеджеры, аналитики)

Большое количество пользователей-операторов


Как отмечалось ранее OLTP-системы, приспособленные для хранения данных, оказались непригодными для задач аналитиков. OLAP-системы же оптимизированы для выполнения операций чтения над большими объемами данных. Высокая скорость выполнения сложных аналитических запросов OLAP-системами связана с особенностями построения используемых ими многомерных структур (многомерные базы данных, или OLAP-кубы):

Многомерность в OLAP-системах можно быть представить на трех уровнях:

Первые два уровня в обязательном порядке присутствуют во всех OLAP-средствах. Третий уровень, хотя и является широко распространенным, не обязателен, так как данные для многомерного представления могут извлекаться и из обычных реляционных структур; процессор многомерных запросов в этом случае транслирует многомерные запросы в SQL-запросы, которые выполняются реляционной СУБД (см. главу «Виды OLAP-серверов»).

4 Виды OLAP-серверов


В соответствии с требованием прозрачности OLAP-систем способ реализации многомерной модели скрыт от пользователя. Однако способ реализации важен, поскольку от него зависят производительность решения и требуемые ресурсы. Существует три основных способа реализации многомерной модели: MOLAP, ROLAP, HOLAP.

4.1 MOLAP


MOLAP (Multidimensional OLAP, или многомерный OLAP) – исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным упорядоченным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Физически данные хранятся в "плоских" файлах, при этом куб представляется в виде одной плоской таблицы, в которую построчно вписываются все комбинации элементов всех измерений с соответствующими им значениями мер.

В силу своих особенностей использование MOLAP является эффективным при следующих условиях:

4.2 ROLAP


ROLAP (Relational OLAP, или реляционный OLAP) – исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных.

Достоинства ROLAP:

Недостатки ROLAP:



4.3 HOLAP


HOLAP (Hybrid OLAP, или гибридный OLAP) – исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных. Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP – для плотных областей. Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю.

5 Служба MS SQL Analysis Services


Служба Analysis Services 2008 является частью СУБД MS SQL Server 2008. Analysis Services совместно со службами Integration Services и Reporting Services формирует ядро платформы средств бизнес-аналитики, использующей SQL Server в качестве сервера. Analysis Services не только обеспечивает возможность создавать измерения и кубы для анализа данных, но также поддерживает несколько алгоритмов интеллектуального анализа (добычи данных), которые могут помочь выявить различные тенденции в накопленных данных. Analysis Services является частью большой платформы Business Intelligence, которая использует не только остальную часть SQL Server, но также .NET Framework CLR (Common Language Runtime — общеязыковая среда исполнения) и среду разработки Visual Studio.

Архитектура Analysis Services 2008 обеспечивает эффективные возможности масштабирования. С одной стороны, допускается интегрировать вместе несколько экземпляров данной служб. С другой стороны, архитектура службы включает эффективные алгоритмы для обработки многочисленных измерений и кубов с помощью одного экземпляра. Analysis Services предоставляет богатый набор инструментов для создания баз данных OLAP. средства эффективного и легкого управления ими, а также возможности профилирования.

Analysis Services 2008 обладает возможностью восстановления после сбоев. Имеется возможность настроить защиту на уровне мелких структурных элементов, так что можно обеспечить административный доступ ко всей службе или только к конкретным базам данных, задать необходимые для производственного процесса права доступа к конкретным базам данных и доступ "только для чтения" к метаданным и данным.

Analysis Services 2008 поддерживает различные режимы хранения и обработки данных (MOLAP, ROLAP, HOLAP).

Создание и обновление кубов, измерений, а также моделей добычи данных осуществляется с помощью утилиты Business Intelligence Development Studio (BIDS), интегрированной в Visual Studio и представляющей собой инструмент разработки, который поставляется с Analysis Services 2008.
Учебный текст
© perviydoc.ru
При копировании укажите ссылку.
обратиться к администрации