Business Data Analytics. Технологии добычи знаний и интеллектуального анализа данных. Data mining Сайт www.BusinessDataAnalytics.ru
предлагает актуальные материалы
об алгоритмах и технологиях
добычи знаний и интеллектуального
анализа данных.

Описание работы с курсом

В ходе данного курса вы будете работать в среде разработки Business Intelligence Development Studio (рис.1).

рис. 1   Business Intelligence Studio

рис. 1 Business Intelligence Studio

Крус разделено на три части: подготовка базы данных SQL Server, подготовка базы данных Analysis Services и построение и работа с моделями Data Mining.

Подготовка базы данных SQL Server

База данных AdventureWorksDW, которая используется в этом обзорном курсе, устанавливается вместе с SQL Server (по умолчанию эта опция отключена) и уже содержит представления (views), которые будут использованы для создания моделей.

В дополнения к ним необходимо будет импортировать в базу данных таблицу prospective customers (в виде плоского файла). Один из сценариев, который мы рассмотрим, анализирует целевые рассылки с использованием построителя запросов для прогнозов.

Импорт таблицы Prospective Customers

Вы будете использовать таблицу prospective customer в сценарии целевой рассылкидля проверки качества прогнозирования модели. Вы можете скачать эту таблицу с сайта Betaplace (www.Betaplace.com). Сначала необходимо импортировать плоский файл в базу данных AdventureWorksDW и назвать колонки этой таблицы так же как и в представлении, служащем источником данных для целевой рассылки.

В приложении А содержится сценарий импорта данных и переименования колонок. Загрузите плоский файл на ваш локальный диск. Запустите SQL Management Studio и откройте окно нового запроса к серверу БД AdventureWorksDW. Скопируйте SQL-запросы из приложения A в окно запросов. Измените значение переменной @data_path так, чтобы она содержала путь к файлу "Prospect.csv". Выполните запрос.

Будет создана таблица Prospects, которая будет содержать ту же структуру столбцов, как и представление vTargetedmail , за исключением следующих столбцов:

  • Age
  • Bike Buyer
  • Region

Так же, ключи клиентов (CustomerKey, CustomerAlternateKey) заменены на ключи перспективных клиентов (ProspectKey, ProspectAlternateKey).

Подготовка базы данных Analysis Services

Прежде чем вы начнете создавать и работать с моделями Data Mining, вы должны выполнить следующие действия:

  1. Создать новый проект Analysis Services.
    1. Создать новый источник данных (data source).
    2. Создать новое представление данных (data source view).

Создание проекта Analysis Services

Каждый проект Analysis Services определяет схему объектов для единственной базы данных Analysis Services, которая описывается моделями Data Mining, OLAP-кубами и дополнительными объектами.

  1. Откройте Business Intelligence Development Studio.
  2. Выберете New и Project из меню File.
  3. Выберете проект Analysis Services в качестве типа нового проекта и назовите его AdventureWorks.
  4. Нажмите Ok.

Новый проект откроется в Business Intelligence Development Studio.

Создание источника данных

Источник данных - это данные о соединении с внешним источником данных, которые хранятся в проекте и в базе данных Analysis Services. В источнике данных хранится информация об имени сервера, базы данных, где хранится информация, используемая в проекте, а так же другие свойства соединения.

  1. Правой кнопкой мыши щелкните по узлу Data Source вашего решения и выберете New Data Source.
  2. На первой странице мастера выберете Next.
  3. Щелкните New чтобы добавить соединение к базе данных AdventureWorksDW.
  4. В диалоговом окне Connection Manager выберете провайдер данных Microsoft OLE DB Provider for SQL Server, имя сервера - AdventureWorksDW, введите данные о пользователе, под учетной записью которого будет производиться соединение.
  5. Щелкните OK.
  6. Щелкните Next.

По умолчанию источник данных будет назван Adventure Works DW. Щелкните Finish

Новый источник данных Adventure Works DW появится в папке источников данных в дереве решения.

Создание представления данных

Представление данных (Data Source View) обеспечивает уровень абстракции для источника данных, позволяя вам менять структуру исходных данных для удобства вашего проекта. Используя представление данных, вы можете выбрать только относящиеся к вашему проекту таблицы и представления, определить связи между таблицами, добавить вычисляемые поля, а также именованные запросы без необходимости вносить модификации в исходные данные.

  1. В дереве решения щелкните правой кнопкой мыши на Data Source View и выберете New Data Source View.
  2. На первой странице щелкните Next.
  3. Выберете источник данных Adventure Works DW, который вы создали на прошлом шаге в окне Relational data sources. Нажмите Next.
  4. Если вы хотите создать новый источник данных, нажмите New Data Source.
  5. Выберете таблицы из списка нажмите на правую стрелку для включения их в представление данных:
    • Prospect
    • vAssocSeqLineItems
    • vAssocSeqOrders
    • vTargetMail
    • vTimeSeries
  6. Нажмите Next.
  7. По умолчанию представление данных будет названо Adventure Works DW. Нажмите Finish.

Откроется окно представления данных как показано на рис. 2. Далее можно производить изменения в представлении источника данных.

Рис. 2 Окно просмотра модели базы Adventure Works DW

Рис. 2 Окно просмотра модели базы Adventure Works DW

Редактирование представления источника данных

Используя редактор представления источника данных (Data Source View Editor), вы можете вносить изменения в представление данных. Например, вы можете переименовать объект, если его новое название будет больше подходить к модели. При этом оригинальное название не изменится, но появится возможность обращаться к объекту через новое более удобное имя.

Для создания сценариев анализа рыночной корзины или кластеризации последовательностей необходимо создать новое соединение многие-к-одному между vAssocSeqOrders и vAssocSeqLineItems. Используя эту связь можно сделать vAssocSeqLineItems вложенной таблицей по отношению к vAssocSeqOrders, что необходимо для создания модели.

  1. В окне просмотра выбрать поле OrderNumber из таблицы vAssocSeqLineItems
  2. Перенести выбранную колонку в таблицу vAssocSeqOrders и поместить ее на колонку OrderNumber

Новая связь многие-к-одному между vAssocSeqOrders и vAssocSeqLineItems создадна.


в начало страницы