Rational Insight Data Warehouse モデル

IBM® Rational® Insight Data Warehouse (RIDW) は、さまざまな業務システムのデータを、分析レポート作成が容易なフォーマットで保管するだけでなく、クエリーの最適化、多次元分析、および履歴の傾向分析に必要なエンジンを提供するコンポーネントです。 このデータ構造は、ライブのトランザクション・システムのデータ構造とは異なります。トランザクション・システムのデータ構造は、通常、正規形で情報を保管します。 着信データは、いくつかの段階を経る間は、 正規化された表に一時的に保存されますが、最終的に使用される 形式はスター・スキーマです。このセクションでは、RIDW の基本的なデータ構造について説明します。

データ・ストレージ域

RIDW には、以下の 3 つのデータ・ストレージ域があります。

構成領域

この領域には、製品データ・ソースやカレンダーなど のエンティティーに関する重要な構成情報が保管されます。構成領域は、 ウェアハウスの参照設定を含みます。この領域には、以下の 4 つの主な表が あります。
表 1.
表名 表の目的
SYS_CONFIG 日付次元カレンダー・タイプなどのシステム構成情報 を含みます。
ETL_INFO ETL (抽出、変換、ロード) スケジュール (日次、週次、月次) などの ETL 構成情報を含みます。
複数のデータ・ソースとの互換性のため、RIDW は ISO 日付タイプと グレゴリオ日付タイプの両方をサポートします。ウェアハウスがインストールされるとき、 および ETL トランザクションを実行する前に、構成設定を選択することができます。

業務データ・ストア

これは、ETL プロセス中にデータ・ソースから収集された情報の受信、統合、および保管が 行われる領域です。RIDW は、IBM Rational ClearQuest® (Enterprise スキーマおよび ALM スキーマ)、IBM Rational ClearCase®、IBM Rational Requisite® Pro、および Microsoft® Project をサポートしています。 次に、複数のソース間での整合性を保証するため、クリーン処理やその他の処理がデータに対して行われます。 RIDW データベースの設計理念では、以下を実現することを目標としています。
  • ソースの業務システムまでのデータ追跡可能性
  • サブジェクトに基づいて要素をグループ化すること
  • データ・ソースに依存しない、一元化および正規化された領域を提示すること
制御列
ETL プロセスは、 RIDW が後で使用する制御情報を収容するいくつかの列を追加します。例えば、 以下の 3 つの必須列は、ID 情報を表します。
  • EXTERNAL_KEY1 は、自然キーが整数の場合に自然キーを保管します。
  • EXTERNAL_KEY2 は、自然キーが varchar タイプの場合に自然キーを保管します。
  • SOURCE_ID は、データ・ソースの GUID 値を保管します。
GUID は設計フェーズ中にデータ・ソースに 割り当てられるので、エンド・ユーザーが構成する必要はありません。

2 つの制御列 ISSOFDELETED と REC_DATETIME も追加 されます。

ISSOFDELETED は、 元のソースから物理的に削除されたレコードをマークするために使用されます。 この列の値は、レコードが削除済みの場合は 1 に、削除されていない場合は 0 に設定される必要があります。
注: 正規領域の レコードは、ファクトおよび次元領域の尺度にリンクされている可能性があるため、物理的に 削除されることがあってはなりません。
REC_DATETIME はタイム・スタンプ列であり、その値は、レコードが挿入されるときに必ずデータベースにより設定され、 それ以降レコードが更新されると ETL によって更新されます。

代理キー

代理キーは、 ETL プロセスによって作成される主キーです。代理キーは、 ソースが違うことによる主キー間でのフォーマットの相違を無効にするために 必要です。抽出された表ごとに、RIDW は独自の主キーを作成し、 元のキーを EXTERNAL_KEY1 列または EXTERNAL_KEY2 列に保持します。代理キー は 0 ベースの整数です。

種別表

これらの表は、 プロジェクト、要求、要件、タスク、アクティビティー、コンポーネントなど、 通常使用される成果物を表します。これらの表は、 名前に含まれている「CLASSIFICATION」という語句で認識できます。各種別表には、 成果物の一般的概念を表すレコード・タイプが 事前定義されています。抽出された表から種別表への変換は、 ETL プロセスによって管理されます。

ダミー・レコード

すべての種別表および成果物表には、 主キー値 -1 で識別可能なダミー行が含まれています。ダミー行は、定義された参照制約に対してヌル値だった場合の データの正規化をサポートします。

ファクトおよび次元領域

ファクトおよび次元領域 はスター・スキーマ設計を実装します。これは、ファクト表、次元表、および履歴追跡可能表の 集合です。ファクト表は、特定のビジネス・プロセスの尺度、または「ファクト」 を含みます。例えば、測定するプロセスがプロジェクト管理である 場合、対応するファクト表には要件の数などが 収容されます。次元表は、データウェアハウジング・クエリーを実行する際のデータの制約およびグループ化 に使用される属性を含みます。例えば、要件数がファクト表になっている場合、要件タイプを次元として使用できます。

設計規約

次元表の名前 は「D_」で始まり、レコードを識別する代理キーを含んでいます。ファクト表の名前 は「F_」で始まり、ファクト表内で検出された尺度に関する履歴詳細を提供する 表は「H_」で始まります。通常、主キーは、尺度の代理キーと、尺度に寄与した成果物の代理キーとの 組み合わせです。名前に「F_C_」が付くファクト表は、傾向を示す元のファクト表と同等ですが、元のファクト表がデータを蓄積して時間と共に傾向を示すことを可能にするのに対し、これはデータの最も直近のスナップショットのみを保管することが異なります。 データマートには、詳細化のためのドリルダウン目的や、あるいはリスト・レポート作成の可能性に備えて、業務データ・ストアを表示するビューの集合もあります。

制御列

すべてのファクト表に、日付の次元 D_DATE を参照する列があります。 傾向表の場合、この状況の日付は、データのスナップショットが取られた日付を指しています。 他のファクト表の場合、日付は、レコード作成などのイベントの発生を反映しています。 データのスナップショットは、 構成領域内の SYS_CONFIG 表に保管された値に基づいて、日次、週次、または月次ベースであることを示すタグを付ける ことができます。他の制御列には、REC_DATEIME 列があります。これは、レコードの挿入 または更新を表すレコード・スタンプとして機能します。

ヌル標識レコード

業務データ・ストアと同様に、次元表には、主キー値 -1 で識別可能なヌル標識行が含まれます。 これは、制約のある表をヌル値で表します。


フィードバック