ディスカバー関数を使用して、マッピング・エディター内でソースとターゲットの関係を検索します。
ディスカバー関数は、一致するエレメントの基本検索 (構成を追加変更しないで) を目的として構成されています。
ただし、マッピング・エディターの設定を更新することによって、この関数で関係を検索する方法を調整することができます。
マッピング・エディター内のデータのプロパティーと構造のプロパティーを使用して、データを統合することができます。
データのプロパティーと構造 (つまりメタデータ) のプロパティーを使用して、ソースとターゲットのデータ・ソースの関係を理解することができます。
たとえば、メタデータの関係を使用して、スクリプトを作成し、レガシー・データベースのデータを新規取得のデータに正しく関連付けることができます。
メタデータのプロパティーには、ディスカバー関数からの介助がないと識別するのが困難な (特にスキーマが大きい場合) 関係を組み込むことができます。
ディスカバー関数は、メタデータを検査して、メタデータとの手動の対話なしで一致の可能性のあるものを見つけ出します。
構成を使用すると、ディスカバー関数が検索する方法と、どのデータとメタデータを検索のベースとするかを修正することができます。
ワークベンチのウィザードで設定を設定することで、ディスカバー関数のグローバル構成を定義することができます。
そのような構成は、新規のマッピング・エディターを開いてから閉じても存続し、新規のマッピング・モデルのデフォルト値となります。
特定のマッピング・エディター・インスタンスのグローバル構成をオーバーライドするには、拡張構成を使用します。
マッピング・エディターを閉じると、その設定は失われます。
基本のディスカバー関数
ディスカバー関数には、表示する一致数を制御したり調整したりするための、
「最適を検索」および
「類似を検索」の 2 通りのメソッドが用意されています。
- 最適を検索
- オブジェクトどうしの関係の検索を試みるときは、常にこのメソッドを最初に選択する必要があります。
このメソッドでディスカバー関数を実行すれば、モデルの有効範囲内のすべてのエレメント内で、一致の可能性のあるすべてのオブジェクト・ペアをディスカバーする全体的なスコアが最も高くなります。
いずれかのオブジェクトが他のいずれかのオブジェクトに一致する可能性は常にあります。
しかし、ディスカバー関数がすべてのマッピング・モデル構成要素を分析すると、「最適を検索」メソッドは、モデル全体から見て最も妥当な一致を生じます。
このメソッドは、選択された 1 つのターゲットと 1 つのソースに対して多くても 1 つの一致しか戻しません。
一致がまったく見つからない可能性もあります。
- 類似を検索
- 「最適を検索」メソッドの結果が全面的には承服できないものである場合、「類似を検索」メソッドを実行して他の一致を検索することができます。
デフォルト構成を使用すると、このメソッドは、選択された各ターゲット・エレメントごとに上位 5 つの一致を検索します。
その数を変更することができます。
一般的に、検索でフォーカスを置くターゲット・オブジェクトを指定するときは、「類似を検索」だけを選択することができます。
拡張構成: 検索のメソッドの制御
さらに拡張されたディスカバー技法が必要な場合、をクリックし、ソースとターゲットの関係を検索するときにどのアルゴリズムを使用するかを指定します。
選択したアルゴリズムごとに、検索を調整するためのパラメーターを定義することができます。
使用可能なパラメーターは、選択するアルゴリズムによって異なります。
- 字句の類似性
エレメントの値における最長の共通サブシーケンスによってか、または類似性によって関係を検索するには、このアルゴリズムを使用します。
このアルゴリズムは、互いに共通している複数のストリングの最大長または最大重みのサブシーケンスを検索するストリング・マッチング・アルゴリズムです。
たとえば、短ストリング (パターン) と長ストリング (テキスト) がある場合に、パターン文字がテキスト内で順番に出現する (ただし、おそらくは互いに離れて) と、そのパターンはテキストのサブシーケンスになります。
以下の例はこの概念を示しています。
Pattern=Wood
Text=The World of words.
このパターンは、テキストのサブシーケンスです。
字句の類似性は、デフォルトのアルゴリズムです。
たとえば、エレメント Sample.Employee.Eno および OtherSample.EMP.ID のように、同じエンティティー・プロパティーを表わす場合は、これらのエレメントどうしには値の類似性があります。
外部キーと索引が付帯するエレメントは、似通ったプロパティーをもちます。
エレメントどうしの類似性と差分を検索するには、距離メトリックを使用します。
たとえば、10 個のソース・エレメントと 20 個のターゲット・エレメントを突き合わせる必要がある場合、おそらく距離メトリックからは、200 個の測定値、つまり 10 個のソース・エレメントに 20 個のターゲット・エレメントを乗算したものが戻されます。
一般的に、どの測定値も、ソース、ターゲット・エレメント、および距離値を組み合わせたものです。
拒否しきい値、つまり、一致を拒否する基準になる最大値が、距離値です。
拒否しきい値の推奨値は 1 です。
- セマンティック名
- シソーラスおよびオントロジーに従って関係を検索するときは、このアルゴリズムを使用します。
サポートされているシソーラス・ソフトウェア・アプリケーションおよびグロッサリー・モデルを使用して、セマンティック名アルゴリズムを拡張することができます。
拒否しきい値の推奨値は 0.4 です。
シソーラスを指定する場合、リストから選択します。
WordNet や SureWord などのサポートされているアプリケーションがシステムにインストールされている場合、リストにはそれらが表示されます。
さらに、現行プロジェクト内の、同義語情報を持つグロッサリー・モデルをシソーラスとして選択することもできます。
外部シソーラスを使用する場合でも、マッピング・エディターの「設定」ページで追加の構成を行う必要はありません。
- シグニチャー
- 名前シグニチャーをベースにした検索メソッドを指定して関係を見つけ出すには、このアルゴリズムを使用します。
このアルゴリズムでは、データ・サンプリングを使用して関係が検索されます。
データ内のある種のワード・クラスには、加重値が割り当てられます。
サンプリング・サイズの推奨値は、100 行です。
サンプリング・サイズの有効値は、50、100、150、200、250、300、350、および 400 です。
サンプリング率の推奨値は、20 パーセントです。
有効な値は、1 から 100 の間の任意の整数です。
拒否しきい値の推奨値は 1 です。このディスカバー関数で使用するスキーマは、DB2 Universal Database™ スキーマでなければなりません。
このアルゴリズムを使用するには、データにアクセスするための特定の接続および許可の情報を指定する必要があります。
データ・サンプリングを使用すると、ディスカバー関数を実行するデータがキャッシュに入れられます。
すでに構成済みの使用可能なデータベースのリストからキャッシング・データベースを選択するか、または新しいキャッシング・データベースを選択することができます。
- 正規表現
- 正規表現またはパターン・マッチングを使用するテキストまたはストリングの検索をベースにした検索メソッドを指定して関係を見つけ出すには、このアルゴリズムを使用します。
単純な正規表現は、文字の完全一致です。
- 分布
- データにおける類似性をベースにした検索メソッドを指定して関係を見つけ出すには、このアルゴリズムを使用します。
ディスカバー関数は、ある種のデータ・サンプリングを実行して関係を検索します。
このディスカバー関数で使用するスキーマは、DB2 Universal Database スキーマでなければなりません。
このアルゴリズムを使用するには、データにアクセスするための特定の接続および許可の情報を指定する必要があります。
サンプリング・サイズの推奨値は、100 行です。
サンプリング・サイズの有効値は、50、100、150、200、250、300、350、および 400 です。
サンプリング率の推奨値は、20 パーセントです。
有効な値は、1 から 100 の間の任意の整数です。
拒否しきい値の推奨値は 1 です。
複数のアルゴリズムを選択する場合、シーケンス別または重み別にそれらのアルゴリズムを結合することができます。
重み別にアルゴリズムを結合する場合、それぞれのアルゴリズムが有する重要性のパーセンテージを指定することができます。
重み付きのアルゴリズムの結果をソートすることによりディスカバー関数の結果を調整し、最上位のパーセンテージだけを保存することができます。
シーケンス別にアルゴリズムを結合したい場合、それぞれのアルゴリズムの優先順位を指定できます。
複数のアルゴリズムを選択すると、選択したアルゴリズムの強度が結合されて、関係の検索の正確さが高まります。
信頼性値のしきい値を指定して、検討対象となる一致の種類を制御することができます。
ソースとターゲットの、両端の最小エレメントにいたるまでの個々の部分どうしに対してディスカバー関数を実行することができます。