今回は、データウェアハウスについてご紹介いたします。
画像 DWH(データウェアハウス)とは?要件・活用事例まで詳しく解説|ITトレンド (it-trend.jp)
データウェアハウスとは、数多くの種類のシステムより収集した大規模なデータを時系列で整理し、保管することができるデータベースです。
データウェアハウスは英語で「Data WareHouse」と記述し、日本語に訳すと「データの倉庫」になります。つまり、あらゆる情報をまとめたサーバーやソフトウェアであり、データベースの利用形態の一つです。
データベースとデータウェアハウスの違い
・データ容量の大きさ
データが増えすぎてしまうとデータベースの容量を超えてしまい、分析が困難になります。一方、データウェアハウスではデータの分析目的に応じて整理することが可能になっています。
・データ分析のしやすさ
データがシステムごとに異なる形式で保存されている場合は、あるシステムから別のシステムへ転送する必要があり、時間と手間がかかります。しかし、データウェアハウスであれば、保存する際に時系列でデータを整理するため、スムーズ分析を始めることができます。
続いて、データウェアハウスの定義をご紹介します。
サブジェクトごとに保管
データウェアハウスはデータを目的別ではなく、サブジェクト(内容)別に分類するという特徴があります。
図書館の本がカテゴリや作者がバラバラに置かれていても、何がなんだか分からなくなってしまいます。データ(本)が主題・内容別に並んでいるイメージです。
データの統合
データウェアハウスの目的は、企業が扱うさまざまなデータを複数のシステムから統合することです。
しかし、企業のあらゆるデータを単に集めるだけだと、1つのデータベースに同じようなデータが重複して存在してしまう可能性があるため、あまり意味がありません。
そのため、データを物理的に1つのシステムに集めるだけでなく、データの内容ごとに統合することが、データウェアハウスでは必要になります。
データを消去しない
データウェアハウスを構築する際、データを消去することはありません。
データベースの場合は不要となったデータは保有せずに消去するのが一般的ですが、データウェアハウスは膨大なデータを主題別に保管することで、データ分析に活用することを目的としています。そのため、今は不要なデータでも今後必要になる可能性があるため、基本的に消去することはありません。
時系列を持つ
古い情報は消去され新しい情報に更新されるデータベースとは異なり、データウェアハウスは新しいデータを追加する際も、古いデータを消去することなく蓄積していくため、結果としてデータに時系列が生まれます。そのため、現在の情報だけでなく現在に至るまでの履歴も確認でき、過去の状況把握も含めて、データ分析に活用することができます。
データウェアハウスとはさまざまなシステムからデータを収集し、内容別・時系列に整理して保存することができます。データウェアハウスはデータを内容別に整理して統合し、消去せず時系列で蓄積していくという特徴から、分析のしやすさが挙げられます。
【参考】データウェアハウスとデータベースとの違いは?導入のポイントを解説 (dsk-cloud.com)