DWH (データウェアハウス) とは?データベースとの違いやメリット、選び方を解説

  • 2023.06.02
       
DWH (データウェアハウス) とは?データベースとの違いやメリット、選び方を解説

迅速かつ的確な意思決定が求められる昨今では、データ分析に必要不可欠な存在である DWH が多くの企業から注目を集めています。

DWH (データウェアハウス) とは?

DWH とはデータの倉庫を意味する「Data WareHouse」の略語で、企業内の複数システムで扱う膨大なデータをテーマ別に時系列で蓄積するシステムを指します。

データの倉庫はデータを保管するデータベースを意味します。
DWH を提唱した米国のコンサルタント、William H.Inmon氏は DWH を「意志決定のため、目的別に編成され、統合された時系列で、削除や更新しないデータの集合体」と定義しています。これは基幹業務と DWH の違いを示しており、現在でも一般的な定義となっています。

企業は生産管理や販売管理などの「基幹系システム」、MA ツールや SFA ツール、CRM (顧客管理) ツールなどの「戦略系システム」、Webページのアクセスログや IoT機器のセンサーログなど、複数のシステムを用いてデータを管理しています。ただ、これらのシステムはそれぞれ別のデータ体系で構築されており、データを収集してもそのままでは分析はできません。企業が経営やマーケティングにおいての意志決定を行うには、複数のシステムのデータを 1 つのデータベースに統合し、横断的にデータを分析する必要があります。
DWH はこのような重要な意思決定をサポートするために用いられるため
・分析しやすい形態でデータが格納される
・分析を行うためのデータ処理が高速
といった特徴を持っています。

DWH では、データを条件ごとに抽出したり、データの重複を避けて保存したりできるため、欲しいデータを短時間で入手できます。

プログラミングの基礎からサイト制作まで
↓実践力が身につくプログラミングスクール↓

ITエンジニアの学校 テックマニアスクール

≫モニター割引キャンペーン実施中!≪

DWHとデータベースの違い

DWH と似たものに「データベース (DB) 」があります。データベースは、データを形式ごとに整理し、保管するシステムです。どちらもデータを整理・保管するという意味では同じですが、厳密には異なります。
まず、「データ保管の目的」です。DWH は意思決定を行うことを目的としており、データの「分析」に特化しているのに対し、データベースの目的はさまざまで、データの「読み込み」や「書き込み」に特化しています。これは DWH が超並列処理アーキテクチャを採用しており、1つのクエリ処理を同時に並行で行えるからです。これは、データベースはデータ活用までは想定されておらず、行単位でのデータ読み込みにより、不要な列の情報まで読み込んでしまい、データの抽出に時間がかかってしまうのに対し、DWH は列単位で情報を読み込めるため、不要な列の情報は読み込まないからです。
また、DWH は膨大なデータを扱うため、データベースより大きなストレージ容量を備えており、データが時系列に沿って消去、更新されることなく蓄積されていきます。その一方でデータベースは保管できるデータ量に限界があります。そのため、データが増えるにつれて時系列で整理することも難しくなり、古いデータの削除やストレージの追加が必要になります。

DWHとデータレイクの違い

データレイクと DWH では格納するデータの内容が大きく異なります。DWH が規則性のある構造化データを格納する一方で、データレイクは構造化データに加え、データベース化できない非構造化データも格納します。そのため、データを無加工で格納するデータレイクは、分析しやすいよう加工されたデータを扱う DWH よりも、多くのストレージを要します。

DWHとデータマートの違い

ウェアハウスが「倉庫」を意味するのに対し、マートは「小売」を意味します。この意味どおり、データマートは DWH から特定の部門や目的に合わせて作成され、必要なデータのみを抽出し、格納します。
分析性能に関してもデータ項目も限られていることから DWH に比べて高いレスポンスが期待できます。ただ、分析できる範囲は狭く、データ量を増やすと有用性は落ちます。

DWHとBIの違い

BI (Business Intelligence) とは、DWH に蓄積されたデータを可視化するためのツールです。
表やグラフで視覚的に把握できるため、データ分析に関する深い知見のない担当者でも、各部門や経営全体の状況を把握し、経営判断につなげられます。
DWH と BI を組み合わせて活用することでより包括的なデータ分析が可能になります。

ただ、最近は DWH のデータストレージ機能を備えた BI や DWH に簡易的なデータ可視化機能を備えた DWH など、両者の線引きは難しくなっています。

ここまで DWH とそれぞれの違いを説明してきましたが、データレイクでデータを一元的に保管し、DWH で整理をする、そしてデータマートや BI で目的に応じた分析を行うというイメージです。

DWH は容量が大きく、多機能ですが、その分コストもかかり、扱いも簡単ではありません。規模や業務内容、スキルを考慮してデータベースか DWH かを選択しましょう。

DWHを活用するメリット

DWH を活用するメリットについて理解を深めるために「データウェアハウスの 4 要件」について説明します。
【データウェアハウスの4要件】
データの保存形式を統合する
データが内容ごとに整理される
データが時系列で保管される
データは保存され続ける

この4要件から DWH を活用するメリットは以下のようなものがあります。
・時系列でデータを扱うため任意の時点での状態やデータの流れを把握できる
・サブジェクトごとに分類されており、データを一元管理できる
・重複の削除や表現の統一などデータが統合されているためデータの整合性を高められる
・過去のデータが更新・削除されることなく長期保管できるため長期的な分析ができる

DWHの選び方

膨大なデータを扱う企業にとって、DWH は欠かせない存在です。ただ、扱いが難しいことからデータベースに比べて扱いが難しく、選定も難しいでしょう。ここからは DWH の選び方を紹介します。

サービス提供形態(クラウド or オンプレミス)で選ぶ
オンプレミスタイプは、自社でサーバを設置するため、高セキュアで情報漏えいのリスクを抑えられることやカスタマイズ性が高いことがメリットです。
ただ、調整なども全て社内で行うため、DWH を扱える知識やスキルが必要になります。
また、DWH はクラウドサービスでも提供されています。クラウドタイプでは初期費用を抑えられ、データ容量の増減にも柔軟に対応できます。ただ、自社業務への最適化という面ではオンプレミスタイプには劣ります。

DWHの機能性で選ぶ
■処理速度
データ処理速度は、システムを検討するうえで優先条件です。

■拡張性
DWH に蓄積されるデータは、日々増え続けていくため、ストレージ容量の拡張性と処理速度が維持されるかというのも重要な判断項目になります。

■ユーザインターフェースの柔軟性
社内の誰もが扱える DWH でなければ、データを有効に活用することはできません。そのためにも、わかりやすいユーザインターフェースになっているか、操作が簡単に行えるかをは重要なポイントです。

■データの連携性
DWH は、膨大なデータの中からデータを抽出し、BI ツールなどとの連携で分析を行う中継的なシステムです。データ移行やフォーマット変換をスムーズに行うにはほかのシステムと柔軟にデータを連携する機能は必須といえます。

     

Otherカテゴリの最新記事