ビッグデータとは?
ビッグデータとは、さまざまな種類や形式のデータを含んだ膨大なデータ群のことです。一般的に、データの量(volume)、データの種類(variety)、データの処理速度(velocity)の3つの「V」を高い基準で備えているといった特徴を持ちます。また最近になって、これに加えて正確性Veracity(正確性)と価値(Value)が加えられるようにもなっています。
ビッグデータの発展によって、今まででは十分に活用できていなかった非構造化データやリアルタイム性のあるデータを蓄積できるようになりました。
ビッグデータの具体例
- メディアデータ(音声、画像、動画など)
- SNSデータ(ユーザのプロフィール、投稿内容など)
- Webサイトアクセス解析データ(回遊経路、各ページの滞在時間、離脱率など)
- 顧客データ(交尾履歴、問い合わせ履歴など)
- センサデータ(位置情報、温度、指紋など)
- ログデータ(アクセスログ、エラーログなど)
上記のようなビッグデータの収集、蓄積、分析により多くの成果が見込め、あらゆる業界や分野におけるさまざまなビジネスシーンでの利活用が期待されています。
ビッグデータの3つの「V」
・Volume(データの量)
ビッグデータの特徴の1つは、その容量の大きさにあります。ビッグデータでは、低密度の大量の非構造化データを処理する必要があり、現状では組織によって数テラバイトから数ペタバイト程度、なかには数百ペタバイトといったデータ量になる場合もあります。
・Variety(データの種類)
ビッグデータは構造化データのほかにも、音声、画像、動画、テキスト、位置情報、センサー情報等の様々な種類の非構造化データも存在します。今後は、単に蓄積するだけでなく、これを分析し、そこから有用な知見を得ようとする取り組みが始まっています。
・Velocity(データの処理速度)
処理速度とは、データの受信に対して起こすアクションのスピードです。
昨今の変化の著しい市場環境では、データに対してリアルタイムに対応することが求められています。
ちなみに、ここ数年間でさらに2つの「V」、Value(データの価値)とVeracity(データの正確さ)が登場しました。データには本質的な価値がありますが、その価値が発見されなければ、データを解析する意味がありません。また、データが正確であればデータへの信頼性が高まるため、ビジネス上で正確な意思決定を行う際の重要な要素の一つです。
このように、技術進歩により、膨大で多様なデータをいっぺんに扱えるようになっただけでなく、かつては保管や活用が困難であったリアルタイム性のあるデータも瞬時に解析できるようになるなど、ビッグデータが活用されるようになりました。
ビッグデータを構成するデータの種類
ビッグデータを構成するデータには以下の2種類があります。
- 構造化データ
- 非構造化データ
構造化データとは
造化データとは、「列」「行」からなるテーブル形式など、一定の形式で整えられたデータ。
非構造化データとは
構造化データ(一定の形式で整えられたデータ)とは異なり、音声・画像・動画・テキスト・Webページなどといった一定の組織化された原則を持たないデータ。
規則性がなく、扱いにくく、分析や分類が難しい者でしたが、昨今は技術の進歩によって分析しやすくなったことで、ビジネスでの活用も進められています。
総務省による定義
総務省の平成29年に発表した情報通信白書では、ビックデータを以下のように定義しています。
オープンデータ | 国や地方公共団体が提供 |
産業データ | 企業が保有するパーソナルデータ以外の幅広いノウハウなどのデータとM2M と呼ばれる産業用機械の機器間通信時のデータ |
パーソナルデータ | 個人の属性情報、移動・行動・購買履歴などの個人情報 |
参照:総務省 平成29年度版 情報通信白書「ビックデータの定義及び範囲」
政府は現在、現実空間と仮想空間が融合する社会の実現のため、上記の3要素を連携し、データをより効果的に活用することに期待がかかっています。
なぜビッグデータが注目され始めたのか
まず、通信技術の進歩やスマートフォンの普及により、インターネットが急速に普及し、多くの人が利用するようになったためデータ量が増大したことですで、ビッグデータが注目されるようになりました。
そして、コンピュータ性能の向上もビッグデータに影響しています。データが多くてもそれを処理できるだけの環境がないとビッグデータは活用できないからです。コンピュータ性能が康応したことで膨大なデータを処理できるようになりました。
また、近年のAIブームも、ビッグデータの人気を後押ししています。AI 技術の進歩によってこれまでは扱いづらかった非構造化データも活用しやすくなったためです。
ビッグデータと IoT、 AI の関係性
ビッグデータと併せて必ずと言っていいほど名前が挙がるのがIoTとAIです。それぞれどのような関係にあるのでしょうか。
どれもDX推進にとって重要な要因の1つだと注目されています。
ここからは、それぞれの技術との関係性と役割について詳しく解説していきます。
IoT×ビッグデータ
IoTとは「Internet of Things(=モノのインターネット)」の略で、身の回りのさまざまなモノをインターネットに接続し、データの送受信を行う仕組みです。単独ではアナログなモノにセンサーやカメラ、無線通信を搭載することでその状態や動きを感知し、目的に合わせてデータを取得します。そして、そこから得たデータはインターネットを経由してクラウドに送られ、ビッグデータの一部となります。
昨今では、スマートスピーカーやスマートホーム、自動運転車など、IoT技術を搭載した製品があります。
IoT技術によって、人々の生活に関わる様々なデータを瞬時にリアルタイムで取得できます。取得されたデータはビッグデータに収集・蓄積され、サービスや製品、マーケティングなど、幅広い領域で活用されています。
AI×ビッグデータ
IoT機器が取得し、クラウドに送られたデータを処理・分析し、有用な情報を抽出する役割を担うのがAI です。そして、その結果から新たなAIモデルが誕生し、サービスや製品に活用されます。
IoT機器に新たなAIモデルが搭載されれば、従来より機能性を向上させられます。
IoT→ビッグデータ→AIという循環を繰り返していくことで、より優れたデータやAIモデルが誕生し続けるのです。
IoTの発展により、収集できるデータが増え、AIの進化によって、より有効にデータを活用できるようになり、業務効率化やマーケティングにおいて従来とは異なるアプローチができるようになったのです。
ビッグデータが普及した背景
ビッグデータが普及した背景には、コンピュータの普及に伴い、インターネットが急速に発達したことによるものが大きいですが、これまでに大きな「3つの変革」がありました。第一の変革は「データのデジタル化」、第二の変革は「インターネットの急激な発展」です。そして第三の変革が「ビッグデータの活用」です。
この第三の変革に大きく影響したのが、「Hadoop(ハドゥープ)」と呼ばれる技術です。これは膨大な量のデータを複数のマシンに分散することで瞬時に処理できるオープンソースのプラットフォームです。これによってペタバイト(1ペタバイト=1テラバイトの1000倍)レベルの非構造化データの超高速処理ができるようになったことで、低コストで膨大な情報の分析も可能になりました。
ビッグデータのメリット
ビッグデータの活用が広まり、かつては集められなかったデータを扱えて、データ同士の掛け合わせもできるようになりました。新たな視点から有益なデータが創出され、より包括的な答えが得られることで、新しいシステムやビジネスが次々に生み出されています。
ビッグデータの活用でできること
ここからは、ビッグデータの役割を「データに基づいた意思決定」「予測」の2つに分けて解説していきます。
データに基づいた意思決定
ビッグデータの活用によって、膨大で多様なデータから課題を解決するのに必要なものを取り出し、ビジネスにおける重要な意思決定ができるようになりました。こういった、ビッグデータを収集、蓄積、可視化を基にビジネス上の意思決定に用いることを「データドリブン」といいます。
データは客観的な根拠になるため、それを基に策を施せるので、周囲からの理解も得やすく、検証結果もデータに基づいてできるので、細かくPDCAを回しやすいという利点もあるため、マーケティングから商品開発まで幅広い分野で活用されています。
予測
従来では限られたデータを基に、経験則で直感的な意思決定する必要がありましたが、ビッグデータを活用することで、蓄積してきた膨大な実績データから傾向をとらえ、データに裏付けられた、論理的で精度の高い予測ができるようになりました。例えば、商品やサービスの需要を予測すれば、在庫や製造量を過不足なく管理できるため、コストの削減や業務効率化につながります。
ほかにも、事故や犯罪の予測や健康管理等、幅広い分野で活用されています。
ユーザのニーズの正確な把握
ビッグデータの活用で、ユーザのニーズを正確に把握できるようになりました。膨大なデータを組み合わせ多角的に分析することで、ユーザのニーズを把握できれば、ニーズに沿った商品やサービスを提供できるようになり、顧客満足度の向上や売上の増加にもつながります。
ビッグデータの活用における注意点
個人情報の取り扱いに注意が必要
ビッグデータには個人情報も多く含まれています。万が一、これらの個人情報を漏洩してしまうと企業全体の信用が失われる事態になりかねません。そのため、データを加工して利用する、セキュリティを強化するといった対策を講じる必要があります。
データの加工に手間がかかる
収集したデータの形式が分析しやすいよう整っているわけではありません。そのようなデータはそのままでは使えないため、加工する必要がありますが、データ量が増えるほどその負担は大きくなります。ビッグデータがうまく活用できていない場合、データ加工がうまくできていないというケースもあります。
スキル人材の確保
膨大なデータを管理・分析・活用できるデータサイエンティストやそれに準ずる人材の確保は必須です。
ビッグデータの活用工程
ビッグデータを実際にビジネスに活かすには、以下のようなデータドリブン導入プロセスが必要です。
データの収集·蓄積
データの活用を始めるには、データを収集し蓄積する基盤が必須です。企業の業務システムや基幹システム、Webサーバー、外部サービスなどから収集するのが一般的です。
データの可視化
収集したデータを分析する前に、膨大なデータのなかにどういった内容を含んでいるかを客観的に把握できるよう情報を整理し、可視化することでわかりやすくする工程です。
データの分析·解析
加工したデータに基づいて、解決したい問題に応じて分析·解析します。ここでは、定量的なデータのほかにも変化や傾向などの定性的なデータも導き出します。
以上の3つのプロセスを経て、データから得られた知見を課題解決に活用できるようになります。
ビッグデータの代表的な分析方法
収集したデータは分析してはじめて意味を成します。ビッグデータの分析でよく使われる手法を紹介します。
クロス集計
クロス集計とは、複数のデータ項目を掛け合わせてデータの集計・分析を行う手法です。属性や項目ごとに細分化することで単純な集計では得られない傾向やニーズを把握できます。クロス集計は、さまざまな業界や分野で用いられています。
ロジスティック回帰分析
ロジスティック回帰分析とは、データ同士の関係性・関連性を0か1または0から1までで定量的に算出し、分析していく手法です。結果に対する原因が具体的に把握できるため、マーケティングや商品開発に用いられることが多いです。
アソシエーション分析
アソシエーション分析とは、一見関係性のなさそうな要素から法則や共通性を見つけ、データの相関性を割り出す手法です。小売業のマーケティングなどによく用いられる手法でECサイトのレコメンド機能などにも活用されています。
クラスター分析
クラスター分析では、異なる性質が混ざったデータの中から類似した特徴を持つデータごとにグループ分けし、クラスター(集団)ごとに分析する手法です。似た性質というのは年代や性別のような定量的なものではなく、はっきりと分類できないものをグループ化するのがクラスター分析の特徴でクラスターごとの特性やニーズを把握できます。
決定木分析
決定木分析とは、特定の値を基準として分岐させ、データを分類する手法です。木のように枝分かれ構造を作り、予測や検証の判断材料にします。
主成分分析
主成分分析は、複雑なデータから傾向や特徴を抽出し、シンプルにしてデータを見やすくする手法です。データが多いほど正確な分析ができますが、複雑化して分析しにくくなるという側面もあります。メディア業界や研究機関でよく用いられる手法です。
ビッグデータの活用事例
ここからは、実際にどのような場面でビッグデータが使われているのか、活用例をいくつかご紹介します。
ICチップ付きの交通カード
駅の改札でタッチ&ゴーをするSuicaやPASMOなどといったICチップ付きの交通カードですが、これは利用客が電車に乗る際の支払いに使われるだけではなく、タッチした際の情報が鉄道会社に送られ、旅行業などの自社内システムで利用されています。また、これらのカードを使って買い物をすると、「誰が」「何を」「何回買った」のかといったデータが自動的に蓄積されています。
防犯カメラ
実は膨大なビッグデータを集める手段なのです。かつては単に映像を記録するためだけに利用されていましたが、今では「手に取ったが戻されてしまったもの」「かごに入れたが戻されてしまったもの」など、購入されなかった商品のデータ分析などにも使用されています。
これらのデータは、顧客の行動データを解析することでさらなるマーケティングに役立てられます。
Nシステム
Nシステムとは自動車ナンバー自動読取装置です。警察が監視用に設置したシステムで、走行中の車のナンバーを読み取りつつ、手配車両のナンバーと照合しています。このシステムは犯罪捜査だけでなく、渋滞予測やドライバーへの警告等にも使われています。
選挙速報
最近では、選挙結果を予測において、投票所から出てくる人に誰に投票したかを聞く出口調査よりもかなり前に予測できるようになっています。Yahoo! JAPANのビッグデータレポートチームは、2013年の参議院議員選挙の結果を、「Yahoo!検索」のデータや過去の得票数の結果などから予測し、驚異的な精度の選挙予測を行いました。
このほかにも、Google検索のサジェスト機能やNetflixのレコメンド機能など、様々な業界やサービスで活用されています。
まとめ
ビッグデータの活用によって得られる情報が増えればデータへの信頼性が高まることで、ビジネスの成功を左右する大事な要素となり、ビジネスや社会における課題解決へのアプローチも大きく変わるでしょう。ただ、匿名データを公開データなどと突き合わせることで個人が特定できてしまう恐れがあるなど、デリケートな側面もあり、扱いには注意が必要です。
ビッグデータは今後、さらなる技術進歩の発展によって、収集できるデータもさらに増えることで、進化を遂げ、私たちに新しい世界を見せてくれるでしょう。