金井 高志
カナイ タカシグループ
ライフログとビッグデータの関係ーーそれぞれの定義
-
最近、システム・コンピュータ業界で話題となっている用語として「ビッグデータ」という言葉があります。ライフログ(行動履歴)とビッグデータの関係については、まだ、あまり議論されていませんので、これらの関係を検討してみます。まず、今回は、ライフログとビッグデータの定義を記載します。
ライフログの意義は、このコラムのシリーズで説明していますが、以下のような内容です。
①人(個人)の
②ネット内外(オフライン・オンラインを問わない)の行動(活動)
③デジタルデバイス(スマートフォン・PC等)を通じて収集・蓄積(デジタル化されている情報となる)
④特定の個人に関する個人情報(個人識別情報)であるか、個人に関連する個人情報に 該当しない情報(非個人識別情報)であるかを問わない情報
それでは、ビッグデータはどのように定義されているかを見てみます。
(1)ビッグデータのIT/ICT業界における広い意味の定義
以下のようなものとして紹介されているものが一般的であると思われます。(城田真琴『ビッグデータの衝撃』21頁などを参照)
①「既存の一般的な技術では管理するのが困難な大量のデータ群」
これは、典型的なデータベース・システムでは収集・記憶・管理・分析することが困難なサイズのデータを意味しています。
②ビッグデータの特性を考慮した定義:以下の特性があるもの
1) VOLUME(ボリューム:量):既存の技術では管理できないデータ量
現状では、数十テラバイトから吸うペタバイト程度
2) VARIETY(バラエティ:種類・多様性)=構造化データおよび非構造化データ:
販売データや在庫データ、ウェブのログデータ、SNS内のテキストデータ、位置情報など
3) VELOCITY(ベロシティ:速度)=時系列性・リアルタイム性:
POSデータ、ウェブのクリックストリームデータ、SNSへの投稿、渋滞検知センサーや路面状況センサーなど
ただ、他の定義もなされており、筆者がいくつかの文献やサイトを見て検討した結果として、ビッグデータには、複数の定義があるものとして整理しておくといいと思います。以下に、定義の私案を提示しておきます。
(1) 最狭義
①量、②種類・多様性(構造化データおよび非構造化データ)、③速度・リアルタイム性、④高解像度性(同一事象についてのデータの詳細度)(鈴木良介『ビッグデータの時代』[翔泳社 2011]20-23頁)(『平成24年版 情報通信白書』154頁)
(2) 狭義
①量と②種類・多様性(構造化データおよび非構造化データ)③速度・リアルタイム性の3つの特性を有するデータ=3V(ボリューム・バラエティ・ベロシティ)の特性を有するデータ
(3) 広義
①量の要件のみによる定義 既存の技術では管理できないデータ量
(4) 最広義
①広義の定義+②データ分析・蓄積・分析技術[ビッグデータ技術](大量のデータを効率的に処理・分析するための技術にも焦点をあてた場合の定義=対象+手段)
以上の定義のように整理しておくことが、ビッグデータの議論を整理するために有用であると思います。
「ライフログ」のコラム
ライフログ ライフログの取扱い(2012/08/05 22:08)
ライフログ 最近の記事(Tポイントカード(2))(2012/08/02 22:08)
ライフログ 最近の新聞記事 (Tポイントカード(1))(2012/07/30 21:07)
ライフログの意味・定義(2012/07/22 20:07)
ライフログとは?(2012/07/17 21:07)