DX(デジタルトランスフォーメーション)が促進される昨今、世のデータの大半を占める非構造化データの注目度は、業務のデジタル化が進む中でさらに高くなっています。本記事では、関心を集めている非構造化データと構造化データのそもそもの違いや、非構造化データを活用するメリット、活用方法について解説します。
非構造化データとは
データとは、構造化データと非構造化データによって構成されるデータ群で、そのうちの非構造化データはネイティブな形式のまま保存されています。また、使用する時まで何も処理されないという特徴がありながら、使用する時は比較的自由にデータを処理できるため柔軟性が高く、用途の幅が広い点がメリットです。そのままでも人間が認識、理解しやすいのも特徴です。
ネイティブな形式では保存する際のデータ形式に指定はありません。そのため、幅広い範囲のファイル形式で保管することができます。さらに、データの定義をする必要がないことから収集を素早く行える点もメリットと言えるでしょう。加えて、非構造化データは膨大な量(容量)になる傾向にあるため、大容量の保存が可能なクラウドストレージやクラウドのデータレイクを活用します。それらは、容量無制限であったり、使用状況に合わせて従量課金できるため、コストを抑えられます。
非構造化データにはEメールやソーシャルメディアの投稿、音声、画像、請求書、ログ等のセンサーデータなどが含まれ、構造化データよりも多種多様でデータ量も膨大です。それぞれの活用方法については、以下で詳述します。
画像データ
デジタルカメラの写真やスキャンした画像、3D画像などは全て画像データに分類されます。様々な場面で活用されている画像データは、非構造化データの中でも代表的な形式です。近年の活用方法としては、人による様々な判断への材料になっていることに加え、AI技術の発達とともに顔認識やレジに置いてある商品の判別、文字認識による文書のデジタル化などが挙げられます。なお、動画も特殊な画像データに含まれます。
音声データ
音声データ自体はCDの登場とともに普及したため、データ自体は古くからあります。しかし、近年は音声認識技術の発達や音声スピーカーの普及によって音声入力が一般的になったことで、音声データの有効活用に注目が集まるようになりました。
例えば、コールセンターでは応答記録を記録として残すだけではなく、自動的にテキスト化する(Voice to Text)ことで、記録や分析の効率化を実現しています。また、声のトーンから相手の感情を推定する手法や、機械から発せられる音を分析し、異常が起きていないかを検知する方法においても活用されています。
テキストデータ
インターネット上にある非構造化データの中でも膨大な量を誇るテキストデータの形式は、小説のような長文からTwitterなどの短い文章の投稿などまで多岐に亘ります。テキストデータを読み取ることで、口コミやSNSの投稿からブランドに対するイメージの調査や、顧客が抱えている課題の発見、要約生成技術による議事録などの文書自動作成、言語の自動翻訳など幅広く活用されています。
センサーデータ
ネットワーク化に伴うIoTやビッグデータ分析、OT分野やセンサー技術の発展により、工場内での製造過程のデータや室内の温度、湿度、密度といった情報まで幅広く取得できるようになりました。センサーデータを活用すれば、歩留まり悪化につながる製造ラインでの異常の検知やエラーの修正、機器が故障するタイミングの予測など、様々な用途で利用できます。また、ヘルスケアでも活用されており、心拍の計測によるストレスや疾患の予測といった取り組みも一般的になってきました。自動運転などもこういったセンサーデータが広く使われます。いわゆる画像やMicrosoft Officeドキュメント等のファイルと区別するため、半構造化データや準構造化データと呼ばれることもあります。
構造化データとの違い
形式が定められておらず、処理がされていない非構造化データに対して、構造化データはSFAやCRM、ERPなどの業務管理システムのアプリケーション内やRDBに蓄積されるデータを指します。Excelのような表計算ソフトのように「列」と「行」で情報がまとめられている点が特徴です。データもネイティブな状態ではなく、事前定義された状態で格納されているため、誰でもデータを扱えるようになっています。ただし、人間は構造化データをそのまま見ても理解しにくく、コンピュータが処理や計算がしやすくなっています。よって、構造化データを利用するには専門的な処理を行う必要があり、データを扱う人にはある程度の専門知識が必要になります。
構造化データ自体は、予め定義されている、つまり処理が施されていることで扱いやすくなっているメリットがあり、例えば、機械学習での利用にも適しています。また、多くのITツールに対応している点も大きな特徴です。また、構造化データは、データをそのままの状態で保存するスキーマオンリード(Schema on Read)ではなく、特定のデータ利用を想定したデータスキーマオンライト(Schema on Write)のデータベースに保存されます。
半構造化データとは
半構造化データとは、構造化データと非構造化データの中間に位置するデータです。大きく分類すると非構造化データに含まれますが、特定の特性を明確化するメタデータの構造が決まっていることから、処理すればすぐに構造化データとしても扱える点が特徴です。列と行で明確に構造化されているわけではありませんが、規則性のある要素があり、階層化されているため、扱いやすいデータ群と言えます。.csvや.tsvが例となります。.csvは、CSVファイルと呼ばれる一方で、カンマ区切りで項目が分けられ構造化されている点が中間的な位置づけで、構造化データのようにも扱えるのです。
非構造化データの分析はこれからの時代に必要
企業が自社に保有しているデータの大部分が非構造化データです。これは企業が事業を推進していく中で発生するメールや提案書、企画書、請求書、画像、音声などのデータが非構造化データに分類されるからです。
非構造化データはIT/ICTの広がり、業務管理システムの普及やコミュニケーション基盤のデジタル化などを背景に膨大な量に膨れ上がってきました。また、e-文書法や電子帳簿保存法などの法整備も行われ、紙書類が電子データ化されたことも非構造化データが増加した大きな要因です。人が目にするもの、触れるもの全てが非構造化データとなって蓄積されてもおかしくない世の中になっているのです。反面、非構造化データは、人間は理解できてもコンピュータには扱いにくいデータでもあり、これまで構造化データほど活用が進んできませんでした。
今後、デジタルシフトがさらに進むことで非構造化データの総量はより一層増加すると予測されており、データの有効活用に対する重要性が増していくと予想されます。そのため、非構造化データの分析基盤がますます注目されていくでしょう。
非構造化データには課題もある
デジタルトランスフォーメーションの推進やテレワークの普及、ビジネスのグローバリゼーションなどにより、企業が保有するデータ量は増加の一途をたどっています。特に非構造化データはデータ量が大きく、管理体制や活用する基盤作り、セキュリティ対策などへの対応が求められます。
具体的に環境整備の中で課題となるのが、データ管理のための大規模なストレージ確保にともなって発生するコストです。保存されるデータ量の増加に応じたストレージの拡張が必要になると、維持コストが増加します。また、非構造化データの増加によって扱うファイル形式の数やコンテンツの種類が多岐に亘り、管理が難しくなります。そのため、管理体制の構築をする際に管理システムを導入するコストもかかります。さらに、組織が保有する非構造化データを自由に扱えるようにすると、その分情報漏えいや改ざんなどのセキュリティ面や情報ガバナンス面でのリスク対策も必要になります。
非構造化データを活用するために
非構造化データを扱うには実際にデータを構造化データでデータレイクやDWH(Data Warehouse)等に集約したように、ファイルやコンテンツも一元的に集約し、適切に管理し、活用できる文書管理やコンテンツ管理の知識が必要になります。まずはデータ活用ができる人材の育成や支援ができるコンサルとの協業が求められます。また、ストレージやプラットフォームの構築など、データを保管、管理する環境構築への投資も必須です。
世界中がDXに動く中で、非構造化データのビジネスにおける活用方法を明確化し、中長期的なコンテンツ管理戦略の観点から構造化データとともに効率的かつ効果的な管理体制を整えられるかは、その後の成否を分けるでしょう。
[SMART_CONTENT]
まとめ
企業が保有するデータの大半を占める非構造化データは、今後ますます増加していくと予測されます。また、その重要性もデジタルシフト、オンライン化、DXが進むにつれ、うなぎ上りです。非構造化データを扱うためには、ファイルやコンテンツ管理に関する専門知識と膨大なデータ量を保管するシステムの確保が特に重要です。これらの課題を達成できれば、非構造化データを有効活用し、企業サービスの品質向上や販促経路の拡大、マーケティング、顧客満足度向上、新規ビジネス創出など、多くの企業メリットが実現します。
自社にある膨大な非構造化データで差別化を図りたいと考えているのであれば、今こそ長年の課題だった非構造化データの活用を経営の一環として取り組み、ビジネスシーンで扱えるように環境整備やコンテンツ管理や文書情報マネジメントの人材確保に注力していきましょう。
- トピックス:
- 文書管理