基本情報技術者 2019年 秋期 午前(科目A) 問63
問題文
企業がマーケティング活動に活用するビッグデータの特徴に沿った取扱いとして、適切なものはどれか。
選択肢
ア:ソーシャルメディアで個人が発信する商品のクレーム情報などの、不特定多数によるデータは処理の対象にすべきではない。
イ:蓄積した静的なデータだけでなく、Webサイトのアクセス履歴などリアルタイム性の高いデータも含めて処理の対象とする。(正解)
ウ:データ全体から無作為にデータをサンプリングして、それらを分析することにより全体の傾向を推し量る。
エ:データの正規化が難しい非構造化データである音声データや画像データは、処理の対象にすべきではない。
企業がマーケティング活動に活用するビッグデータの取扱い【午前2 解説】
要点まとめ
- 結論→マーケティングでのビッグデータはリアルタイム性の高いデータや非構造化データも含め、幅広く処理対象とすべきです。
- 根拠→ビッグデータはVolume・Velocity・Variety(+Veracity)の特性を持ち、即時性と多様な形式の分析が競争優位を生みます。
- 差がつくポイント→設問は4Vを照らし合わせて「即時性(Velocity)」「多様性(Variety)」を含む選択肢を選ぶと正解に辿り着きます。
正解の理由
正解: イ
選択肢イは「蓄積した静的データだけでなくWebアクセス履歴などリアルタイム性の高いデータも処理対象とする」と述べ、ビッグデータのVelocity(速度)とVariety(多様性)を正しく評価しています。マーケティングでは即時の行動データ(アクセス履歴、クリック、購買履歴のストリーミング)を活用してパーソナライズやタイムリーな施策を行うため、リアルタイムデータを対象外にするのは不適切です。
選択肢イは「蓄積した静的データだけでなくWebアクセス履歴などリアルタイム性の高いデータも処理対象とする」と述べ、ビッグデータのVelocity(速度)とVariety(多様性)を正しく評価しています。マーケティングでは即時の行動データ(アクセス履歴、クリック、購買履歴のストリーミング)を活用してパーソナライズやタイムリーな施策を行うため、リアルタイムデータを対象外にするのは不適切です。
よくある誤解
- 「SNSなど不特定多数のデータはノイズが多いから使えない」:ノイズは多いが有益な顧客感情やトレンドを含むため、フィルタリングや自然言語処理で活用可能です。
- 「非構造化データは扱えないから捨てるべき」:画像・音声・テキストは機械学習やOCR、音声認識で情報化でき、価値あるインサイト源になります。
- 「大きなデータだから無作為サンプリングで十分」:サンプリングは有効だが、希少事象(バイラル起点、異常検知)や細かなセグメント分析には全量或いは戦略的サンプリングが必要です。
解法ステップ
- 問題のキーワードを確認:ビッグデータ、マーケティング、取扱い。
- ビッグデータの特性(4V: Volume, Velocity, Variety, Veracity)を想起する。
- 各選択肢を4Vに当てはめ、正しく扱うべき特性を肯定するものを探す。
- 「〜すべきではない」と否定形の選択肢は具体的理由(処理困難=即不採用)を疑い、反証できるか確認する。
- 最終的にリアルタイム性や非構造化データの扱いを肯定する選択肢を選ぶ。
選択肢別の誤答解説
- ア: ソーシャルメディアのクレーム等を「処理の対象にすべきではない」とするのは誤りです。SNSデータは感情分析やトレンド発見に有用で、適切な前処理や匿名化で利活用可能です。
- イ: イは正解です。リアルタイム(Velocity)データを含めて処理することがマーケティング上重要である点を正しく述べています。
- ウ: 無作為サンプリングだけで全体の傾向を推し量る、という主張は限定的です。サンプリングは処理負荷軽減で有効ですが、希少事象の検出や細分化したターゲティングには不十分な場合があります。
- エ: 非構造化データ(音声・画像)は処理が難しい面はあるが「処理対象にすべきではない」と断言するのは誤りです。NLPや画像解析技術で価値を抽出できます。
補足コラム
- 実務では、リアルタイム処理はApache KafkaやKinesis、ストリーム処理はFlinkやSpark Streamingが用いられます。非構造化データはNLP(形態素解析、感情分析)、画像解析(CNN)、音声認識で構造化してから分析します。
- サンプリング戦略としては層化サンプリングやブートストラップがあり、全量処理が難しい場合でもバイアスを抑える工夫が必要です。
- プライバシーと法令順守(匿名化、個人情報保護)を踏まえたデータ設計が前提です。マーケティングの効果と規制順守の両立を検討してください。
FAQ
Q1: ビッグデータは常にリアルタイム処理が必要ですか?
A1: 必須ではありません。バッチ処理で十分な分析も多いですが、即時対応やパーソナライズが必要な場面ではリアルタイム処理が有利です。
A1: 必須ではありません。バッチ処理で十分な分析も多いですが、即時対応やパーソナライズが必要な場面ではリアルタイム処理が有利です。
Q2: 非構造化データは試験で「処理対象にすべきではない」と出たら誤りですか?
A2: 原則誤りです。現代の分析手法で非構造化データは重要な情報源となるため、処理対象に含める視点が正しいことが多いです。
A2: 原則誤りです。現代の分析手法で非構造化データは重要な情報源となるため、処理対象に含める視点が正しいことが多いです。
Q3: サンプリングはまったく使えないのでしょうか?
A3: いいえ。計算資源や時間の制約がある場合は有用です。ただしサンプリング方法と限界(希少事象の見落とし)を理解する必要があります。
A3: いいえ。計算資源や時間の制約がある場合は有用です。ただしサンプリング方法と限界(希少事象の見落とし)を理解する必要があります。
関連キーワード: ビッグデータ、リアルタイム、非構造化データ、SNS分析、ストリーミング処理、サンプリング、4V、データクレンジング、プライバシー、NLP、画像解析

\ せっかくなら /
基本情報技術者を
クイズ形式で学習しませんか?
クイズ画面へ遷移する→
すぐに利用可能!

