ホーム > データベーススペシャリスト試験 > 2022年
データベーススペシャリスト試験 2022年 午前2 問18
データレイクの特徴はどれか。
ア:大量のデータを分析し, 単なる検索だけでは分からない隠れた規則や相関関係を見つけ出す。
イ:データウェアハウスに格納されたデータから特定の用途に必要なデータだけを取り出し, 構築する。
ウ:データウェアハウスやデータマートからデータを取り出し, 多次元分析を行う。
エ:必要に応じて加工するために, データを発生したままの形で格納して蓄積する。(正解)
解説
データレイクの特徴はどれか【午前2 解説】
要点まとめ
- 結論:データレイクはデータを発生したままの形で格納し、必要に応じて加工する方式です。
- 根拠:構造化・非構造化問わず大量の生データをそのまま保存し、後から柔軟に分析可能にする点が特徴です。
- 差がつくポイント:データウェアハウスとの違いを理解し、前処理済みデータか生データかの違いを押さえることが重要です。
正解の理由
選択肢エは「必要に応じて加工するために、データを発生したままの形で格納して蓄積する」とあり、これはデータレイクの本質を正確に表しています。データレイクはあらゆる形式のデータをそのまま保存し、後から分析や加工を行うための基盤です。これに対し、データウェアハウスは既に加工・整理されたデータを格納するため、選択肢エが正解です。
よくある誤解
データレイクは単なる大量データの保存場所と誤解されがちですが、加工前の生データを保持し、柔軟な分析を可能にする点が重要です。
解法ステップ
- データレイクの定義を確認する(生データをそのまま保存する場所)。
- 選択肢の内容が「加工済みか生データか」を基準に分類する。
- データウェアハウスは加工済みデータの保存場所であることを思い出す。
- 選択肢エが生データのまま保存する特徴を示していることを確認。
- 他の選択肢はデータウェアハウスや分析手法の説明であるため除外。
選択肢別の誤答解説
- ア: 大量データの分析や隠れた規則の発見はデータマイニングや機械学習の説明であり、データレイクの特徴ではありません。
- イ: 特定用途に必要なデータだけを取り出すのはデータウェアハウスの役割で、生データのまま保存するデータレイクとは異なります。
- ウ: 多次元分析はデータウェアハウスやデータマートの分析手法であり、データレイクの特徴ではありません。
- エ: 必要に応じて加工するために、生データをそのまま格納する点がデータレイクの本質です。
補足コラム
データレイクは構造化データだけでなく、ログファイルや画像、動画など非構造化データも格納可能です。これにより、ビッグデータ分析やAI活用の基盤として注目されています。一方、データウェアハウスは分析に適した形に整形されたデータを格納し、迅速なクエリ応答を実現します。両者は目的や用途が異なるため、使い分けが重要です。
FAQ
Q: データレイクとデータウェアハウスの違いは何ですか?
A: データレイクは生データをそのまま保存し、後から加工・分析するのに対し、データウェアハウスは加工済みのデータを保存し即時分析に適しています。
A: データレイクは生データをそのまま保存し、後から加工・分析するのに対し、データウェアハウスは加工済みのデータを保存し即時分析に適しています。
Q: データレイクはどんなデータを保存できますか?
A: 構造化データ、半構造化データ、非構造化データなどあらゆる形式のデータを保存可能です。
A: 構造化データ、半構造化データ、非構造化データなどあらゆる形式のデータを保存可能です。
関連キーワード: データレイク, データウェアハウス, 生データ保存, ビッグデータ, 多次元分析, 非構造化データ, データマート