応用情報技術者 2019年 春期 午前2 問29
問題文
ビッグデータのデータ貯蔵場所であるデータレイクの特徴として、適切なものはどれか。
選択肢
ア:あらゆるデータをそのままの形式や構造で格納しておく。(正解)
イ:データ量を抑えるために、データの記述情報であるメタデータは格納しない。
ウ:データを格納する前にデータ利用方法を設計し、それに沿ってスキーマをあらかじめ定義しておく。
エ:テキストファイルやバイナリデータなど、格納するデータの形式に応じてリポジトリを使い分ける。
データレイクの特徴とは【午前2 解説】
要点まとめ
- 結論:データレイクはあらゆる形式や構造のデータをそのまま格納する場所です。
- 根拠:データレイクはスキーマレスで、事前にスキーマを定義せずに大量の生データを保存可能です。
- 差がつくポイント:メタデータの管理やスキーマ設計の有無、データの分散管理方法を理解しているかが重要です。
正解の理由
ア: あらゆるデータをそのままの形式や構造で格納しておく。
データレイクは構造化データ・非構造化データを問わず、元の形式のまま大量に保存できる特徴があります。これにより、後から必要に応じて柔軟に分析や処理が可能です。
データレイクは構造化データ・非構造化データを問わず、元の形式のまま大量に保存できる特徴があります。これにより、後から必要に応じて柔軟に分析や処理が可能です。
よくある誤解
データレイクはスキーマを事前に設計する必要があると誤解されがちですが、実際はスキーマオンリード方式で後からスキーマを適用します。
解法ステップ
- データレイクの定義を確認する(スキーマレスで生データを保存)。
- 選択肢の内容をデータレイクの特徴と照合する。
- スキーマ設計やメタデータ管理の有無を判断する。
- データ形式の扱い方を確認し、最も適切な選択肢を選ぶ。
選択肢別の誤答解説
- イ: メタデータはデータの検索や管理に不可欠であり、データレイクでも格納されます。
- ウ: 事前にスキーマを定義するのはデータウェアハウスの特徴であり、データレイクはスキーマオンリードです。
- エ: データレイクは多様なデータを一元的に格納するため、形式ごとにリポジトリを分けることは基本的にしません。
補足コラム
データレイクは大量の多様なデータを蓄積し、ビッグデータ解析や機械学習の基盤として活用されます。スキーマオンリードの柔軟性が特徴で、データウェアハウスとは異なり、事前のデータ整形が不要です。
FAQ
Q: データレイクとデータウェアハウスの違いは何ですか?
A: データレイクは生データをそのまま保存し、スキーマは後から適用します。一方、データウェアハウスは事前にスキーマを設計し、整形済みデータを保存します。
A: データレイクは生データをそのまま保存し、スキーマは後から適用します。一方、データウェアハウスは事前にスキーマを設計し、整形済みデータを保存します。
Q: メタデータはデータレイクに必要ですか?
A: はい。メタデータはデータの検索や管理に重要で、データレイクでも適切に管理されます。
A: はい。メタデータはデータの検索や管理に重要で、データレイクでも適切に管理されます。
関連キーワード: データレイク、スキーマオンリード、ビッグデータ、メタデータ、データウェアハウス

\ せっかくなら /
応用情報技術者を
クイズ形式で学習しませんか?
クイズ画面へ遷移する→
すぐに利用可能!

