ホーム > ITストラテジスト試験 > 2023年
ITストラテジスト試験 2023年 午前2 問03
多数の被験者の検診データから、説明変数である年齢,飲酒の頻度及び喫煙本数が、目的変数であるガンの発症の有無に及ぼす影響を続計的に分析した上で、ある人の年齢,飲酒の頻度及び喫煙本数から、その人のガンの発症確率を推定するモデルを構築した。このとき用いられる分析手法はどれか。

ア:ABC分析
イ:クラスター分析
ウ:主成分分析
エ:ロジスティック回帰分析(正解)
解説
検診データの説明変数からガン発症確率を推定するモデル構築【午前2 解説】
要点まとめ
- 結論:ガンの発症有無という二値の目的変数を説明変数から確率的に予測するにはロジスティック回帰分析が適切です。
- 根拠:ロジスティック回帰分析は目的変数が「有・無」などのカテゴリカル(二値)である場合に用いられ、説明変数との関係をモデル化します。
- 差がつくポイント:単なるクラスタリングや主成分分析ではなく、確率推定を行う回帰モデルである点を理解することが重要です。
正解の理由
ロジスティック回帰分析は、目的変数が「ガンの発症の有無」のような二値データの場合に、その発症確率を説明変数(年齢、飲酒頻度、喫煙本数)から推定するための代表的な統計的手法です。線形回帰とは異なり、確率を0から1の範囲で表現できるロジスティック関数を用いるため、二値分類問題に最適です。したがって、選択肢の中で最も適切なのはエ: ロジスティック回帰分析です。
よくある誤解
クラスタリングや主成分分析はデータの分類や次元削減に使われますが、目的変数の確率推定には向きません。ABC分析は売上分析などに用いる手法であり、今回の問題には不適切です。
解法ステップ
- 目的変数の性質を確認する(今回の目的変数は「ガンの発症の有無」で二値)。
- 説明変数が連続値(年齢、飲酒頻度、喫煙本数)であることを確認。
- 二値の目的変数に対して確率を推定するモデルを選択する。
- ロジスティック回帰分析が二値分類問題に適していることを理解する。
- 選択肢の中からロジスティック回帰分析を選ぶ。
選択肢別の誤答解説
- ア: ABC分析
売上や顧客の重要度を分類する手法であり、目的変数の確率推定には使いません。 - イ: クラスター分析
データを似た特徴ごとにグループ化する手法で、目的変数の予測モデル構築には不向きです。 - ウ: 主成分分析
多変量データの次元削減に用いられ、目的変数の予測や確率推定には適しません。 - エ: ロジスティック回帰分析
二値の目的変数に対して説明変数から発症確率を推定できるため正解です。
補足コラム
ロジスティック回帰分析は医療分野でよく使われ、患者のリスク評価や診断モデル構築に役立ちます。線形回帰と異なり、出力が確率として解釈できるため、意思決定支援に適しています。また、多変量ロジスティック回帰では複数の説明変数を同時に扱い、各変数の影響度も評価可能です。
FAQ
Q: ロジスティック回帰分析はどんなデータに使いますか?
A: 目的変数が「はい・いいえ」などの二値データで、説明変数からその確率を推定したい場合に使います。
A: 目的変数が「はい・いいえ」などの二値データで、説明変数からその確率を推定したい場合に使います。
Q: クラスター分析とロジスティック回帰分析の違いは何ですか?
A: クラスター分析はデータをグループ分けする手法で、ロジスティック回帰は目的変数の確率を予測する回帰モデルです。
A: クラスター分析はデータをグループ分けする手法で、ロジスティック回帰は目的変数の確率を予測する回帰モデルです。
関連キーワード: ロジスティック回帰, 二値分類, 医療統計, 確率推定, 多変量解析