応用情報技術者 2011年 秋期 午前2 問27
問題文
自然言語の解析などのために、文学作品、会話、新聞記事などの大量の文章を蓄積したテキストデータベースはどれか。なお、生の文章そのものを収集したもの、文法的情報を付加したもの、意味的情報を付加したものなど様々な形態がある。
選択肢
ア:アーカイブズ
イ:コーパス(正解)
ウ:シソーラス
エ:ハイパテキスト
自然言語解析のためのテキストデータベースとは【午前2 解説】
要点まとめ
- 結論:大量の文章を収集し、文法や意味情報を付加したテキストデータベースは「コーパス」である。
- 根拠:コーパスは自然言語処理の基盤として使われ、言語解析や機械学習に不可欠なデータセットである。
- 差がつくポイント:アーカイブズは単なる資料保存、シソーラスは語彙の類義語辞典、ハイパテキストはリンク構造の文書であり、文章の大量収集と解析用データベースとしての特徴はコーパスに限られる。
正解の理由
イ: コーパスは、自然言語処理や言語学研究で用いられる大量のテキストを体系的に収集・整理したデータベースです。生の文章だけでなく、文法的・意味的な注釈が付加されることも多く、解析や機械学習の教材として最適です。これに対し、アーカイブズは歴史的資料の保存、シソーラスは語彙の意味関係辞典、ハイパテキストは文書間のリンク構造を指し、問題文の条件に合致しません。
よくある誤解
「アーカイブズ」と「コーパス」を混同しやすいですが、アーカイブズは資料の保存が目的であり、解析用に体系化されたテキストデータベースではありません。
「シソーラス」は語彙の意味関係を示す辞書であり、文章の大量収集とは異なります。
「シソーラス」は語彙の意味関係を示す辞書であり、文章の大量収集とは異なります。
解法ステップ
- 問題文の「大量の文章を蓄積したテキストデータベース」というキーワードに注目する。
- 「文法的情報や意味的情報を付加したもの」という条件を確認する。
- 選択肢の意味を整理し、自然言語解析に使われるデータベースを特定する。
- 「コーパス」が自然言語処理のためのテキストデータベースであることを思い出す。
- 他の選択肢の意味と照らし合わせて正解を決定する。
選択肢別の誤答解説
- ア: アーカイブズ
歴史的資料や文書の保存を目的としたもので、自然言語解析用の体系的なテキストデータベースではない。 - イ: コーパス
正解。大量の文章を収集し、解析用に注釈を付けたテキストデータベース。 - ウ: シソーラス
語彙の類義語や関連語を体系的にまとめた辞書であり、文章の大量収集とは異なる。 - エ: ハイパテキスト
文書間のリンク構造を持つテキスト形式で、文章の大量収集や解析用データベースとは異なる。
補足コラム
コーパスは自然言語処理(NLP)において非常に重要な役割を果たします。例えば、形態素解析や構文解析、意味解析、機械翻訳などの技術は、コーパスを基に学習・評価されます。代表的なコーパスには「青空文庫コーパス」や「国立国語研究所の現代日本語書き言葉均衡コーパス」などがあります。
FAQ
Q: コーパスとアーカイブズの違いは何ですか?
A: コーパスは自然言語解析用に体系化されたテキストデータベースで、アーカイブズは資料保存が目的の文書集です。
A: コーパスは自然言語解析用に体系化されたテキストデータベースで、アーカイブズは資料保存が目的の文書集です。
Q: シソーラスはどのような場面で使われますか?
A: シソーラスは類義語や関連語を探す際に使われ、文章の大量収集や解析には使われません。
A: シソーラスは類義語や関連語を探す際に使われ、文章の大量収集や解析には使われません。
関連キーワード: コーパス、自然言語処理、テキストデータベース、形態素解析、シソーラス、アーカイブズ、ハイパテキスト

\ せっかくなら /
応用情報技術者を
クイズ形式で学習しませんか?
クイズ画面へ遷移する→
すぐに利用可能!

