応用情報技術者 2017年 秋期 午前2 問04
問題文
UTF-8の説明に関する記述として、適切なものはどれか。
選択肢
ア:1文字を1バイトから4バイト (又は6バイト) までの可変長で表現しており、 ASCII と上位互換性がある。(正解)
イ:2 バイトで表現する領域に収まらない文字は、上位サロゲートと下位サロゲートを組み合わせて4バイトで表現する。
ウ:ASCII 文字だけを使用することが前提の電子メールで利用するために、 7ビットで表現する。
エ:各符号位置が4バイトの固定長で表現される符号化形式である。
UTF-8の説明に関する問題【午前2 解説】
要点まとめ
- 結論:UTF-8は1文字を1〜4バイトの可変長で表現し、ASCIIと互換性があります。
- 根拠:UTF-8はASCIIの範囲(0x00〜0x7F)を1バイトで表現し、それ以外は複数バイトで符号化するため、既存のASCIIデータと共存可能です。
- 差がつくポイント:UTF-8の可変長バイト数とASCII互換性の理解、サロゲートペアや固定長との違いを正確に把握することが重要です。
正解の理由
アは「1文字を1バイトから4バイトまでの可変長で表現し、ASCIIと上位互換性がある」と正しくUTF-8の特徴を説明しています。UTF-8はASCIIコードをそのまま1バイトで表現し、それ以外の文字は2〜4バイトで符号化するため、ASCIIとの互換性が保たれています。
よくある誤解
UTF-8は6バイトまで使うという誤解がありますが、現在の標準では最大4バイトまでです。サロゲートペアはUTF-16の概念であり、UTF-8とは異なります。
解法ステップ
- UTF-8の基本仕様を確認する(可変長で1〜4バイト)。
- ASCIIとの互換性があるかを考える(ASCIIは1バイトで表現)。
- 他の選択肢の説明がUTF-8の特徴と合致しているか検証する。
- サロゲートペアはUTF-16の用語であることを認識する。
- 固定長4バイトはUTF-32の特徴であることを理解する。
選択肢別の誤答解説
- イ:サロゲートペアはUTF-16の表現方法であり、UTF-8では使いません。
- ウ:7ビット表現はASCIIや一部の電子メール仕様の話であり、UTF-8の説明としては不適切です。
- エ:4バイト固定長はUTF-32の特徴であり、UTF-8は可変長です。
補足コラム
UTF-8はインターネット上で最も広く使われている文字コードで、多言語対応に優れています。ASCIIとの互換性により、既存の英数字データをそのまま扱える点が大きな利点です。UTF-16やUTF-32は用途に応じて使い分けられますが、UTF-8の普及率が最も高いです。
FAQ
Q: UTF-8はなぜ可変長なのですか?
A: 多様な文字を効率的に表現するため、ASCIIは1バイト、その他の文字は複数バイトで表現し、データ容量を節約します。
A: 多様な文字を効率的に表現するため、ASCIIは1バイト、その他の文字は複数バイトで表現し、データ容量を節約します。
Q: UTF-8とUTF-16の違いは何ですか?
A: UTF-8は1〜4バイトの可変長、UTF-16は基本的に2バイト単位で、必要に応じてサロゲートペアで4バイトを使います。
A: UTF-8は1〜4バイトの可変長、UTF-16は基本的に2バイト単位で、必要に応じてサロゲートペアで4バイトを使います。
関連キーワード: UTF-8, 文字コード、可変長、ASCII互換、サロゲートペア、UTF-16, UTF-32

\ せっかくなら /
応用情報技術者を
クイズ形式で学習しませんか?
クイズ画面へ遷移する→
すぐに利用可能!

