© 2007-2024, Kyu-hachi TABATA Last updated  2022/03/21

文字について (3) 2バイト文字

初期のコンピュータ文字は ASCII コード(1バイト、8ビット、情報量は 256通り)だけで表現されていましたから、使えるのはアルファベットのみでした。プログラミングにはそれで十分でした が、メニューなどを日本語で表現したい、情報を日本語で表現したい、という要望は開発者たちにとっても大きく、ASCII コードの 欧文特殊文字 (C0h-FFh)の領域を使って、半 角カタカナ文字を表現するようになりました(日 本語ASCII コード)。

もちろん、カタカナだけでは表現がきわめて制限されます。それで、2バイト(16ビット、情報量は 65,536通り)を使って表記する方法が考えら れ、標準化されました。1バイト目は、ASCII コードの空き領域などを使うので、65,536通りにはなりませんが、ひらがな、カタカナの全てと日常漢字などは表現できるようになりました。これらを2バイト文字といいます。

なお、ASCII コードやそれで表記されるアルファベットを半角 文字、 2バイト文字を全角文字と もいいます。

注:1 バイト文字を半角文字、2バイト文字を全角文字ともいいます。実際の字の 大きさが正方形の半分であるか、全部であるかという意味で、昔のドットインパクトプリンタやブラウン管ディスプレイではあらゆる文字 がドット表示されていましたので、数がちょうど2倍違うのがわかるのでした。


■1.2バイト文字の規格

2バイト方式には、区点コード、JISコード、シフトJISコードなどがありますが、現在の標準は、シフトJISコードです。

シフトJIS コードの場合、1バイト目は ASCII コードの空き領域(81h〜8Fh, 90h〜9Fh, E0h〜EAh)が使われ、2バイト目には ASCII コードの全領域(00h〜FFh)が使われています。空き領域(42文字ある)が出てくると、コンピュータは「お、2バイト文字だな」と判断して、次のバ イトと組み合わせて(2バイト文字)、文字を表現するのです。

なお、シフトJISコードは日本語を組み込むために考え出された方式ですが、世界中の全ての文字を同時に扱うための規格が生まれました。 これがユニコード(Unicode)です。こ れは U+0000h 〜 U+FFFFh という大きな配列をもつ文字セットで、現在の規格は UTF-8 が標準です。

注:シフトJISもユニコードも少しずつ改良されていて、いくつかの規格が あり ます。具体的なコード表は、こちら


■2.2バイト文字の表記

Windows であれば、付属ツール(アクセサリ)の中にある「文字コード表」というアプリを開くとみることができます。

フォント表示

注:このアプリの Windows バージョンごとの呼び出し方はこちらを参照


■3.スクリーンキーボードからの入力

(1) ハングル文字、キリル文字、中国語、特殊欧文文字などはスクリーンキーボードを使って入力することができます。Windows では、「Windows 簡単設定」アプリの中にあります。くわしい説明は、下記を参照してください。

http://faq3.dospara.co.jp/faq/show/4246?category_id=249&site_domain=default#anc04

(2) ただし、スクリーンキーボードで目的の言語を表示するためにはあらかじめ「設定」で必要となる言語を選択しておく必要があります。多言語表示するための方 法は、下記を参照してください。

https://316-jp.com/windows-change-language


とびら へ 前へ 次へ
↑ トップへ