SeaMonkey教室 - 文字について (3) 2バイト文字

Last updated 2022/03/21

文字について (3) 2バイト文字

初期のコンピュータ文字は ASCII コード（1バイト、8ビット、情報量は 256通り）だけで表現されていましたから、使えるのはアルファベットのみでした。プログラミングにはそれで十分でしたが、メニューなどを日本語で表現したい、情報を日本語で表現したい、という要望は開発者たちにとっても大きく、ASCII コードの欧文特殊文字 (C0h-FFh)の領域を使って、半角カタカナ文字を表現するようになりました（日本語ASCII コード）。

もちろん、カタカナだけでは表現がきわめて制限されます。それで、2バイト（16ビット、情報量は 65,536通り）を使って表記する方法が考えられ、標準化されました。1バイト目は、ASCII コードの空き領域などを使うので、65,536通りにはなりませんが、ひらがな、カタカナの全てと日常漢字などは表現できるようになりました。これらを2バイト文字といいます。

なお、ASCII コードやそれで表記されるアルファベットを半角文字、 2バイト文字を全角文字ともいいます。

注：1 バイト文字を半角文字、2バイト文字を全角文字ともいいます。実際の字の大きさが正方形の半分であるか、全部であるかという意味で、昔のドットインパクトプリンタやブラウン管ディスプレイではあらゆる文字がドット表示されていましたので、数がちょうど2倍違うのがわかるのでした。

■1．２バイト文字の規格

2バイト方式には、区点コード、JISコード、シフトJISコードなどがありますが、現在の標準は、シフトJISコードです。

シフトJIS コードの場合、1バイト目は ASCII コードの空き領域（81h～8Fh, 90h～9Fh, E0h～EAh）が使われ、2バイト目には ASCII コードの全領域（00h～FFh）が使われています。空き領域（42文字ある）が出てくると、コンピュータは「お、2バイト文字だな」と判断して、次のバイトと組み合わせて（2バイト文字）、文字を表現するのです。

なお、シフトJISコードは日本語を組み込むために考え出された方式ですが、世界中の全ての文字を同時に扱うための規格が生まれました。これがユニコード（Unicode）です。これは U+0000h ～ U+FFFFh という大きな配列をもつ文字セットで、現在の規格は UTF-8 が標準です。

注：シフトJISもユニコードも少しずつ改良されていて、いくつかの規格があります。具体的なコード表は、こちら。

■2．2バイト文字の表記

Windows であれば、付属ツール（アクセサリ）の中にある「文字コード表」というアプリを開くとみることができます。

フォント表示

注：このアプリの Windows バージョンごとの呼び出し方はこちらを参照。

■3．スクリーンキーボードからの入力

(1) ハングル文字、キリル文字、中国語、特殊欧文文字などはスクリーンキーボードを使って入力することができます。Windows では、「Windows 簡単設定」アプリの中にあります。くわしい説明は、下記を参照してください。

http://faq3.dospara.co.jp/faq/show/4246?category_id=249&site_domain=default#anc04

(2) ただし、スクリーンキーボードで目的の言語を表示するためにはあらかじめ「設定」で必要となる言語を選択しておく必要があります。多言語表示するための方法は、下記を参照してください。

https://316-jp.com/windows-change-language

とびらへ

前へ　次へ

↑　トップへ