Code

Unicode ヘルプ

目次

Unicode

Unicode とは,世界中の文字を統一的に扱うための文字符号化方式です.Unicode の採用により,世界中の文字を統一的に扱えるようになり,国際化された情報システムの構築が容易になりました.

Unicode 符号化方式

主に 3 種類の方式が使用されます.それぞれ長所と短所があります.

UTF-8

1 文字を 1 から 4 byte で表現するため,可変長データとなります.最も広く使われている符号化方式です.ASCII コードと互換性があります.

UTF-16

1 文字を 2 byte または 4 byte で表現するため,可変長データとなります.日本語が主体の文章では Unicode 符号化方式の中では最小サイズとなります.ASCII コードと互換性がありません.

UTF-32

1 文字 を 4 byte で表現する固定長の符号化方式です.メモリ使用量が大きいためテキストファイルで使われることはあまりありませんが,メモリ内の文字列の表現として使用される場合があります.ASCII コードと互換性がありません.

グリフ

グリフとは,文字の視覚的な表現のことです.つまり,文字を画面やプリンターなどに表示するための具体的な形状のことを指します.Unicode は文字の符号化方式であり,文字の意味や性質を定義したものです.Unicode では,世界中の文字に対して一意の番号(コードポイント)が割り当てられています.

同じコードポイントでも,フォントによってグリフの形状は異なる場合があります.例えば,フォント “Times New Roman” の A とフォント “Arial” の A は少し形が違います.

CMap

PDF (Portable Document Format) ファイルにおける CMap とは,PDF ファイル内の文字コードとグリフの対応関係を定義するテーブルのことです.PDF リーダーが PDF ファイル内の文字を正しく表示するために必要です.