見えるUnicode
文字からUnicodeのコード番号を取得する。コマンドプロンプトから日本語を入力するには、[Alt] + [漢字] でIMEが起動するようである。
これはちょっとUnicodeの文字コードを知りたいという場合に便利に使える。
見えるUnicodeの応用
上のようなことを少し応用すると次のようなものができる。
Shift_JISで書かれたテキストファイル(下の例ではsjis.txt)を読み込んで、そこに出てくる文字について、1文字ずつそのUnicodeの文字コードを表示していく。
これはメモ帳で作ったもので、Shift_JISのCR/LF改行のテキストであるが、上の画面をみてもわかるように、内部的には改行はLFに変換されて処理されていることがわかる(0x000Aしか表示されていない)。
これはマルチバイト文字でできたテキストの文字単位的処理(非バイト単位的処理)というトピックとも関連してくる。
改行
画面表示する場合は改行は出力しないほうがよい。
いわゆるCR/LFを削除した場合である。しかし、このプログラムで操作するかぎりは「CR」は存在しないから、「LF」だけを削除しても同じ結果になる。
Unicode,UTF-8,UTF-16,Big,Little,Endian,LE,BE,Shift_JIS,SJIS,CR,LF,CRLF,byte,bit,word,BOM,
バイナリ,文字コード,16進コード,文字列,変換,ビッグ,リトル,エンディアン,ユニコード,改行,バイト,ビット,
半角,全角,カタカナ,ひらがな,カナ,漢字,エンコード,デコード,16進文字列,C言語,C++言語,解析,
_mbslen,_mbsnccnt,_mbsnbcnt,_mbctombb(旧zentohan),_mbbtombc(旧hantozen),_mbctohira,_mbctokana,
_mbctolower,_mbctoupper,_mbcjistojms,_mbcjmstojis,_mbbtype,_mbsbtype,mbstowcs,wcstombs,mbtowc,wctomb,
マルチバイト,MBCS,char,unsigned,