ヘッドライン(RSS)

ついにコンピュータで日本語の漢字すべてを使用可能に、15年かけてコード化、国際規格に登録

sssp://img.5ch.net/ico/anime_kuma01.gif
コンピューターで全漢字使用可に 6万字コード化

日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、
コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、
日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、
コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが
追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

■漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は
15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは
昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな
漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに
作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、
対応が急がれていました。

■企業や自治体も一苦労

(略)

■IT企業でも…

(略)

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

20: 名無し@webensoku 2017/12/24(日) 19:37:51.25 ID:aBrzcYD90
>>1
戸籍を簡単な漢字に直せば良いだろwww
サイトーとかワタナベとか面倒臭すぎ
コイツラが変な拘り捨てりゃ良いんだよ

54: 名無し@webensoku 2017/12/24(日) 19:52:47.18 ID:FUprDAwy0
>>20
コンピュータに人間が合わせろというのは昭和50年代の思想だぞw

132: 名無し@webensoku 2017/12/24(日) 20:57:26.24 ID:X71YMgCj0
>>20
それ人権侵害だから 無理
朝鮮人から名前を奪われたのは史実って材料にされるから

2: 名無し@webensoku 2017/12/24(日) 19:33:10.63 ID:1B4bynNX0
さすがアップルやな、これからも一生アップル使うわ

3: 名無し@webensoku 2017/12/24(日) 19:33:16.98 ID:+0iqOz260
吉野家はちゃんと書けるの?

4: 名無し@webensoku 2017/12/24(日) 19:34:06.87 ID:ADdgEuTl0
その前にsjisとeucとutfを何とかして

5: 名無し@webensoku 2017/12/24(日) 19:34:34.39 ID:dDxGM9hKO
さいとうさんとわたなべさんだけに朗報

7: 名無し@webensoku 2017/12/24(日) 19:35:11.20 ID:eG4oDqE90
フォントは誰が用意するんだ?

19: 名無し@webensoku 2017/12/24(日) 19:37:27.36 ID:yFdZ8/Xz0
>>7
なんか大変そうだよな

22: 名無し@webensoku 2017/12/24(日) 19:38:16.42 ID:a7y1PqvO0
>>19
フォントはIPAフォントってのがすでに作成済みだったはず。

44: 名無し@webensoku 2017/12/24(日) 19:47:20.23 ID:KGHpsw+70
>>7
用意してるだろ。
じゃなきゃ、さすがにコード割り振りだけで6万語に15年もかからん。

69: 名無し@webensoku 2017/12/24(日) 20:02:20.97 ID:ZHixxYyk0
>>44
6万人のデザイナー雇えば数ヶ月で終わったんじゃ?

91: 名無し@webensoku 2017/12/24(日) 20:16:35.68 ID:KWMb+dnn0
>>69
出来がバラバラになるぞ
デザイナーに免許とかないから

247: 名無し@webensoku 2017/12/25(月) 01:52:50.91 ID:9MZxk5DW0
>>69
一人でやったら15年間年休120日で約3万人時だから
30分に1文字デザインだな

8: 名無し@webensoku 2017/12/24(日) 19:35:17.23 ID:FMfFaCUQ0
もうUTF8だけで良くね?

208: 名無し@webensoku 2017/12/24(日) 23:00:50.23 ID:53B2XxAY0
>>8
unicodeとutf-8みたいな文字コードは違います

こういうのはunicodeの異体字セレクタ使うんだけど、
エンコードはまた別の話で関係ない

233: 名無し@webensoku 2017/12/25(月) 00:53:10.94 ID:O7NNyeel0
>>208
ソースの記事読むとユニコードの事を言ってるね

にしてもIPAのフォント入れないと文字化けするだろうし、
フォント入れると殆ど使わない漢字の為に従来の6倍のメモリが必要になるし、ニッチな需要のために15年もかけて税金投入してやる事かね

250: 名無し@webensoku 2017/12/25(月) 03:02:41.25 ID:6ntf3IJ30
>>233
フォントは各ベンダーが切他社にり替えられない既得権みたいなもんだからね。
正直統一してくれた方が凄く助かる。
統一規格ならフォントの配信もしなくて助かる。
ただ、ホントに切り替えられるかは疑問あるけどね。

10: 名無し@webensoku 2017/12/24(日) 19:35:33.26 ID:PKItkQ0h0
中国の漢字は何文字あるの?

17: 名無し@webensoku 2017/12/24(日) 19:37:12.49 ID:M5EhgwlT0
>>10
当然といえば当然だけど総数自体はたいして変わらん

138: 名無し@webensoku 2017/12/24(日) 21:00:30.70 ID:PKItkQ0h0
>>17
>>98
向こうの漢字は全部使えるのかな。
しかしこれって凄く地味な作業なんやろうね

98: 名無し@webensoku 2017/12/24(日) 20:23:19.50 ID:ae9LcN+O0
>>10
86000字ほど

269: 名無し@webensoku 2017/12/25(月) 07:01:28.67 ID:FhqDxuqC0
>>98
意外と少ないな

11: 名無し@webensoku 2017/12/24(日) 19:35:46.70 ID:iPWlb7CZ0
苗字旧字体だから助かるわ

12: 名無し@webensoku 2017/12/24(日) 19:35:48.31 ID:M5EhgwlT0
それ以前に常用漢字とかいう糞制度を根本的に考えなおせ

14: 名無し@webensoku 2017/12/24(日) 19:36:08.47 ID:Rvu7LWqJ0
84画のこれもコード化したんか?

no title

24: 名無し@webensoku 2017/12/24(日) 19:39:38.03 ID:zI17Wdf70
>>14
シューティングのキャラでしょ
これが3つずつヒューって落ちて攻めてくるんだよね?

59: 名無し@webensoku 2017/12/24(日) 19:56:37.49 ID:ofcPRJma0
>>24
www

99: 名無し@webensoku 2017/12/24(日) 20:25:15.45 ID:N8RaGJQq0
>>24
ギャラクシアンかよ

175: 名無し@webensoku 2017/12/24(日) 22:03:17.47 ID:524Q+s380
>>99
ギャラガじゃない?

87: 名無し@webensoku 2017/12/24(日) 20:14:07.91 ID:OUrTXgjD0
>>14
いつ使うんだよコレwww

102: 名無し@webensoku 2017/12/24(日) 20:28:47.31 ID:TIRMvdu20
>>14
それコピペして書き込もうとしたら空白だってエラーが出たわ

139: 名無し@webensoku 2017/12/24(日) 21:01:35.82 ID:dWszBWt80
>>14
wiki見たらちゃんとunicodeで今後出る予定になってて、超漢字だとすでに登録済みってのに驚いた

150: 名無し@webensoku 2017/12/24(日) 21:30:23.67 ID:IHDKX1D30
>>14
「雲龍形(くさん)」って読むのか

15: 名無し@webensoku 2017/12/24(日) 19:36:39.73 ID:wemqGe0N0
Unicode埋め終わったんだ

23: 名無し@webensoku 2017/12/24(日) 19:38:29.39 ID:LfXOtTaM0
どうせデータ連携で化けるんだから余計な事しなくても
なきゃないで終わりなのに

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

ヘッドライン(RSS)