Re: 日中漢字文化の異同について -2
投稿者: sonohen_no_ojisan 投稿日時: 2009/02/12 11:23 投稿番号: [241 / 1548]
中国語の漢字総合結果について。
...
「既統計」と「新統計」を合計した総合結果で見てみると、第一級漢字3,755字で一度も使用されたことのないものはない。全体に占める第一級漢字の延べ数の割合は99.67%に達する。さらに第一級漢字であって1〜3までの分類に入る次常用以上の漢字1,499字だけでも95.40%になる。第二級漢字は、字種としては2,838字と多いが、それが延べ数に占める割合は0.33%を占めるに過ぎない。中国語全漢字データにおける覆蓋率を調べると次のような結果になる。すなわち覆蓋率を90%から99%に高めるためにはあと1,558字、99%から99.9%にするにはあと1,715字、99.9%から99.99%にするのに1,287字、99.99%から100%にするには1,044字必要となる。このような傾向から類推するに99.99%から99.999%まで高めるためには1,000字以上の字種が必要となるであろう。
...
日本語でも中国語でも覆蓋率が99.9%を達成する程度の漢字までが、日常的によく使われる漢字といえる。日本語の場合には本調査の総合データでいえば、それは出現頻度2770位程度となる。しかもこの数値はJIS第一水準漢字の2,965字とほぼ近い。中国語の場合には本調査の総合データでいえば、出現頻度上位から4262位程度の漢字となる。この数はGB第一級漢字の3,755字より一割強多い数である。そこで日本語で99.9%をカバーできる漢字と、中国語で99.9%をカバーできる漢字を合計すれば、日本語も中国語も99.9%はカバーできるという計算になる。その数は本調査結果を単純合計すれば7,032字となる。しかも字形という表現の違いを問題にせず、相互に対応しあう漢字がある場合には同一の漢字と見なすことにした場合、この単純合計の7,032字よりもはるかに少なくなる。以下に99.9%に達するに必要とする字種を頻度順に並べた漢字表を、GB漢字集合を基礎にしてJIS漢字集合を重ね合わせた場合と、JIS漢字集合に基礎にしてGB漢字集合を重ねた場合に、実際にどれだけの字種が必要となるかを調べた結果を示してみる。
...
GBで表現できないJIS漢字は70字しかない。それらは以下の通りである。もしGB漢字符号集にこれら70字が加われば、GB漢字符号集で日本語も99.9%程度カバーできることになる。それにたいしてJISの場合には表現できないGB漢字の数は7倍以上の511にもなる。それを紹介すると以下の通りである。GB漢字符号集に欠けているJIS漢字符号集の上位2770以内の漢字は、ほとんどが和製漢字、「和字」とか「国字」と呼ばれるものである。それにたいしてJIS漢字集合に欠けているGB漢字集合の上位4626以内の漢字は多種多様である。
前投稿のURLにおける
j.people-daily.com.c-nの部分は、「-」を取り除き、
末尾に「l」(アルファベットのエル)を加えて入力すれば、確認できる。。
...
「既統計」と「新統計」を合計した総合結果で見てみると、第一級漢字3,755字で一度も使用されたことのないものはない。全体に占める第一級漢字の延べ数の割合は99.67%に達する。さらに第一級漢字であって1〜3までの分類に入る次常用以上の漢字1,499字だけでも95.40%になる。第二級漢字は、字種としては2,838字と多いが、それが延べ数に占める割合は0.33%を占めるに過ぎない。中国語全漢字データにおける覆蓋率を調べると次のような結果になる。すなわち覆蓋率を90%から99%に高めるためにはあと1,558字、99%から99.9%にするにはあと1,715字、99.9%から99.99%にするのに1,287字、99.99%から100%にするには1,044字必要となる。このような傾向から類推するに99.99%から99.999%まで高めるためには1,000字以上の字種が必要となるであろう。
...
日本語でも中国語でも覆蓋率が99.9%を達成する程度の漢字までが、日常的によく使われる漢字といえる。日本語の場合には本調査の総合データでいえば、それは出現頻度2770位程度となる。しかもこの数値はJIS第一水準漢字の2,965字とほぼ近い。中国語の場合には本調査の総合データでいえば、出現頻度上位から4262位程度の漢字となる。この数はGB第一級漢字の3,755字より一割強多い数である。そこで日本語で99.9%をカバーできる漢字と、中国語で99.9%をカバーできる漢字を合計すれば、日本語も中国語も99.9%はカバーできるという計算になる。その数は本調査結果を単純合計すれば7,032字となる。しかも字形という表現の違いを問題にせず、相互に対応しあう漢字がある場合には同一の漢字と見なすことにした場合、この単純合計の7,032字よりもはるかに少なくなる。以下に99.9%に達するに必要とする字種を頻度順に並べた漢字表を、GB漢字集合を基礎にしてJIS漢字集合を重ね合わせた場合と、JIS漢字集合に基礎にしてGB漢字集合を重ねた場合に、実際にどれだけの字種が必要となるかを調べた結果を示してみる。
...
GBで表現できないJIS漢字は70字しかない。それらは以下の通りである。もしGB漢字符号集にこれら70字が加われば、GB漢字符号集で日本語も99.9%程度カバーできることになる。それにたいしてJISの場合には表現できないGB漢字の数は7倍以上の511にもなる。それを紹介すると以下の通りである。GB漢字符号集に欠けているJIS漢字符号集の上位2770以内の漢字は、ほとんどが和製漢字、「和字」とか「国字」と呼ばれるものである。それにたいしてJIS漢字集合に欠けているGB漢字集合の上位4626以内の漢字は多種多様である。
前投稿のURLにおける
j.people-daily.com.c-nの部分は、「-」を取り除き、
末尾に「l」(アルファベットのエル)を加えて入力すれば、確認できる。。
これは メッセージ 240 (sonohen_no_ojisan さん)への返信です.
固定リンク:https://yarchive.emmanuelc.dix.asia/1835368/bbda4hcf9q_1/241.html