LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 1298|回复: 10

使用频率最高的10个汉字:“的在了是为有和我一与”

[复制链接]
发表于 2003-7-31 12:31:18 | 显示全部楼层 |阅读模式
 楼主| 发表于 2003-7-31 12:32:53 | 显示全部楼层
  汉字的频率统计不像英文那样公开!在网上很难找到(至少我没看见)。于是自己想办法:用JS写一个小过程“搜索gb2312汉字在网上的频率”。http://www.csdn.net/Develop/article/19/19992.shtm

  运行两个多小时,借助baidu和google得到两份汉字频率表(gb2312的前3755字)。但发现这两个表的汉字频率相差很大(见下表)!也不知道哪一个更科学一点。我用excel把两个表排序一下,再合并成一个新表(见下表),感觉还不错。

  请大家看看,我这个汉字频率统计,是否说的过去:)哪位有更科学、更权威的请帖一下或bxxxr#yahoo.com.cn欢迎交流!

//start mynew
1 的
2 在
3 了
4 是
5 为
6 有
7 和
8 我
9 一
10 与
11 请
12 上
13 中
14 之
15 等
16 人
17 到
18 年
19 个
20 将
21 对
22 地
23 您
24 给
25 这
26 下
27 网
28 也
29 来
30 你
发表于 2003-7-31 15:10:34 | 显示全部楼层

zh-autoconvert中所带的400常用汉字表,含出现频率

%{
/****************************************************
400 Most frequently used GB chars.
****************************************************/
%}
struct charHz { char *name; double percent; };
%%
的,        3.500849
一,        1.703619
是,        1.345411
不,        1.307755
了,        1.283668
人,        1.081233
我,        1.014949
在,        0.964866
有,        0.846428
他,        0.826706
这,        0.748073
中,        0.717652
大,        0.670268
来,        0.642527
上,        0.636581
国,        0.624527
个,        0.594848
到,        0.514231
说,        0.508134
们,        0.495768
为,        0.442767
子,        0.441396
和,        0.440206
你,        0.436374
地,        0.430809
出,        0.425756
道,        0.421135
也,        0.412956
时,        0.412130
年,        0.402590
得,        0.396983
就,        0.389616
那,        0.382771
要,        0.370943
下,        0.366675
以,        0.349432
生,        0.343557
会,        0.342850
自,        0.340950
着,        0.335011
去,        0.330934
之,        0.327879
过,        0.327524
家,        0.324818
学,        0.313110
对,        0.311761
可,        0.310500
她,        0.305242
里,        0.300629
后,        0.297066
小,        0.293018
么,        0.276714
心,        0.273937
多,        0.270297
天,        0.262760
而,        0.260181
能,        0.253537
好,        0.253067
都,        0.252867
然,        0.251950
没,        0.244614
日,        0.238170
于,        0.237050
起,        0.235155
还,        0.233198
发,        0.232956
成,        0.232004
事,        0.229908
只,        0.229438
作,        0.224425
当,        0.222406
想,        0.217789
看,        0.216015
文,        0.214763
无,        0.213959
开,        0.211932
手,        0.211674
十,        0.211422
用,        0.208392
主,        0.204736
行,        0.203868
方,        0.202303
又,        0.202277
如,        0.201591
前,        0.200232
所,        0.197660
本,        0.197245
见,        0.196038
经,        0.189995
头,        0.189444
面,        0.188836
公,        0.188655
同,        0.187525
三,        0.185462
已,        0.183761
老,        0.182608
从,        0.181841
动,        0.178348
两,        0.176988
长,        0.176671
知,        0.176508
民,        0.174189
样,        0.169738
现,        0.169370
分,        0.168552
将,        0.168043
外,        0.167708
但,        0.167690
身,        0.167521
些,        0.166013
与,        0.165147
高,        0.162739
意,        0.161359
进,        0.161229
把,        0.158959
法,        0.158459
此,        0.158364
实,        0.156769
回,        0.156121
二,        0.155393
理,        0.154598
美,        0.152936
点,        0.152685
月,        0.152597
明,        0.152480
其,        0.152385
种,        0.151748
声,        0.151640
全,        0.151277
工,        0.149985
己,        0.148374
话,        0.146944
儿,        0.146378
者,        0.145362
向,        0.143764
情,        0.143753
部,        0.143537
正,        0.143041
名,        0.142495
定,        0.141283
女,        0.141049
问,        0.140707
力,        0.138951
机,        0.137512
给,        0.136868
等,        0.136630
几,        0.135949
很,        0.134687
业,        0.134539
最,        0.134213
间,        0.131700
新,        0.131476
什,        0.130740
打,        0.129442
便,        0.128778
位,        0.128747
因,        0.127394
重,        0.126537
被,        0.126292
走,        0.125810
电,        0.125012
四,        0.123866
第,        0.123170
门,        0.123004
相,        0.122566
次,        0.121678
东,        0.121345
政,        0.120122
海,        0.119826
口,        0.119434
使,        0.118288
教,        0.117812
西,        0.117537
再,        0.117460
平,        0.116858
真,        0.116060
听,        0.115919
世,        0.114808
气,        0.114705
信,        0.114573
北,        0.113407
少,        0.112757
关,        0.112545
并,        0.111459
内,        0.111181
加,        0.109685
化,        0.107695
由,        0.106073
却,        0.105046
代,        0.104545
军,        0.104464
产,        0.103862
入,        0.103631
先,        0.103316
山,        0.103285
五,        0.103181
太,        0.103034
水,        0.102945
万,        0.101912
市,        0.101242
眼,        0.101187
体,        0.100845
别,        0.100654
处,        0.099988
总,        0.099417
才,        0.099303
场,        0.098824
师,        0.098604
书,        0.098381
比,        0.097747
住,        0.097438
员,        0.097189
九,        0.096854
笑,        0.096279
性,        0.095783
通,        0.095327
目,        0.094628
华,        0.094296
报,        0.094190
立,        0.093914
马,        0.093403
命,        0.093383
张,        0.093070
活,        0.092784
难,        0.092669
神,        0.091301
数,        0.091243
件,        0.090981
安,        0.090869
表,        0.090741
原,        0.089937
车,        0.089804
白,        0.089789
应,        0.089767
路,        0.089668
期,        0.089414
叫,        0.089328
死,        0.089264
常,        0.089189
提,        0.088749
感,        0.088464
金,        0.088088
何,        0.088065
更,        0.087664
反,        0.087462
合,        0.087272
放,        0.087173
做,        0.086397
系,        0.085791
计,        0.085688
或,        0.085280
司,        0.084963
利,        0.084762
受,        0.084736
光,        0.084711
王,        0.084392
果,        0.084231
亲,        0.084066
界,        0.083728
及,        0.083070
今,        0.083052
京,        0.082472
务,        0.081974
制,        0.081732
解,        0.081322
各,        0.080068
任,        0.079391
至,        0.079151
清,        0.078525
物,        0.078221
台,        0.078054
象,        0.078045
记,        0.077728
边,        0.077498
共,        0.077287
风,        0.076789
战,        0.076361
干,        0.076271
接,        0.076121
它,        0.075883
许,        0.075854
八,        0.075698
特,        0.075691
觉,        0.075649
望,        0.075475
直,        0.075193
服,        0.075191
毛,        0.075090
林,        0.074843
题,        0.074605
建,        0.074596
南,        0.074475
度,        0.074446
统,        0.074402
色,        0.074190
字,        0.074014
请,        0.073937
交,        0.073778
爱,        0.073591
让,        0.073580
认,        0.073529
算,        0.073128
论,        0.072820
百,        0.072738
吃,        0.072425
义,        0.072306
科,        0.072145
怎,        0.072121
元,        0.071841
社,        0.071268
术,        0.070839
结,        0.070334
六,        0.070030
功,        0.069931
指,        0.068890
思,        0.068379
非,        0.068245
流,        0.067758
每,        0.067385
青,        0.067301
管,        0.067145
夫,        0.067138
连,        0.067046
远,        0.066691
资,        0.066471
队,        0.066006
跟,        0.065369
带,        0.065223
花,        0.065122
快,        0.064661
条,        0.064573
院,        0.064434
变,        0.064229
联,        0.064201
言,        0.064196
权,        0.064165
往,        0.064102
展,        0.063943
该,        0.063875
领,        0.063793
传,        0.063780
近,        0.063487
留,        0.063376
红,        0.063231
治,        0.062792
决,        0.062792
周,        0.062711
保,        0.061942
达,        0.061845
办,        0.061534
运,        0.061514
武,        0.061514
半,        0.061338
候,        0.061082
七,        0.061058
必,        0.060990
城,        0.060972
父,        0.060794
强,        0.060747
步,        0.060622
完,        0.060534
革,        0.060397
深,        0.060073
区,        0.059983
即,        0.059687
求,        0.059639
品,        0.059628
士,        0.059531
转,        0.059482
量,        0.059348
空,        0.058894
甚,        0.058755
众,        0.058726
技,        0.058356
轻,        0.058334
程,        0.058312
告,        0.058129
江,        0.058127
语,        0.057889
英,        0.057878
基,        0.057849
派,        0.057761
满,        0.057693
式,        0.057680
李,        0.057653
息,        0.056893
写,        0.056349
呢,        0.056342
识,        0.056331
极,        0.055787
令,        0.055467
黄,        0.055445
德,        0.055379
收,        0.055267
脸,        0.055222
钱,        0.055097
党,        0.054791
倒,        0.054738
未,        0.054546
持,        0.053845
发表于 2003-7-31 15:11:32 | 显示全部楼层

繁体big5码的

%{
/****************************************************
400 Most frequently used BIG5 chars in GB code space.
The percentage is taken over all BIG5 code space.
****************************************************/
%}
struct charHz { char *name; double percent; };
%%
不,        1.647294
我,        1.503535
有,        1.331823
中,        0.769287
資,        0.649007
學,        0.469347
交,        0.423518
用,        0.404486
文,        0.378802
說,        0.371579
生,        0.350021
提,        0.348555
請,        0.335331
天,        0.331414
麼,        0.311471
之,        0.306841
還,        0.297640
對,        0.291129
都,        0.286923
機,        0.272770
自,        0.268859
而,        0.267319
心,        0.259234
成,        0.236619
何,        0.229607
章,        0.227495
但,        0.210737
當,        0.206358
嗎,        0.205663
本,        0.205378
最,        0.195193
情,        0.185013
方,        0.180739
樣,        0.175203
此,        0.172006
位,        0.169524
行,        0.166304
什,        0.160736
謝,        0.159704
日,        0.158870
正,        0.155168
話,        0.154665
?,        0.153848
華,        0.151584
比,        0.147260
應,        0.143276
種,        0.142554
教,        0.142548
分,        0.141643
像,        0.141367
手,        0.137685
次,        0.137466
打,        0.135818
太,        0.135500
路,        0.135395
關,        0.129670
間,        0.128990
鳳,        0.127011
覺,        0.125828
該,        0.125698
友,        0.124968
民,        0.122909
著,        0.122616
全,        0.120442
少,        0.120274
式,        0.117938
第,        0.117753
老,        0.115500
把,        0.114942
公,        0.113864
論,        0.112807
及,        0.112574
體,        0.110726
給,        0.110517
聽,        0.109895
水,        0.108684
裡,        0.106853
解,        0.105024
月,        0.103272
等,        0.103263
部,        0.102537
先,        0.100132
管,        0.098976
網,        0.098767
期,        0.098278
錯,        0.098239
樂,        0.097897
找,        0.097010
讓,        0.096599
由,        0.095309
選,        0.094920
較,        0.094117
數,        0.093825
內,        0.093519
場,        0.093396
它,        0.093334
快,        0.092950
至,        0.092406
立,        0.092087
目,        0.091897
望,        0.090439
更,        0.088828
考,        0.086345
難,        0.085551
喜,        0.085263
光,        0.084656
今,        0.083516
算,        0.082802
弟,        0.082499
統,        0.082474
號,        0.081804
完,        0.080762
接,        0.079914
誰,        0.076828
結,        0.075241
改,        0.074701
?,        0.072864
報,        0.072859
轉,        0.072818
黨,        0.072786
五,        0.071498
變,        0.071342
西,        0.070902
試,        0.070771
希,        0.070255
化,        0.069696
王,        0.069500
任,        0.068123
單,        0.067999
死,        0.066723
反,        0.066513
戰,        0.066187
隊,        0.065464
跟,        0.065455
必,        0.065257
平,        0.064182
色,        0.063111
檔,        0.062679
片,        0.062596
市,        0.061454
興,        0.061118
白,        0.060734
央,        0.060330
議,        0.060089
辦,        0.059885
價,        0.059852
傳,        0.059178
元,        0.058479
份,        0.057877
件,        0.057086
未,        0.056596
組,        0.056262
竹,        0.055894
投,        0.054908
曾,        0.054332
喔,        0.054052
標,        0.053881
支,        0.053675
貓,        0.052699
需,        0.052447
黃,        0.051303
視,        0.050505
腦,        0.049927
錢,        0.049393
失,        0.049332
住,        0.049163
錄,        0.048220
換,        0.047633
遠,        0.046922
形,        0.046708
備,        0.046636
幫,        0.046553
裝,        0.045773
?,        0.045496
講,        0.045329
器,        0.045179
掉,        0.043805
似,        0.043716
整,        0.043658
引,        0.043318
圖,        0.043175
?,        0.042914
識,        0.042696
邊,        0.042645
雖,        0.042275
李,        0.042139
驗,        0.042048
六,        0.041783
讀,        0.041732
?M,        0.041485
夢,        0.041439
收,        0.041400
眼,        0.041338
課,        0.041141
精,        0.040640
答,        0.039860
雄,        0.039660
票,        0.039371
早,        0.039054
曲,        0.038273
談,        0.037969
棒,        0.037953
賣,        0.037946
黑,        0.037804
百,        0.037749
勝,        0.037712
推,        0.037599
火,        0.037346
準,        0.037319
示,        0.036977
碟,        0.036924
晚,        0.036788
離,        0.036769
導,        0.036569
團,        0.036130
調,        0.036020
證,        0.035779
傷,        0.035635
永,        0.035629
排,        0.035493
殺,        0.035152
照,        0.034991
條,        0.034810
概,        0.034648
絕,        0.034493
切,        0.034270
集,        0.034256
稱,        0.034138
據,        0.034130
落,        0.034071
竟,        0.033989
盡,        0.033967
園,        0.033770
忘,        0.033741
產,        0.033712
雙,        0.033282
嘛,        0.032246
技,        0.031913
斯,        0.031733
雲,        0.031729
須,        0.031320
介,        0.031305
質,        0.030914
職,        0.030851
輸,        0.030758
畢,        0.030641
熱,        0.030469
福,        0.030283
救,        0.030253
親,        0.030173
?y,        0.030141
擊,        0.029765
終,        0.029663
嗯,        0.029635
輕,        0.029324
環,        0.029056
簡,        0.029031
趣,        0.029026
志,        0.029011
續,        0.028902
魚,        0.028860
局,        0.028469
極,        0.028320
源,        0.028259
陽,        0.028211
習,        0.028177
羅,        0.028028
疑,        0.027903
仍,        0.027650
樓,        0.027477
佛,        0.027452
煩,        0.027036
鳥,        0.026937
顯,        0.026776
眾,        0.026064
智,        0.025892
境,        0.025828
順,        0.025611
野,        0.025526
楚,        0.025462
壓,        0.025235
測,        0.024993
懂,        0.024633
嗚,        0.024624
亦,        0.024560
評,        0.024433
細,        0.024243
醫,        0.024133
屬,        0.023904
戀,        0.023874
敗,        0.023777
楊,        0.023479
甲,        0.023452
灌,        0.023371
左,        0.023332
敢,        0.023295
際,        0.023162
族,        0.023113
木,        0.023091
項,        0.022989
戲,        0.022982
博,        0.022743
營,        0.022422
善,        0.022240
歷,        0.022215
爾,        0.022180
補,        0.021996
擇,        0.021939
抓,        0.021874
石,        0.021828
歲,        0.021701
領,        0.021442
溫,        0.021204
止,        0.021087
血,        0.021045
田,        0.020917
謂,        0.020823
?,        0.020801
跳,        0.020720
爛,        0.020609
模,        0.020237
聊,        0.020201
維,        0.019991
陸,        0.019986
牛,        0.019910
忙,        0.019892
詞,        0.019888
啥,        0.019852
攻,        0.019704
江,        0.019585
警,        0.019427
夫,        0.019366
睡,        0.019326
午,        0.019307
勢,        0.019304
蘭,        0.019130
幕,        0.019105
簽,        0.019035
坐,        0.019016
控,        0.018907
翻,        0.018793
普,        0.018765
絡,        0.018574
輯,        0.018547
母,        0.018525
創,        0.018520
趙,        0.018468
舊,        0.018394
雜,        0.018368
巴,        0.018066
禮,        0.018038
仁,        0.017932
父,        0.017806
授,        0.017462
暴,        0.017369
紹,        0.017357
景,        0.017140
憶,        0.017071
尤,        0.017041
諸,        0.017032
援,        0.016991
漫,        0.016983
藝,        0.016772
惜,        0.016753
誠,        0.016607
湖,        0.016478
欲,        0.016471
麻,        0.016470
肉,        0.016450
釋,        0.016313
皮,        0.016309
莫,        0.016165
鍵,        0.016134
趕,        0.016134
筆,        0.016109
註,        0.016105
樹,        0.015996
毛,        0.015738
葉,        0.015586
衛,        0.015495
銘,        0.015462
塊,        0.015441
布,        0.015329
賞,        0.015288
載,        0.015277
播,        0.015188
升,        0.015175
鐘,        0.015084
弄,        0.015041
磁,        0.014800
螢,        0.014792
薦,        0.014759
啟,        0.014722
梅,        0.014644
策,        0.014632
檢,        0.014627
媽,        0.014572
均,        0.014519
豬,        0.014513
?,        0.014455
发表于 2003-7-31 15:21:17 | 显示全部楼层
sorry... 繁体不应该这样贴 ;)
 楼主| 发表于 2003-7-31 15:38:11 | 显示全部楼层

请教carlos

哪里找的?有没有gb2312的6763字或前3755字?先谢了!
 楼主| 发表于 2003-7-31 15:39:57 | 显示全部楼层
 楼主| 发表于 2003-7-31 17:15:41 | 显示全部楼层

再请教

请问这个列表是根据什么排出来的?

大前提,即文字范围是什么?

这几个字找不到“您网吗页站号图啊”
发表于 2003-8-1 12:09:04 | 显示全部楼层
u could download zh-autoconvert at http://packages.debian.org/stable/text/zh-autoconvert.html

there are some documents in it.

this software could judge the input file's encoding automatically by gbpercentage or big5percentage
发表于 2003-8-1 20:55:46 | 显示全部楼层
看到你的贴子,我在我的网站上放了一个词频统计文件。
http://www.stormful.com/download/diy/cc.txt

它是GBK的统计。关于gb2312问题,可以通过gb2312的一、二区的定义区分。其实gb2312本身就定要了词频的两个大的分类。

这个统计主要来自小说,对于科学文章或计算机类文章可能匹配度不是很好。

如果你是要开发输入法,我可以为你统计词组的频率。

其实,这种统计并不是非常科学。这种统计基本上相当于0-gram统计。对于拼音++这类软件可能是足够了。但,对于更深入的统计显然有些不足。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表