语言统计学三大定律:Zipf law,Heaps law和Benford law
zipf law:在给定的语料中,对于任意一个term,其频度(freq)的排名(rank)和freq的乘积大致是一个常数。
Heaps law:在给定的语料中,其独立的term数(vocabulary的size)v(n)大致是语料大小(n)的一个指数函数。
Benford law:在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)
其中Benford law还在会计作假帐的审查和政治选票合法性审查起到了重要作用。
推荐阅读:
(1)Zipf and Heaps Laws’ Coefficients Depend on Language:http://www.gelbukh.com/CV/Publications/2001/CICLing-2001-Zipf.htm
(2) http://limiao.net/1450
(3) http://www.douban.com/group/topic/11417532/
(4) http://blog.csdn.net/pennyliang/archive/2006/09/11/1207832.aspx
分享到:
相关推荐
和Casellas,A.(2013)arXiv:1304.4540,Zipf-Poisson Extreme(Zipf-PE) -泊松停止和(Zipf-PSS)分布和Zipf-Polylog。 在对数-对数刻度中,前两个扩展名允许最大凹度和最大凸度,而第三个扩展名仅允许最大凹度...
通过对Web通信量的分析,人们发现用户对Web对象的访问模式服从Zipf定律或类Zipf定律。在Web缓存的设计中,为得到所期望的Web对象命中率的要求,设计人员可以根据Zipf定律近似计算出相应的缓存大小。因此,Zipf定律为...
简短而全面的代码,用于使用zipf定律和pearson相关系数对文本数据进行数学处理 作者简介 姓名:Anirudh Kalla 附属机构:印度科普教育科学研究所 部门:物理 嘿,谢谢您访问这个空间,希望您在这里找到有用的东西。 ...
在此文件的帮助下,证明了 Zipf 定律在文学中的出现。 亚瑟·柯南·道尔爵士的《福尔摩斯历险记》的前十名如下: '这' '一世' '和' '至' '的' '一种' '在' '那' '曾是' '它' 参考: [福尔摩斯] ...
基于Zipf分布生成随机数作者:Tuyen Tran (tuyen.tran@rutgers.edu)。 2015 年 10 月参考: https : //en.wikipedia.org/wiki/Zipf's_law N 元素数expn 指数M 要生成的样本数(在 [1,N] 范围内) 示例:zipf_rand...
Zipf's law governs many features of the Internet. Observations of Zipf distributions, while interesting in and of themselves, have strong implications for the design and function of the Internet. The ...
python库。 资源全名:zipf-1.0.15.tar.gz
基于Zipf定律和分形理论的碳储量分布研究,郑吉,王伟峰,Zipf定律可以对自然资源规模的分布规律进行描述,同时借助分形理论可对这种分布进行深入的解释。本文运用Zipf定律和分形理论对江西�
可以用matlab来验证经典的zipf分布定律。
软件下载中的Zipf定律,张义丰,张栋, 通过对各网站软件下载排行中数据的分析,得出其统计规律,发现软件下载频率分布基本符合Zipf 定律,并统计得到软件下载频率分布�
通过matlab实现zipf分布的数据--整数 参考 -- https://github.com/Bassemkh/Zipf-distribution
在本文中,我们给出了简单的数学处理方法来推导该居里-冯·史威德定律的弛豫率分布,并表明弛豫率遵循Zipf的幂定律分布。 我们还展示了这里开发的方法给出了齐普夫幂律分布,以得到松弛时间常数。 然后,我们将显示...
国外关于 Zipf定律的实证研究的区域空间多采用国家层次,而国内关于 Zipf定律的实证研究则涉及国 家、跨省的经济区及行政省的不同层次,于是这就有可能存在经济区域空间划定是否合理的问题。现以长江三角 洲地区为例,...
选项-l :模拟流长度[正整数] -r :模拟流zipf的dbn范围[正整数] -k :草图熵算法的k值[正整数] -z :zipf dbn的z参数[正浮点数] -t :模拟时间[正整数] -o :zipf dbn偏移量[正整数] -a :选择特定的草图算法,需要...
Ruby 中的齐夫定律跑步 bundle installbundle exec rake example
随机数生成程序,该随机数呈zipf分布,就是大家常说对于内容的访问遵循80/20原则,也就是20 的内容,会占有80 的访问量
该文件中包含了多种随机数的产生,其中的zipf分布是自己所写,很不错的一个m文件。
(2) 数据统计:以构建倒排索引的文档为基础,检验 Heaps’ law 和 Zipf’s law 在该数 据集上是否正确,要求以曲线图或表格的方式来呈现,包含定量的结果。 (3) 开发的信息检索系统:要求支持基本的用户交互,包括...
Zipf 定律与网络信息计量学
本文实例讲述了Python... zipf = zipfile.ZipFile(output_filename, 'w') pre_len = len(os.path.dirname(source_dir)) for parent, dirnames, filenames in os.walk(source_dir): for filename in filen