王老实
发表于 2006-8-10 15:04
$考虑$$考虑$$考虑$
信息熵(Entropy)到底是用来衡量什么的?
——与Philip ZHANG商榷
思明
Philip ZHANG先生在反驳彭小明的时候,提出一个观点,他说:“ 就语言文字来说,
整体效率不是用民族主义来衡量的,而是用信息熵(Entropy)来衡量的。”
张先生介绍说:
计算文字效率的基本公式是:
H=-log2(P)
H 为信息熵的值(或叫信息量),单位是比特(bit)。
在这基点上,他根据资料引证:
英文的平均信息熵是 4.03 比特,
法文的平均信息熵是3.98,
西班牙文的是 4.01,
德文的是 4.10,
俄文的是 4.8,
而中文的平均信息熵是 9.65比特
于是,“汉字是落后的,无论是简体还是繁体”就成了他轻松得到的结论。
其实,要反驳他的结论是一点也不困难的,甚至可以说是非常轻松的
——只要知道什么是一种文字的“平均信息熵”。
只可惜,张先生把方向正好弄错了180度。
公式是有的,叫做平均信息熵也确实。但是根本就不是文字效率的基本公式,
而是在通讯中编码的码长的效率!提出这公式,申农是用以研究信息编码的。说得
通俗一点,就是要(在可能有噪音的情况下)把已方(信息源)的信息进行标准化
编码(比如,0-1化),然后传送出去,对方接收,解码,恢复成原来的信息。
研究的重点,是多长的一组码为合理——如果太短,无法正确还原,如果太
长,就有冗余。
在接下去谈以前,先要强调,是码长的节约或冗余,不是信息本身的节约或冗
余。比方说,如果拿尽用分币买东西,分币已经多得很,钱却不一定够。这是两回
事。
以英语为例,信息源集合大体是26个字母加上一个空格,这是基本集合。要传
送给任何对方(比如用莫尔斯电码),码长要几位“0-1”?满打满算,是五位。
要是用“平均信息的观点”来研究处理,会发现:有些字母出现得经常,另外
一些比较不经常用,所以信息源是有点特征的,这特征就是信息含量不“饱满”。
通俗地说,如果英文字母中只有一部分常用,其他罕用,通过巧妙编码可以把码长
缩为4个多一点点。实际上由于目前通讯瓶颈已经不像半世纪以前那样重要,电脑
里的正规编码方案全是冗余方案,并无人真正采用紧缩方案,连考虑的价值也没
有。
那么怎样计算信息量又是怎么回事呢?
以电脑的0-1编码方法为例,如果“0”和“1”以均等机会出现,P就是1/2,
对数就是-1,H就是1。因此它的信息含量就是1个比特(bit)。如果出现得不均
匀(比如说基本是“0”出现,偶尔才有“1”出现),那么“0”的P值接近于1,
其对数自然接近于0;另外的“1”的P值接近于0,对数就接近于负无穷,经过加权
平均,(这种无穷乘以0的极限,自然可以用(数学上的计算)方法求出)信息比1
个比特(bit)更小。
因此,任何一组码的元素(比如英文字母),在最有效使用的情况下,可以传
达的信息量最大,等于log2(N)(以源码的元数为N,例如英文的满荷值为4.75;
俄文为5.08;按照中文的字数,小字库为12多,大字库为14多。等等)。
大家知道,英文字母平均信息熵是 4.03 比特,说明它有一点“浪费”(因为
2的4次方是16,这只相当于均匀使用了16个字母)。如果英文的“平均信息量”少
到1或者2,就相当于只有两个或者四个字母了。所以张先生对英文的表扬可真的一
点意义没有。
那么,假设我们的祖先造的汉字只用了很少的部分,平均信息熵就会很小,比
如,要是只用“是,不”二字而其他文字统统不用,那就只要有一个比特就够。
张先生以为“平均信息熵”越少越好,是犯了一个“方向的错误”。可见,张
先生在信息科学上的知识是多么脆弱,多么不精确!用这样的东西作为“证据”,
要我们信改革有几千年历史的汉字很是必要,太不负责!
张先生又引用说:
本世纪四十年代,申农和霍夫曼等科学家提出了信息熵理论和方法,基本定理
是:在一种非扩展的无记忆信息源中,字符编码的长度不能小于信息源的熵。这个
定理适合所有的语言文字,是计算机和网络通讯的科学技术基础和工程设计的基本
依据。
这句话全对。不知道张先生是哪里引用来的,但是张先生显然不理解其含义。
这话说明的是什么?原来,这不过是说,因为英文的平均信息熵是4多一点,因此
作为通讯用的英文字符集的实用长度也至少要有那么长。德文和俄文的字母比英文
多几个,它们多含一点信息量是正常的。德国人之不改动字母,绝对不是因为信息
量多还是少的缘故。多更不是坏事。其实,大家知道在电脑里英文字母、德文、俄
文统统用的是8位(8比特)。8位的满存储是256个字符,大家相聚在一起,谁多用
谁少用,不会去斤斤计较。德国人也读英文,俄国人也用德文,更没有人用它来比
较“语言的优劣”。
中文,一开始是用了双字节的(即16比特),满存储是6万多,现在中文用了
约1/3(当然其他文种还要用)。这和中文的效率并无直接的联系。如果,用一个
汉字表达的“意思”的量,如果(平均起来)和一个英文字母一样多,那汉字就真
太落后了!
真是这样?我们的汉字真会这么落后?比如“我”是两个字节,“I”是一
个字节。这就是中文不如英文的“唯一例子”了。但是“人、是、起、而、日、
月、用、无、……”这几百成千个单字(严格说所有汉字)英文里都只要一个字母
吗?不是。英文的字母只有26个,充其量只能有这26个比中文好——可惜英文的单
字母词只有一个“I”,一个“a”(意义太简单,还无独立使用权)其他的(例如
of,on,to,we,me,go,……)能和汉字打平就好。请注意,在用26个字母构成
的676种二字母组合中,有意义的少之又少(比如aa,ab,ac,ad,ae,……就几
乎全无意义)。所以,如果有人用汉字对比英文(在同样意义的词汇)的byte数,
十有八九汉字要“节约”得多!
自然英文通过制造缩写的办法解决了不少问题——UN,USA,WTO,所以说汉字
绝对优越也要谨慎。
最最可笑的是,如果要按照“用拼音”的建议把中文翻译成拼音(即使那声调
的符号省去、词汇连写等方法全用上),那byte数要大大增加了,虽然那“平均信
息熵”也许还降低了(总不超过5)。打个比方,改用拼音的张先生可以告诉别
人,我的平均信息量已经降低到4多一点(就是说‘我现在终于只要用一分的硬币
买东西了,虽然我每年的开支因此增加了三倍,我才不在乎!’)。因为拼音里除
了a、e以外,是不许单独字母成字的,就是a、e,还留空格。所以如果说要用拼音
作文字,在浪费字节上是天下第一的“文字”——看不易懂还暂且不说!在这个意
义上说,“从一九八九年开始,《人民日报》等报刊就用同样的手法抨击中文改
革,连续发表文章鼓吹‘汉字优越’,说中文改革是盲目西化和导致中国文化传统
消亡,等等。”真是做得对极了,好极了!
张先生又说:
中文的平均信息熵是 9.65比特,在计算机信息作业的时候,汉字的每个字符
需》要两个字节的空间,因而中文的信息处理和传递的整体效率比英文等拼音文字
的效率要低得多。
这是完全违背基本常识的。套用他的汽车比喻,这好像是说:“独轮车无疑比
12轮大卡车节省10倍,走的路只有1/10”;又好比说“用一元钱的钞票买东西比用
五角钱的贵一倍”;等等……
尽管我们已经说明汉字实际上比英文和其他拼音文字只简不冗(从占用字节数
的角度看),语言学上的问题仍然相当复杂,谁简谁繁似乎也还难以成为一种语言
优劣的绝对定论。比如世界语、数学语言、电脑的汇编,显然都极简单而且规范,
可是要代替自然的生活语言明明是不行的。这个问题我们暂且不讨论。
张先生的文章还存在许多其它问题,比如他说:
不管谁在使用和在哪里使用,也不管使用者的民族感情如何,这些文字的信息
熵还是它们的信息熵。
他根本就不知道,除了整个“民族”的平均信息熵以外,人人的语言都有其独
特的信息熵。比如“不高兴”先生,碰到事情一般都是不高兴;总说“喳”的太
监,他们的语言中的平均信息熵都很小。同样的字符集而熵小,这绝对不是什么先
进,是贫乏。
附带说一句,张先生犯的这个错误,国内某一派的“著名语言学家”在十多年
前已经犯过,也被人尖刻批评过。他们既无法理解(大概对于数学绝缘)也不吱
声,以至于十年过去后,他们的文改信徒还不断重复这错误。可悲又可叹,若把语
言文字工作交给这等“既不内行又不热心”的人!
$bye$$bye$$bye$
王老实
发表于 2006-8-10 15:45
$考虑$$考虑$$考虑$
人类语言可以从不同角度分类,形态学分类法根据语法结构特点把人类语言分为孤立语、屈折语、黏着语、复综语四类。 so, 屈折语 屈折语以词形变化作为表示语法关系的主要手段,以印欧语系诸语言为代表,如俄语、英语、法语等。其主要特点是 第一,有比较丰富的词形变化,通过词形变化来表示词与词之 间的关系。例如他”在英语中居于王格的位置是he,处于宾格的 位置是him,鹅”的单数形式是goose,复数形式是geese。所谓屈 折,就是指这类语言的词的内部语音发生了屈折的变化。 第二,一种词形变化的语素可以表示几种不同的语法意义。 例如英语的动词works,其中的词尾s,在这里表明了单数、第三人称、普通体、现在时四个语法意义。一种语法意义,也可以用不同的词形变化表示。比如数的范畴,可以通过外部屈折的方式即加词尾s表示,而有些词则是内部屈折,例如man(男人、单数),men (男人们、复数)。 第三,词尾和词干或词根结合十分紧密,脱离开词尾,句子中词根就不能独立存在。 黏着语 黏着语也有丰富的词形变化,通过词本身形式的变化表示各种语法关系。土耳其语、日语、维吾尔语是这种类型的代表。其特点如下 第一,黏着语词的前面和中间不发生变化,只是词的尾部发生变化,表示语法意义。 第二,变词语素的每一种变化只表示一种语法意义,多种语法意义就要用多个变词语素来表示。 第三,词根与变词语素结合不很紧密,两者有很大的独立性,只是在用的时候临时贴上去,故名黏着语。 and, 复综语 又叫编插语、多式综合语,其突出特点是分不出词和句子。词和句子合二为一,一个词的构成部分同时又是另一个词的组成部分,许多个成分互相编插组合在一起,难分你我。没有一个能独立使用的词,只能连缀成句子使用。比如汉语动词吃”可以独立运用,但在美洲印第安语中,根本就不能独立说出吃”来,必须同时把谁发出吃的动作说出来,还必须把吃的对象说出来,所以一个词带出来的就是一个句子。 孤立语 孤立语也叫词根语,以汉语为突出的代表。孤立语的主要特点有以下几个方面 第一,词序严格。由于孤立语缺乏词形变化,或者说词形变化极不丰富,一个词在句子中属于什么成分没有形态上的标志,完全是根据语序来确定,因此词序就显得非常重要。比如你看我”,改变词序成为我看你”,意思就相反了。 第二,虚词十分重要。孤立语中词与词的关系,常常通过虚词这一重要的语法手段来体现。比如父亲和母亲”、父亲的母亲”、父亲或母亲”等,仅虚词不同,意义就大不相同。 第三,复合词多,派生词少。大部分合成词是由词根构成的复合词,这些词不带有表示各种语法关系的帽子(前缀)和尾巴(后缀和词尾),词的结构比较简单,往往是一个孤立的词干。所谓孤立语的称呼就与这个特点有关。
$考虑$$考虑$$考虑$
王老实
发表于 2006-8-10 15:46
通常我们说汉语是一种“孤立语”。 对于汉语这样“孤立语”,过去西方语言学家总是拿他们科学的“语言进化论”来衡量其它语言;认为“曲折”高于“黏着”;“黏着”高于“孤立” 等等。
eisenstange
发表于 2006-8-11 16:21
原帖由 王老实 于 2006-8-10 16:04 发表
信息熵(Entropy)到底是用来衡量什么的?
——与Philip ZHANG商榷
思明
Philip ZHANG先生在反驳彭小明的时候,提出一个观点,他说:“ 就语言文字来说,
整体效率不是用民族主义来衡量的,而是用信息熵(Entropy)来衡量的。”...
这篇文章的作者基本上处于外行看热闹的状态,之所以这么说的原因在于,首先他本身并没有理解熵的概念,从而他也无法理解这个张先生的观点,这种文章没有任何价值。
熵这个概念实际上是表征分子状态的度量,后来被引入统计学,如果有兴趣去看看信息论的书,可以发现,信息论里面讲述的信息,基本上就是概率。作者理解的信息量实际上还是外行从字面上的理解。在技术领域里面讨论的信息是随机事件的概率分布。
中文的熵实际上不需要量化就能得知肯定比英文大,因为小概率的样本多,出现的随机性比大概率样本宽。而之所以说在Internet上中文繁琐的原因是源于香农的信源和信道编码关系,这个关系的证明是香农的主要学术贡献之一,虽然我们没有看到具体的证明过程,但我相信这么多年的实际应用和香农的数学基础。有兴趣的可以自己去看看,应该很容易找到。
在计算机领域的汉字问题相信已经没有什么讨论的价值了,我感觉是可能这个张先生和思明两个人都没有能完全的理解信息论和语言文字之间的差别,一个可能是理解了50%,用了错误的例子,另一个是理解了0,01%,在错误的例子中找错。
另,张先生给出的计算熵的公式有错误。
另一个侧面反映出国内的学术风气太差了。
eisenstange
发表于 2006-8-11 16:24
原帖由 当时明月在 于 2006-8-8 23:57 发表
;)MM是学ET还是INFO的呢?哈哈,看到CDMA/CD 真是亲切呢.:P
首先俺不是MM,其次学的是ET。;)
当时明月在
发表于 2006-8-11 21:27
原帖由 eisenstange 于 2006-8-11 17:24 发表
首先俺不是MM,其次学的是ET。;)
难怪逻辑那么清晰.呵呵,偶也是ET KT方向的, 你说的东西偶都学过,可真没本事像你说的那么有条有理,有理有节.$握手$$握手$$高$$高$
eisenstange
发表于 2006-8-11 22:59
原帖由 当时明月在 于 2006-8-11 22:27 发表
难怪逻辑那么清晰.呵呵,偶也是ET KT方向的, 你说的东西偶都学过,可真没本事像你说的那么有条有理,有理有节.$握手$$握手$$高$$高$
过讲了,其实这个也不是我的方向,就是觉得挺好玩的,看了写闲书。;)
csoulcmate
发表于 2008-7-31 10:17
原帖由 cosimo 于 2006-8-4 14:11 发表 http://www.dolc.de/forum/images/common/back.gif
关于这个外语的变格,我一直有很多不满$angry。
以前学英语,第三人称单数加s,过去时和完成时就忍了,学到德语,才知道还有这么变态的语言。(据说俄语有过之而无不及$汗$)。
我就奇怪了,难到比如我说,我昨天干嘛 ...
汉语也有类似的现象,只不过我们不去理会,就像德国人不理会什么冠词一样。比如说量词。 一个人,一只羊,一头牛,一口猪。还有“的,得,地”的用法。还有比如“看着(kan zhe), 看着(kan zhao), 看,看见“这些很细腻的区别。 这只是几个例子。任何语言都有他的特性,不能互比。
xinyi
发表于 2008-7-31 17:09
还是中文好!
csoulcmate
发表于 2008-7-31 17:13
是啊,还是祖国好。