cosimo
发表于 2006-8-7 21:24
为什么我居然在我开的帖子里插不上话?$郁闷$
baofie
发表于 2006-8-7 21:34
原帖由 cosimo 于 2006-8-7 21:24 发表
为什么我居然在我开的帖子里插不上话?$郁闷$
:D:D:D
himmelblau
发表于 2006-8-7 22:40
原帖由 cosimo 于 2006-8-7 21:24 发表
为什么我居然在我开的帖子里插不上话?$郁闷$
:D:D:D 要不你把sohu最近的热贴整理一下,偶来和你一起讨论;);)
cosimo
发表于 2006-8-7 23:20
原帖由 himmelblau 于 2006-8-7 22:40 发表
:D:D:D 要不你把sohu最近的热贴整理一下,偶来和你一起讨论;);)
$考虑$$考虑$
这个好像还可以胜任。。。。。
就是本人有点懒。$害羞$ 考虑ing。。。。。。。。。
himmelblau
发表于 2006-8-7 23:25
原帖由 cosimo 于 2006-8-7 23:20 发表
$考虑$$考虑$
这个好像还可以胜任。。。。。
就是本人有点懒。$害羞$ 考虑ing。。。。。。。。。
拜托啦~~~$送花$$送花$
sohu的洪水大高楼,看了都怕。一般没有电梯,不去看SOHU的帖子的。。。。
eisenstange
发表于 2006-8-7 23:33
原帖由 giffgaff 于 2006-8-7 18:35 发表
Habe eigentlich diesen Satz nicht verstanden: was hab ich nicht anerkannt?$考虑$
Die Überlegenheit des Chinesischen dem Deutschen gegenüber liegt in dessen Bündigkeit und Lakonismus, ni ...
freue mich, die Diskussion bisschen zurück zum Tehma "marscht". Fuer das thema "Das Chinesisch eine ökonomischere Sprache ist", bin ich nicht einverstanden. Besonderes kann man im Gebeit Computerdatennetz und Kommunikationsnetz darstellen.
fuer Latin Sparache die Unterscheid von Entropy(熵) zwischen Englisch und Deutsch sogar Spanisch ist nicht so gross. hier die Begriff Entropy beseutet die Wascheinlichkeit und Häufigkeit jeder Buchstaben(Baustein) in jeder Sprach, und ist eine statistische Wert. Und entsprechend für chinesisch heben Anfang 60 Jahr einige Wissenschafter mit jeder Zeichen auch gerechnet.Die Ergebnis zeigt, dass die Entropy von Chinesisch Zeichen ungefähr 3 Fach so gross ist wie Latin Sprach. und dafür zum Preis muss jetzt aller Benutzer (nämlich wir) bezahlen. schau'mer mal welche Nachteil von Chinesisch bei Technikebene auftaucht.
1, die Codierung ist komplizierter. Da in Chinisisch mehr als 65535 Zeichen gibt, eigentlich noch mehr, müssen wir minderstens für ein Zeichen 16 bit nehmen. die so genant. "Unicode", solche Code hat kein Redundant bits, das heisst wenn ein Bit in zwischen falsch ist, dann ist die ganz Zeichen falsch. vergleich mit Latin Sprach , für 26 Zeichen bracuht man nur 5 bits. Anf Grund in Computer Welt alle in 8 bit zusammengefasst (heisst auch ein Byte), dann ist die Risiko von Fehler bei Latin niederiger als Chinisisch.
2. "Ist Chinisch überhaupt günstiger", glaube viele Leute werden bestimmt das sagen, dass in erwähnt fall wenn man ein Chinische Zeichen schicken, gleich zwei Buchstaben in Latin, aber die Inhalt von einer Zeichen ist bestimmt mehr als die Informationen von Zwei Buchstaben. Ja, richtig, aber nach der Theorie von Shannon über Kannelcodierung läutet, dass die Bandbreite von Kanal muss unbedingt grösser als die Datenrate von Quellen. die Entropy von Chinische ist ungefähr 4,5, und latin 1,7(glaube ich). das heisst für eine Kanal mit Bandbreit 4500 bit/s, kann man 1000 Chinische Zeichen oder 2600 Latin Buchstaben schicken, und mit Berücksichtigung von Redundant bits gegen Fehler. muss Chinisich mit ein Faktor um 2 reduzieren. d.h. 500 Chinische Zeich = 2500 Latin Buchstaben, nämlich 1 Chinische Zeich gleich 5 Buchstaben. jetzt kommt die Frage, ob durchschnittlich einer Zeichen wirklich mehr Infos beeinhaltet als 5 Buchstaben.
3, Grösser Memory braucht, um die Zeichen codieren zu können braucht für jeder elektrische Geräte ein ROM, darin Steht die Bijektion von Zeichen und Code. diese ROM braucht grössere Platz als Latin, das ist immer ein Problem für Geräte z.B. Navigationssystemes.
4. Darstellungsproblem. Da die Zeichen hat viele Bestandenteil, braucht mehr Prozessaufwand für LCD (nicht Computer Monitor, sondern Elektrische Geräte), kostet mehr.
heute bis hier. kann nicht mehr.;)
boilingsnow
发表于 2006-8-8 00:58
请教楼上的同学一个问题,汉语熵大表征什么,在哪些个方面是优势,在哪些个方面是劣势。
DaMin
发表于 2006-8-8 10:40
原帖由 giffgaff 于 2006-8-7 18:35 发表
Habe eigentlich diesen Satz nicht verstanden: was hab ich nicht anerkannt?
Die Überlegenheit des Chinesischen dem Deutschen gegenüber liegt in dessen Bündigkeit und Lakonismus, nicht darin, dass die Infomationen anders in jegliches Wort eingebettet ist. Daher spielt die Verlagerungsweise unterschiedlicher Sprachsysteme für mein Argument dessen, dass das Chinesisch eine ökonomischere Sprache ist, überhaupt keine Rolle. Man kann sogar aus deiner Schilderung einen Schluss ziehen: da die Info im Chinesischen anders verlagert sind im Vergleich zum Deutschen, hat Chinesisch anhand der eingenen sinntragenden Funktion einen kleinen Vorsprung auf seinen Rivalen.
Eine kurze Analogie: die Pendler ziehen die Bahn vor, da der Zug pünktlich und schnellerist als der im Stau stehende PKW, nicht weil die Lok mittels des Stroms angetrieben ist.
Kurz gesagt: Ich bin mit deiner Erklärung für die Verlagerungstypen (im Deutschen und Chinesischen) total einverstanden,doch halte es mehr oder weniger für irrelevant.
Dass auch auch wenn chinesisch kürzer und bündiger ist, beide die gleiche Information schließlich darstellen.
Dass chinesisch bündig und lakonisch ist, liegt gerade darin, dass chinesisch Information verlagern. Indem ich Information verlagere, wird z.B. das Wort "icht" sehr kurz!
Dass chinesisch deshalb ökonomischer beim "sinntragen", kann nicht daraus folgen. Beim "sinntagen" muss man nicht nur die übertragene Code berücksichtigen, sonder auch die Codierungsbasis, beim Computer ist das Unicode und co., beim Mensch ist das sein Wortschatz.
Hier hat eisenstange eigentlich sehr klar erklärt.
fruchteis
发表于 2006-8-8 10:41
要好好拜读一下!
估计一下还读不出味道,要多下
DaMin
发表于 2006-8-8 10:50
原帖由 eisenstange 于 2006-8-7 23:33 发表
mit Berücksichtigung von Redundant bits gegen Fehler. muss Chinisich mit ein Faktor um 2 reduzieren.
In Grund genommen stimme ich zu, was du sagst. Ich habe bloß dein Beispiel hier ganz verstanden, insbesonders den Satz da oben.
Redundant hat meinstens nicht einen Faktor von 2.
Und wenn, wieso hast du es nicht bei latin berücksichtig?
[ 本帖最后由 DaMin 于 2006-8-8 11:05 编辑 ]
DaMin
发表于 2006-8-8 10:54
原帖由 boilingsnow 于 2006-8-8 00:58 发表
请教楼上的同学一个问题,汉语熵大表征什么,在哪些个方面是优势,在哪些个方面是劣势。
Vielleicht darf ich:
Entropie ist ein Mass für Chaos. Je chaotisch ein System ist, desto größer ist seine Entropie. Ich weiss zwar nicht wie man bei Sprache Entropie genau misst, aber dass chinesisch bei seinem Zeichensystem eine viel größere Entropie hat, kann ich mir gut vorstellen.
Nachteil hat eisenstange oben sehr gut erklärt. Vorteil will ich auch gern mal wissen. :)
[ 本帖最后由 DaMin 于 2006-8-8 11:02 编辑 ]
boilingsnow
发表于 2006-8-8 11:10
据说信息熵大是表征信息量也大,但是会在信息储存和传输中提高“成本”,比如汉字需要管理一个超过几万字的字库,没增加一个汉字就要改变这个字库。但是优点是汉语它承载的信息也更多——是这样的吗?
DaMin
发表于 2006-8-8 11:57
原帖由 boilingsnow 于 2006-8-8 11:10 发表
据说信息熵大是表征信息量也大,但是会在信息储存和传输中提高“成本”,比如汉字需要管理一个超过几万字的字库,没增加一个汉字就要改变这个字库。但是优点是汉语它承载的信息也更多——是这样的吗?
Das wäre genau was ich mit Informationsverlagerung meine!
eisenstange
发表于 2006-8-8 12:11
对于语言的熵的计算,最早是Zipf进行统计的。我们国家的语言学家也是使用Zipf定律结合国家的汉字常见字的出现概率算出来的。关于进算的过程我没有看到具体的推导过程,不过结果倒是记住了。这个熵表示的含义,是平均信息量,所谓的平均信息量并不是我们日常生活中理解的信息,如每个文字,字母包含的实际内容,而是统计结果表明的样本的空间大小和出现的概率,其实对于计算机而言它并不关心一句中文或者英文的内容,它关心的是给每个符号进行编码的长度大小。对于已经统计出来的熵的含义是,假设我们采用的编码是给出现概率最多的字或者字母分配最短的1bit的码,然后逐渐的递增到出现概率最小的字分配最长的码,然后取他们的算术平均值,那么这个值应该等于熵的大小。
而不管英文用的 ASCII 还是中文的 Unicode,都不是按照最简编码方法进行设计的。实际上都有冗余的位。中文的冗余位少,也就是说出错的概率高,英文有效的是5位,而实际是8位传输,也就是说它的编码效率大概在60%左右,所以在上一篇的计算中,我给中文加了一个50%的系数,因为Unicode和ASC在安全性上有不同的系数。
单从通信角度上将,工程师无法去衡量50个中文字和250个英文字母,那个包含的读者想知道的实际信息多,而是从系统实现的角度讲,保证从信息发送方到信息接受方的无误差传输。而实际情况是,不论采用什样的校验方式,出现误差的情况是无法避免的,对于中文来书,如果要达到和英文一样的可靠性,就必须要采用如加入冗余位的办法来降低信源的平均信息量。这需要新的算法,新的硬件存储码表,各种校验。从而花费上要大很多。
关于最后的汉语承载的信息多的说法我觉得更合适的,应该是为了能表述任意内容,汉字需要的小概率字符多,因为在熵的计算中真正将汉字的熵提上去的是那些出现概率小的不常用字,而且这个结果已经是在使用新的新华字典的基础上得到的,如果使用康熙字典的话,可能会更多。
关于这个说法到目前还没有一个完全的定论,因为确实很难衡量到底哪个更有效,因为必净语言是由生活环境衍生出来的,不同的生活环境自然语言需要表达的内容也不同,翻译那些两个文化相同的部分的难度,比将一个文化中的新概念完全引入一个另一个文化中的难度要小的多,而科技领域正是如此,所以我说在科技领域汉字的匹配还没有做好,至少估计在我的有生之年应该是这样。科技文明也是一种文明,也有底蕴,和文化一样,很多东西不是一天两天能养成的。包括很多国内大学教授的思维习惯已经很陈旧了,
传统文化影响思维习惯,思维习惯反作用于研究方式,研究方式影响研究结果,研究结果决定科技进步。都是一环套一环的。同样学语文造成的发散性思维的后期影响使得学文科的和学理工科的学生在思维习惯上有不小的差异。中文更适合发散性的思维,因为它发散性的语法结构。对于喜欢发散性思维的人自然是优美的,而对于使用逻辑性思维的人来说,是可怕的。
eisenstange
发表于 2006-8-8 12:21
再举一个关于熵的例子,我们可以用熵的计算公式来计算, 中一次 Lotto头奖 所包含的信息量是 27 bit。这个在科技领域的 27 Bit的信息量的含义是:
给定一个由27位 0和1 组成的序列如 000101111010101101101, 然后给你一枚硬币,头算1,字算0, 只允许你连续抛27次, 连续抛27次后得出的结果和给定的序列一致的这个事件所包含的信息量和中一次Lotto头奖 包含的信息量是一样的。 虽然两者的后果是完全不一样的,但在科学计算上来说是一样的。
中文和英文的信息量,也与次类似。
ph2006
发表于 2006-8-8 13:54
原帖由 giffgaff 于 2006-8-4 19:57 发表
还是不能否认汉语不是一种比德语先进的语言
你的意思是说汉语不是一种比德语先进的语言吧,我没理解错吧
eisenstange
发表于 2006-8-8 14:21
原帖由 ph2006 于 2006-8-8 13:54 发表
你的意思是说汉语不是一种比德语先进的语言吧,我没理解错吧
;);)
DaMin
发表于 2006-8-8 15:01
原帖由 eisenstange 于 2006-8-8 12:11 发表
关于这个说法到目前还没有一个完全的定论,因为确实很难衡量到底哪个更有效.
$握手$
giffgaff
发表于 2006-8-8 18:57
原帖由 ph2006 于 2006-8-8 13:54 发表
你的意思是说汉语不是一种比德语先进的语言吧,我没理解错吧
当时发帖匆忙没注意,呵呵!:D
知道我什么意思就好了$汗$
当时明月在
发表于 2006-8-8 23:56
........绝对强帖,来晚了,明天继续拜读几遍哈...长见识呢
当时明月在
发表于 2006-8-8 23:57
原帖由 eisenstange 于 2006-8-8 12:21 发表
再举一个关于熵的例子,我们可以用熵的计算公式来计算, 中一次 Lotto头奖 所包含的信息量是 27 bit。这个在科技领域的 27 Bit的信息量的含义是:
给定一个由27位 0和1 组成的序列如 000101111010101101101,...
;)MM是学ET还是INFO的呢?哈哈,看到CDMA/CD 真是亲切呢.:P
cosimo
发表于 2006-8-9 12:23
我强烈要求大家一起来鄙视德语的变格!不许再跑题了!:cool:
boilingsnow
发表于 2006-8-9 13:16
原帖由 cosimo 于 2006-8-9 12:23 发表
我强烈要求大家一起来鄙视德语的变格!不许再跑题了!:cool:
如果说变格还能增加语言的准确性而使得它的存在具有一定的合理性的话,那三种词性的区分真的是完全没有必要而多余的,除了增加学习难度之外几乎没有什么实际作用。
frost
发表于 2006-8-9 13:27
原帖由 cosimo 于 2006-8-9 12:23 发表
我强烈要求大家一起来鄙视德语的变格!不许再跑题了!:cool:
好奇怪阿
为什么要大家一起来鄙视啊?
老外学中文是不是要号召大家一起鄙视并无什么规律的量词呢? 一匹马,一头牛
MM别生气,不过衷心建议,花一天时间背个表,其实很有规律的,以后多写多说,更容易记住啦,鼓励一下$支持$
$闭嘴$
我赶快溜,
[ 本帖最后由 frost 于 2006-8-9 13:33 编辑 ]
frost
发表于 2006-8-9 13:32
原帖由 boilingsnow 于 2006-8-9 13:16 发表
如果说变格还能增加语言的准确性而使得它的存在具有一定的合理性的话,那三种词性的区分真的是完全没有必要而多余的,除了增加学习难度之外几乎没有什么实际作用。
中文说我喜欢ta, 男他女她还是动物它?
fruchteis
发表于 2006-8-9 13:34
中文的量词,是有点不可思议,
要这么多, 如果像英语A 一下,简单多了.
fruchteis
发表于 2006-8-9 13:35
原帖由 frost 于 2006-8-9 13:32 发表
中文说我喜欢ta, 男他女她还是动物它?
那是口语,
书面语还是明了的.
cosimo
发表于 2006-8-9 13:37
原帖由 frost 于 2006-8-9 13:27 发表
好奇怪阿
为什么要大家一起来鄙视啊?
老外学中文是不是要号召大家一起鄙视并无什么规律的量词呢? 一匹马,一头牛
MM别生气,不过衷心建议,花一天时间背个表,其实很有规律的,以后多写多说,更容易 ...
号召一下现得声势浩大嘛!呵呵~~~
外国人也可以鄙视我们的量词阿!好玩嘛!
记得其实记得啦 ,就是不爽而已!:P
frost
发表于 2006-8-9 13:41
:)$ok$ 欢迎大家继续发扬科学跑题的精神
我太喜欢这个帖子前面的讨论了
:)
[ 本帖最后由 frost 于 2006-8-9 13:43 编辑 ]
frost
发表于 2006-8-9 13:42
原帖由 fruchteis 于 2006-8-9 13:35 发表
那是口语,
书面语还是明了的.
这桌上放着一本书,它是蓝色的
是桌子蓝色呢,还是书蓝色呢?
Ein Buch liegt auf dem Tisch, der(das) blau ist。桌子(书)是蓝的
当然大家可以举反例,比如说词性一样的情况,不过在长句的描述,特别是科学语言中,是要精确些,而且并不单一体现在词性上