导读:汉字的高识别率使古碑上的中文大体可识,而字母刻文却难以辨认
《布施锡兰山佛寺碑》现藏于斯里兰卡国家博物馆,为见证郑和下西洋最珍贵的文物之一。碑文除中文外,还刻有泰米尔和波斯两种文字。原碑的泰米尔和波斯刻文风化耗损严重,已难完整辨识;中文部分大体可识。石碑内容记载了当时布施礼品的清单和对佛祖的赞颂,显示了大明王朝的外交智慧。
见证郑和下西洋的碑上中文大体可识而泰米尔和波斯刻文已难以辨认
同样是刻在石牌上经过几百年的侵蚀后,为何只有中文大体可识而字母文难以辨认?
原因在于中文具有“纠错功能”,即使部分变脏或破损,也可自动恢复数据,被人识别。从下面例子可以看出,中文文字横向或纵向即使损失50%,也能被识别出来。日常生活中的二维码都达不到50%的损失恢复率,一般最高只有30%的等级(1)。
中文在纵向损失50%后也能被识别和信息传递
中文在横向损失50%后也能被识别,几乎不影响阅读速度
但字母文字损失50%后几乎无法被识别,因为字母部分破损就会出现大量无法区分的字母:o/c/a/d/b , e/q/g/q,r/l/f/i/j/k/,v/u/y,h/n等,导致识别率急剧降低。这就是为何在一些古碑上只有中文大体可识而字母文难以辨认的原因。
字母文在横向损失50%后,已几乎无法识别
中文有高容损率是因为中文是二维方式书写
中文是现在世界上主流文字中唯一的表意文字,通过模块化方式来构字,每个汉字都是由一个个可拆分的模块组合而成,使用了平面上的两维空间,这是平面上能利用到的最大几何维度;可以横写竖写,从左到右写从右到左写。可分为独体字和合体字。独体字有象形字或会意字,是对客观事物最形似的抽象。合体字也是用结构化方式造出:把独体字按照上下或左右或包围结构封装成字,合体字可以用一套形式化规则描述并创造出来。从古人造字开始一直就遵守这样的结构化规则,字一旦封装成型就非常稳定。就像软件和计算机之间有一个编译器,独体字就是主客观世界和中文世界之间的映射符号(2)。
因为汉字字型稳定,从其偏旁部署就容易找到该字的参考或归属,所以古碑上破损的汉字刻文很容易识别出其含义。
所有的字母文由无任何实际意义的字母直接成词,拼写必须吻合口语发音导致读写不分离,只能从左往右或从右往左(阿拉伯文)一维直线方式书写,虽有词根一说,但词根只是某几个字母约定成俗的组合,这和汉字部首完全不同,即不象形又非指事,缺少由词根联想到事物的功能,而且词根多变形,甚至新词出现后才往某词根上做牵强附会的解释(3)。
字母记录声音成本低,以至于任何一门语言都可以轻松用字母创造本族文字。用拉丁字母来记录的语言有几十种,有些民族本来没文字,随拉丁字母传入很快就生造硬搬地构建起自己的文字。大量外来词和新词潮水般涌入时导致更加杂交化和复杂化,字母使各族文字更加无法统一,它原先一切优势变成了劣势,必然造成沟通上的更加混乱。
二维的中文相对一维的字母文而言,存在天然的高维度优势,在网络文字图片视频并存的读图智能时代,将使字母文面临降维打击:同样面积大小的二维中文所承载和传达的信息量,以指数级别多于一维的字母文所承载的信息量(4)。即使50%的汉字破损后识别率要比字母文的识别率高出几倍。
中文非常高效的辨识度,是优势,可以让我们在同等时间下学到更多的文化知识。
字母文的识别效率低导致阅读速度慢
人在识别文字时,是通过眼睛进行扫描来完成,和计算机的工作原理一样的,每次以一个快照、一份一份的方式传递给大脑。
由于眼睛抓拍的一次快照和大脑对快照的识别有限制,一次性能看清并识别的字符数量是6个,如果超过6个字符,眼睛和大脑就会延时扫描与识别。比如,“love”这个单词,搭眼一看就能识别,但对于“internationlize”则要延迟一定时间才能识别准确,越长的单词,识别时所用的时间就越长。
字母文为代表的英语比中文啰嗦而不够凝练。英语单词大多是多音节词,表音文字拼写必须吻合口语发音,几乎没有中文的多态性(5),只能增加音节或变形来表达某个事物的不同使用场景,导致表达同一个事物时口腔动作比用中文时多,比如:国际化,中文里做名词和做动词时词形不变,发音也不变,而英文时名词是internationalization,动词是internationlize,名词的发音比动词要多一个音节。所以传递同样信息的英文时占用的空间就比中文的多。
并且英语中还有to、of、in、on、at、for、have等没有实际意义的介词和助词,以及多达十几种的时态变化,也在无形之中增加了英文的线性长度,还有that、which、what、when等谜语式的替代词,让本来不容易的断句更加不容易,为了理解句子意思,眼光必须来回移动好几次,让阅读更加不通畅。
计算机(人脑)对字母文字的处理要复杂很多,无法用某种形式化规则来分析处理。随着英文单词长度不断增加,英文越来越呈现出“超线性”特点,长句越来越长,段落越来越跳跃,文意越来越晦涩,阅读时很容易串行而产生阅读障碍,即使是他的受教育程度很高。尤其是学术性论文,断句越来越困难,非专业的普通民众几乎无法阅读。
日文尽管语法上也有很多变形,但因为有大量汉字的使用,因此日语的识别效率达到了汉语的80%,远远超过了其它的字母文。
中文比英文等字母文更具有优势更适合未来
中文因有封装继承和多态性(5)相比其他字母文字,能让客观事物更容易通过汉字平滑映射到主观世界(2)。在以人工智能、大数据为主流的未来,全世界都将使用一种以汉字呈现为主字母标注发音为辅的混合语言,信息密度高,容错率高,符合未来世界文字的要求标准。
到那时全世界将统一文字,但发音可由各国自己现有字母系统标注发音,就像日语一样有近2000的常用汉字,比如:本田,中日两国写法统一,但日语假名标注发音ほんだ(音似“宏达”)。
早在二千多年前已在中国实践了:春秋战国及以前诸侯林立,南蛮北夷东狄西戎,地理巨大差异下孕育出来大小民族何其多,最终只用简单线条和规律造字一统为汉字,自此地不分东西南北,人不分男女老幼,言不分南腔北调,无论山有多高路有多远,都用同一套文字系统记录事物,最终确立文化认同、民族认同、国家认同。即使现在地理上相距不远的一些方言之间基本不能直接交流,但使用汉字却不妨碍两地人民看写交流。如果是字母文字,那就是一堆密密麻麻的分裂小国,看看现在的欧洲!
中国方言差距如此之大都能用汉字统一,当然也可推广到全球,实际上汉字还曾是东亚地区唯一的国际交流文字,20世纪前仍是日本朝鲜越南琉球等国家的官方书面规范文字。因为日,月,山,人,口,马,鸟,羊,牛……所指无论在地球哪里看到的都是一样的,并由此派生出来的各相关字词,比如"鸟"类事物对应的文字是鸡,鸭,鹅,鸵,窎,鹃,鹦,鹏,鹉、鸠、鹤、鹄、鸾、鸵、鹩、鹪、鸱、鹳、鹬、鹢、鹓、鹀、鸯、鸰、鸮、鹝…虽发音不同,但不阻碍各人的读解。我敢肯定不出一千年,沒人知道bird是啥意思,但可肯定知道"鸟"啥意思,就算所有鸟都灭绝,“鸟”还是鸟。未来某星球上人类先锋发现一动物,向地球发回来某字:鹱,无需多言一目了然,是一种鸟类动物,如果英美先锋发回来某字符partridge,将无法让人解读引起混乱。
全世界使用统一的文字系统这一天将随着中国产品和文化出口到世界各地,当不再标注为“Made In China”而是“中国制造”时,中文就已开始了世界文字的使命。理由很简单:利益驱动,学中文好赚钱。英语的国际化伴随着殖民地的征服和血腥,而这一次中文国际化是世界的主动选择,所以这次必将来得要更猛烈些。
这一天肯定会早日到来!
扩展描述说明
(1)最常见的二维码,用的是里德-所罗门码来做纠错。
分有几级,纠错级别越高,整体需要携带的信息越多:L级可纠正约7%错误、M级别可纠正约15%错误、Q级别可纠正约25%错误、H级别可纠正约30%错误。
纠错原理比较复杂,整体基于“任意k个确定点可表示一个阶数至少为k-1的多项式”,实际上发送超过k个点,就算中间有一些错误,也能通过数学原理反推出最初的多项式,从而获得信息。并不是所有位置都可以缺损,像最明显的那三个角上的方框,直接影响初始定位。中间零散的部分是内容编码,可以容忍缺损。
(2) 独体字是主客观世界在中文世界之间的映射符:计算机的最底层由电子正负极(01码)构成的逻辑开关系统来实现功能的,计算机软件编写时由人能识别的语言(比如Java编程语言)来编写,被编译器编译为计算机能识别01码。日,月,山,水,上,下,人,艹,木,土….等象形字或会意字就是客观世界反映在中文世界里基本元素。无论在地球还是某星球上这些基本物件不会改变,这也是中文字形稳定的基础。
(3)新词出现后才往某词根上做牵强附会的解释:比如《逻辑英语》里解释如下:propose v.求婚 。 pro前缀“向前”,pose词根“放”。 把戒指向前放是“求婚”.....完全牵强附会的解释,pro为啥是“向前”,“向前”不是forward么? progress(进步)的词根pro是向前的话,procrastinate(拖延)里的pro又做何解释,proabortionist (赞成堕胎者)呢。会发现英文毫无逻辑,越学越糊涂。为了记忆这个单词把它们当做助记词倒是可以,但不能把它们当做普遍规律。《逻辑英语》一点也不逻辑,牵强附会之英语。
(4)汉字的信息密度比字母高出几个数量级:同样大小面积上书写文字,中文包括的信息密度最大(数学公式>中文文言文>中文普通话>其他字母文字),一个汉字中的平均熵值为9.65比特,而英文字母的平均熵值才4.03比特,即同等面积的文字,汉字传递的信息要比英文高两倍以上;从影响文字效率的几个因素来比较,中文的效率最高,中文领先英文55%,领先日文65%。
(5) 中文具有封装继承和多态性:从编程视角来总结一下中文,对汉字优势科学分析,从底层逻辑彻底发掘展现汉字之美,详情请阅读《中文有封装继承和多态性将成为世界文》,头条里可搜索到。
——————结束————