思芦随笔

人只不过是一根芦苇,是自然界最脆弱的东西;但他能够思想。
个人资料
思芦 (热门博主)
  • 博客访问:
归档
正文

中文的突围, 从打字机到人工智能

(2024-03-07 08:37:19) 下一个

中文的突围,从打字机到人工智能

读了被中国媒体大捧的《中文打字机》,比较失望。这本书的作者是斯坦福大学教授Thomas Mullaney(墨磊宁)。全书少学术,多历史,价值不高。仅仅是中文打字机的叙事史,缺乏深刻的洞察和分析。作者停留在基于政治正确的评价,用社会达尔文主义大帽子抨击一切对立主张,拒绝对文化优劣和对语言本质的评价。西方的一些学者喜欢站在两个文化的接缝上,左右逢源,投机取巧。

达尔文进化论的核心观点是物竞天择,适者生存。这个观点在社会学上,认为文化有优劣,落后的文化会被淘汰,并没有错。我们反对优生学和种族灭绝的同时,也不应该保护将被进化淘汰的落后文化。而作者认为:“语言在表达人类思想的能力上是无差别的,至少每种语言都有能力或潜力来表达其使用者想要表达的东西”。不承认文化差别,不承认象形文字和字母文字的差别,对文化和文明的发展存在影响,表明了作者的多元文化主义立场。

本书反映了一种矛盾心态。中国和世界接轨还是让世界适应中国。当中国不适应世界体系时,是改造中国,还是改造世界现有的体系。不仅是语言,中国和外部总是两个世界。中国人永远处于接轨还是另开蹊径的矛盾中。如果中国不适应,就认为不是中国有问题,而是现有系统有问题,是伪普世。中国对世界不适应,就说世界对中国有围剿。我不能融入你,是你的问题。你要对我的不能融入负全责。谁叫你先发,我后发呢?

在计算机发明之前,发明和英文打字机等效的中文打字机是不可能的任务。或者是打字速度,或者是覆盖内容,或者是成本,或者是复杂性方面,中文打字机不能做到和英文打字机的等效。这是因为中文主要是表意的语素文字,相对于26个英文字母,基本汉字就有三四千。英文打字工作一般是秘书兼职,而中文打字员几乎都是专业的,因为后者对操作的技能有很高的要求,英文打字机很普及,能够便携,而中文打字机笨重,基层单位几乎没有。插队时,北京供电局是我们公社的厂社挂钩单位,供电局的一个姓吕的中文打字员派驻我们村。当时搞批林批孔运动,我被选到不脱产的公社理论队伍。县里交下任务,让写一篇《历史上劳动人民的反孔斗争》。要求两万字,一星期交稿。写完后,要打印上交到县里。公社没有中文打印机,吕师傅把我的文章带回单位打出来后,需要校对。我专门回到北京,住在前门附近的电力局招待所。那是我第一次看见中文打字机,庞大笨重,可以说是一台活字书写机器。我改了错字后,吕师傅在蜡纸打印稿用修改液涂抹掉错字,并在铅字盘添加了常用汉字之外的一些铅字,在打印机上修改。文革时,红卫兵组织林立,都搞宣传。主要的方式就是大字报和手工刻印的传单,很少人用中文打字机。那时写一手漂亮的毛笔字和钢笔字是很吃香的。

汉语和汉字不是一回事儿。在通过复合词造出新词、词序自由度高,语法简单等方面,汉语和英语相似,都发展得比较成熟。这里主要比较书面汉语和字母文字。中国语言学家周有光认为文字有三个阶段:原始(形意)时期,古典(意音)时期和字母(表音)时期。汉字处于古典时期。文字的进化进程是:符形从图符到字符到字母,语段从语词到音节到音素,表达法从表形到表意到表音。全世界活的语言除中文外都拼音化了,包括以前汉字圈的日本、韩国和越南。说明这是发展的规律。汉字是当今世界上唯一的语素文字,一个活化石。

为什么中文没有向拼音文字转化?主要原因是:第一,汉字的发展历史短,汉字比楔形文字晚两千多年。当甲骨文出现时,地中海已经发展出字母文字;第二,秦始皇的大一统,书同文的结果是各种口语的人使用统一的文字,导致文字和口语分离。缺乏不同文字的交流和互相学习的环境,错失了向字母系统发展的机会;当中国人接触到字母文字时,中国的文字已经固化,与文化传统相融,无法更改了。第三,汉字覆盖的方言太多,发音差别过大,向表音文字发展阻碍大;第四,底层文盲多,文字只是部分有闲阶层的需要。没有动力向简化发展。而拉丁字母的起源--腓尼基文字是商人们发明的,他们需要一种简化的符号记账和贸易,不可能去学习复杂的楔形文字;第五,古代汉语发展出很多优秀的文学作品,而这些文字遗产成为字母化的负担。因为字母化意味着断层;第六,汉语普通话410个音节,约1300多个读音。常用汉字有三四千个。造成同音多字,向表音文字进化比较困难。

中国的口语与书面语处于严重分裂状态;这种分裂影响了中国在逻辑、哲学、法律和科学等领域的发展和进步,仅有文学和书法畸形繁荣。因为书写成本高,中文力求简约。与大多数字母文字相比,中文具有强大的信息容量和压缩能力。同样的内容,汉语比英文要减少30%以上的页面。同时汉字数量庞大、笔画复杂、意音断裂、多音多意、语境微妙,使汉语成为世界上几乎最难以掌握的文字。至今偏远农村仍有很多人是文盲。大量中国人能识一些基本汉字,但不能阅读和写作,处于半文盲状态。语言是工具,中国人成长过程中,掌握工具的时间远远超过使用字母文字的人群,相对减少了学习知识的时间。

非拼音的汉字是至今中国的方言多且差异大的原因。由于字母文字的读音和口语是一致的,字母文字带动了统一方言的标准化;因此使用字母文字的民族和国家,口语基本上是统一的。日本和朝鲜使用了字母文字以后,口语基本上统一了。表音文字的蒙古文和满文促进了中国北方口语向北方官话统一;而用汉字的中国南方,方言多而差异大。

非字母的中文,在中国现代化进程中受到不断地挑战。打字机困境只是第一个,汉字由于在输入输出,编码和检索等方面,效率较字母文字明显低下,成为了教育及信息化上的瓶颈。幸亏后来有了计算机和汉字输入方法,解救了中文。虽说还有一些问题,但中文基本度过了第一个挑战。

人工智能可能是中文要面临的第二个现代化挑战。汉语的歧义多和高度依赖语感使计算机的语言识别和理解比字母文字更困难。中文没有大小写,单字间没有空格,不容易像英文一样区分单词,专有名词和缩写,容易产生歧义。比如“乒乓球拍卖完了”到底是“乒乓球拍“卖完了,还是“乒乓球”“拍卖”完了?下面几幅图是百度AI软件文心一言生成的图片,就是由于不能正确解析中文单词产生了歧义。当然这不是很难的问题,应该可以解决。这个实例是用来说明:许多在英文不是问题的问题,在中文就可能是问题,对人工智能提出了更高更难的要求。





图片来自网络

[ 打印 ]
阅读 ()评论 (14)
评论
思芦 回复 悄悄话 回复 '海边公园' 的评论 : 说单音节时我也有点儿犹豫,但没有其他词来表示。叫什么名字关系不大,明白这意思就行。辅音结尾也可以说是一个音节。比如Las Vegas,英语只有三个音节。汉语拉斯维加斯是5个音节。每个结尾辅音都是一个音节。

入声的辅音韵尾能够减少同音多义。但是汉字单字表现不出来。

同样,汉语中口语中的词汇很多也是多音节的,不会比日语更困难。
海边公园 回复 悄悄话 回复 '思芦' 的评论 : 再讨论下去就有点复杂了,只是想指出两点:1、有辅音韵尾并不能说明不是单音节。辅音本身不构成音节,如that一词就是单音节。2、日语的假名是音节文字,但日语本身是以多音节词为主的语言,如“我”(わたし)就是三个音节。
思芦 回复 悄悄话 回复 'bbbbtttt' 的评论 : 非常可能。说明第一,百度的人工智能翻译非常糟糕,第二,如果用英文不可能有这样的问题:因为word用space分隔,脸盆是一个词,washbasin。
bbbbtttt 回复 悄悄话 这几幅图片,有人说,是因为文言一心实际是套壳,是将中文句子机翻成英语单词,
用国外开源人工智能Stable Diffusion生成图片,然后将其返给用户,原本作为国产AI技术。
思芦 回复 悄悄话 回复 '海边公园' 的评论 : 补充一点。
“最大的阻碍是当时的汉语都是单章节词,同音词(字)太多。”
汉语特点是书面语言(文言文)和口语分离。书写为了简洁,文言文大量使用单音节词。但口语肯定不是,否则很难听懂。口语应该会使用不少多音节单词。拼音化之后,口语和书面语言一致,所以同音的单词会比使用文言文减少很多。
思芦 回复 悄悄话 回复 'goodmum' 的评论 : 中文已经不是图像了。
这里有个统计数据:
平均阅读速度,英文是 228 单词/分钟。中文是 255字/分钟或者158 单词/分钟 。英文按单词算,中文按字算的话,中文确实会比英文快一点,但理解信息的速度(按单词算)并不会更快。
思芦 回复 悄悄话 回复 '海边公园' 的评论 : 全世界活的语言除中文外都拼音化了,包括以前汉字圈的日韩和越南。说明这是发展的规律。同为象形文字的楔形文字和埃及圣书体也都是越来越简化。
看侯马盟书,六国文字很简洁,有字母化的趋势。而秦国文字相对复杂。
秦始皇的书同文以复杂的秦国文字代替了六国文字。汉字往越来越多的方向发展。过早的固化,阻止了文字之间的交流学习,而地中海字母文字的发展就来自于不同文字的交流。
汉语并不都是单音节字。南方入声字有辅音韵尾,如果能早期拼音化,这些发音都会保存,汉语发音也会更丰富,加上多音节单词的发展,会有效地消除同音多义词。
相反,现在长期以汉字表音让入声消失,汉语发音趋向简单,拼音化越来越难。
日语也是单音节,只有50音图,比汉语的400多音节还少,汉语还有四声。日语的同音多义应该比汉语严重得多,但是日语也拼音化了,当然开始阶段要借助汉字减少歧义。
goodmum 回复 悄悄话 中文输入复杂低效,但阅读快速高效,因为象形文字表现力强,现在短信流行的表情符号emoji也是于此,英文还有一图胜千字的成语,表明图形的表现力
海边公园 回复 悄悄话 回复 '思芦' 的评论 : 这个可能性似乎也不太大。最大的阻碍是当时的汉语都是单章节词,同音词(字)太多。本来甲骨文已经有表音的趋向。甲骨文中假借字占70%,假借字就是纯表音的。可是同一个字往往被假借表达多个同音词,即一个字有太多种完全不相干的意义,太容易混淆。所以后来只好在假借字上加上意符,成为现在占主流的形声字。

假如当时没有搞书同文,拼音文字成功,那么不同的方言都会有自己的文字,方言就上升为语言。不同的方言区就成为不同的民族甚至国家,大一统的局面就不可能存在。就像欧洲现在那样。
思芦 回复 悄悄话 回复 '海边公园' 的评论 : 如果秦始皇没有大一统,搞书同文,也许能形成像地中海那样的多国交流竞争环境,促使汉字向拼音文字转化。
海边公园 回复 悄悄话 回复 '大号蚂蚁' 的评论 : 语言种类越来越少是个大趋势。我也相信最后英语可能是地球上留下的唯一语言,前提是人类能够治好民族主义这个毒瘤。
海边公园 回复 悄悄话 根据周有光的观点,汉字没能像苏美尔和古埃及文字那样转变为拼音文字的原因是汉字一直是在原生文明(民族)中使用。苏美尔和古埃及文明都先后灭亡了,苏美尔和古埃及文字是被其他文明(民族)借用为表音符号,才发展成现在世界上占绝大多数的拼音文字。
侃-侃 回复 悄悄话 下雨天留客天留我不留

吃饱了撑的“洋人”从“东方神秘主义”里头找存在感,以示与众不同、包容进步。跟娶了中国小老婆而挖空心思拼凑出四大发明的李约瑟一个德行。
大号蚂蚁 回复 悄悄话 全球化下迟早被英文统一。实际上普通话统一中国靠的也是全球化,改开带来的经济集中和人口流动。实际上所谓白话文也是洋务运动的西化影响。在那之前的古文其实已经基本是博物院展品。今日中文也不过百多年历史,汉字,满音,日词,英以的混搭。
登录后才可评论.