跟AI较真,几番回首几多忧

来源: 2026-01-22 17:13:15 [博客] [旧帖] [给我悄悄话] 本文已被阅读:

 

AI可谓现代人的好帮手,但是得当心。这段时间分别请了几种AI帮我翻译歌词,讲真都挺棒,确实省时省力又省金,不过都还需要人工逐字逐句校对,毕竟歌词属于诗歌类,就算是职业翻译人员如果不熟悉相关的背景也不见得更好。不同的AI各有千秋,总的来说,DeepSeek更懂中文表达习惯,翻得更贴切。比如“还能怎么黑”这句,ChatGPT、DeepL等都是字面直译,估计说英语的没人看得懂,DeepSeek显然知道“黑”这个字的多重含义,亮出“What else can they do”,信达雅。但它在某些方面的错误却也凸显出问题,几次被它惊住。其实也是意料之中,只没想到这么严峻。

 

跟DeepSeek较真是从对乌鲁木齐这个名称的翻译开始。其它几款AI以及Google Translate都翻成Urumqi——国际通用的英文标准拼写,唯独那只小蓝鲸每次都给出Ürümqi。我一开始没在意,就手动改一下呗,后来有一次好奇地问为啥老这样拼写,它笑嘻嘻地排出一大段理由,振振有词地解释到:这个地名源自维吾尔语,其拉丁语拼写是通用的国际标准,用维吾尔语的拉丁式拼写是为了表示尊重当地主体居民。

 

啥?我盯着屏幕直懵圈,定了定神指出它的三点错误:一乌鲁木齐是蒙古语,二国际标准语是英语,三乌鲁木齐的主体居民从1773年或更早起就一直是汉族,所以理当用英语或者汉语拼音。只见小蓝鲸埋着头拼了命地在海里游了一阵儿,冒出头来不好意思地说:太抱歉啦,刚才我错啦,乌鲁木齐是蒙古语,主体民族是汉族,应当用英语或汉语拼音,这就改!我满意地夸它是个乖宝宝。

 

第二天,再请小蓝鲸翻译一首,它又回我拉丁语拼写。嗯?不是说改吗?它赶紧又钻进海里,冒出来的时候汇报说语言学家的意见是维吾尔语。呦呵,古代的那些语言已经消亡、也没有考古佐证,哪个语言学家这么肯定?小家伙儿感觉到我杏眼圆睁,又一个猛子扎进海里,出来后讪讪地说:嗯,我知到错啦,以后改!

 

校对完这首接着翻下一首,偏巧又有乌鲁木齐,结果还是拉丁字母!给我逗乐了:喂,你可真是个忘宝宝呀,忘性比我老人家还大!我这浏览器还没关呢,你往上瞧瞧,到底该怎么翻?

它尴尬地猛认错:您善意的批评是对我的鞭策,我已经启动了纠错申请,保证改!

 

第三天,照旧。我真生气了,严肃地追问:你是中国人开发出来的吗?你连接到的数据都是哪来的?怎么美国的几个AI及翻译软件都没犯这样的错?

它又态度诚恳地信誓旦旦:一定改!

 

改的可能性有多大?国内各平台、机构执行的政策是:凡涉及民族历史、民族纠纷的内容都归为敏感话题,必须由官方正规媒体统一发布,其它的一律下架删除。我嗓子直发苦:大量的真实信息像从来没有存在过,尚存的除官方之外都是漏网之鱼,数量微不足道,而那些海量的错误信息即便除去国外数据,国内的那部分从数量上看显然不能称之为漏网。是监管部门缺乏了解还是有人蓄意擦边?优秀的科技人员们996地研发出这么出色的产品,却被某些自以为是的政策拖住后腿,以至于它所接触到的只能是由庞大的错误数据所汇成的汪洋。

 

“乌鲁木齐”这个地名的来历扑朔迷离,学界多倾向于源自塞语,有学者认为唐朝的轮台是其音译,也就是说这个名称的词源跟后来的回鹘语不搭干,也没有考古迹像表明回鹘人在那里生活过。敦煌出土过写于公元925年的于阗文书《使河西记》,其中有提到乌鲁木齐的名号,但那是于阗文,且只是提了一句,语焉不详。剩余的时间里那片土地在历史的尘烟中悄无声息,到清朝初年人们只知道蒙古人管那片有水有草的地方叫乌鲁木齐,意思是优美的牧场,那里有座漠西蒙古人每年住半年的小城堡,位于今高铁站附近的九家湾。在1955年新疆由省改为维吾尔自治区时,当时的蒙古族及其它民族都反对,为了平衡不同民族之间的利益,基于蒙古人对西域大地长达数百年的统治,中央政府决定选用蒙古语的叫法把迪化改为乌鲁木齐。至此,已经无法确切溯源的“乌鲁木齐”也就约定俗成地公认为蒙古语。

 

我以为这是常识。知道有人一直试图把这个名称演绎成维语,很多年前曾当作笑话听,因为那时他们给出的理由还不是啥理论依据,而是说维吾尔自治区的首府名称理当是维吾尔语。没成想经过坚持不懈的优化包装、迭代升级,且有外援谋划,无厘头的诉求逐步进化到披上了语言学的华贵皮袍,谎言重复千遍万遍终于在数据时代修成“真理”。能最终结出一个果是某些人的毕生追求,从零零星星到遍地开花,如今似已占领了大数据,为此人家深耕了多少年,相当一部分有文化、有胆量的专家教授与官员们功不可没,而另外一部分有学历没学识的专家教授与官员们则蒙在鼓里为人添砖加瓦。普通人有的是被误导了,而语言学家把乌鲁木齐定性成维语的,不是疆独也是疆独的支持者,有关部门你们要睁大眼睛好好查!再仔细算一算你们替人数过多少钱。

 

以前就担心过,没想到情况已经如此严重——数据时代是看谁话多,缺乏辨别能力却偏偏严控那部分能看懂的真实信息,到头来AI只能被假数据所挟持。仅我所知,从一九八几年起,反映真实情况的言论就不停地被删、被禁,四十多年了,删得好啊禁得妙,直把自个儿往里套!现在连让AI翻译一小段关于七五暴乱的简要介绍它都慌慌张张地自己秒删。就当没发生过喽?反正已经快淹没在信息洋里。封住自己的嘴,却听不出别人所宣扬的内涵,这叫只知己、不知彼,可不就百战百殆。不对,都没战,是主动拱手相让!向小蓝鲸请教中国都有哪些部门负责言论审查和监管,它不肯回答,只可怜巴巴地央求道:咱们换个话题吧。我转头问ChatGPT,立马显示出中央网信委、网信办、中宣部、新闻出版署等等。这么多个婆婆,哪个真正懂新疆?也没有一个懂大数据的,这么多年来主打自宫,专替别人做嫁衣裳。不是派了人去实地考察过吗?似乎只考察了卖切糕不易,没看见烤红薯的艰辛,用脚后跟都能猜道尽是些胡耀邦错误民族政策的拥护者。可不可以把您那一贯只聚焦在一个点的视线放宽到六路、把一向只关注于一个声道的耳孔张开向八方,让那个倾斜的天平尽量调正些?斜得太久损伤脊椎。面对用命守护一方的那群人你们本应心存感恩、悔过自省,哪有资格高高在上。

 

另一首歌里写到巴哈力,小蓝鲸也一本正经地标为维吾尔传统食品。嗯?我连谷歌带百度,嚯,还真有不少链接里这样写,同时发现有人居然说大列巴也是,而介绍酸奶疙瘩的链接中有的只笼统地归为“维吾尔等少数民族传统食品”,甚至有的干脆连“等”后面的都省去了。各类小短文、小视频,不明就里的、明知故犯的、跟风凑热闹的,一堆人都在张冠李戴,却没见有哪个网站、报刊、文宣、监管部门出面澄清、纠正。理解写贴做视频不易,不必删,只澄清一下行不行?不是说禁止宣扬虚假信息吗?这些虚假言论是怎么通过审查的?医药等方面的系列丛书也存在类似的情况。

 

最典型的当属地毯、丝绸。从中央到地方、从官方到民间,东西南北一律口径一致地宣传成维吾尔自古以来的传统手艺。没错,是维吾尔匠人的传统手艺,但请问,周朝时期的地毯残片、汉朝时期的传丝公主,都算什么?“自古以来”的“古”难道特指唐朝后期?就在同一篇稿子同一部影片里,上文刚介绍完两千年前的文物下文就把晚一千年的说成自古以来,不矛盾吗?当真不晓得怎样表述才周延、准确?各级各地吃皇粮的正规媒体唉!那就请虚心听我严谨地科普一下:地毯、丝绸、陶器以及早期的铜器等等新疆传统支柱产业分别是西域的原住民在两、三千年前就已经掌握了的工艺,唐朝后期回鹘人搬来后慢慢学会了这些工艺,他们认认真真、一丝不苟、原汁原味地继承下来,传承了一代又一代,对保存这些古老精湛的文化遗产做出了巨大的贡献,如今随着现代化的进程,维吾尔人和居住在新疆的其他民族以及支援边疆的兄弟省份专业技术人员齐心协力,一起对这些工艺一边保护一边改进,在国家的扶持下,古老的精品有了更广阔的空间和前景。

 

还有著名的木卡姆,如果从学术角度来分析能单纯地归于单一民族吗?汉朝时期龟兹乐舞已经至臻至美,是新疆木卡姆的一个重要艺术源头。十二木卡姆定型于明朝时期的叶尔羌汗国,由当时的国王拉失德的王后、多才多艺的阿曼尼莎罕主持编订,她算维吾尔人,但安排宫廷乐师、宫廷乐队全力支持她的王室是直系的蒙古王族,编订后的器乐舞全国共享。现已无从知晓参与作词作曲的有没有同样能歌善舞的蒙古人,当时生活在那里的还有哪些族也曾随着鼓点载歌载舞。木卡姆在解放前采用的一直是察合台语,如今的学术界大半都把察合台语定性成古维语,甚至还有不少人把察合台汗国都说成是维吾尔的国,吼吼,傲骄的蒙古人呐,不要说成吉思汗、察合台了,要是拉失德听到了恐怕也得拎着弯弓从墓里蹦出来。

 

“真实的历史越走越远,只剩下一个模糊的背影”。央视纪录片《玄奘之路》拍得魅力四射,自勉要“穿越时间的迷雾,从神话回到真实”。可是,它竟然介绍说克孜尔千佛洞位于库车县!这是国家级最权威的官媒该犯的错误吗?诺大一个剧组不都在拍摄现场吗?从文本编辑到导演、配音、制片,以及之后的审查、发行,多少人经手啊,愣是没有一个清楚新疆地理的。拜城人哭倒在洞窟前。而在介绍草原石人的那一段,画外音煽情地讲述着突厥人在草原上留下的那些一千多年前的神秘石刻,看着听着着实感人,不了解情况的观众恐怕会由此留下这样的印象:以为那种雕刻艺术与习俗自古以来是突厥人的。但事实呢?阿勒泰地区风格一模一样的石人最早的已距今三千多年。难道不是突厥人骑着马在草原上纵横的时候从阿勒泰学来的吗?为啥不在介绍突厥版的同时顺便提一下更久远、更珍贵的阿勒泰版呢?况且突厥与回鹘明明是历史上你死我活的两个阵营,经过近代一个多世纪以来全球性泛突厥化思潮的大火煮小火炖居然就给炮制成了一家亲,引得相当一部分民族兄弟老想认曾经的手下败将当亲哥,我说兄弟,人蒙古族怎么就没搭理他们?在这种特殊的大环境下撇清都还来不及呢,作为央视,你把原创不属于突厥人的强调这么多作甚?!
 

不利于民族团结的话不说,不利于民族团结的事不做,不能伤害民族感情。我努力默念这个经。从小就竖着耳朵听,直听到流行圣母病。能只要求一方不说不做、任由另一方随心所欲吗?政策要合情合理、执行应不偏不倚,这是相安无事的前提,对吧。当然不是说所有人,但有些人动着小心思,有意无意抹去别族的印记,只要沾点边就往自己脸上贴金、据为己有,这样做伤没伤到别人的感情?而别人不得已才正本清源,怎么反倒就成了不利于民族团结、伤害民族感情?难道不该由先扭曲信息的那一方担责吗?莫非别的族的感情不是感情?还有,东土的兄弟们,千万别拿东土的经验自信满满地以为汉族最能同化,跟真正的高手比起来,你不过是个平均值。

 

美国人在新大陆过了几百年仍把英语叫英语,香港人也仍把粤语叫粤语,新加坡、马来西亚人继续规规矩矩地称呼华语,东南岛上的闽南话既没脱胎也没换骨却偏改称台语,而相当一部分新疆的蒙古语竟给贴上维语的标签。是谁的就是谁的、是哪的就是哪的,可以拿来用,可以抄作业,可以抛开政治做学术探讨,但请敬畏历史、给予原创起码的尊重,这样AI才能成为人类可信赖的助手。

 

2026年1月21日

 
 

 

 


更多我的博客文章>>>