月光博客 » 搜索引擎 » Google Translate机器翻译错误的技术分析

Google Translate机器翻译错误的技术分析

  前几天又发生了一次针对Google的所谓“辱华事件”,一篇号召网民“抵制Google翻译工具”的帖子在某著名论坛上出现,帖子指责Google的翻译工具出现离奇的“张冠李戴”现象,甚至有伤害中国人感情的嫌疑,对Google的不正确翻译,该文列举了一些例子,如“I thought this was shame”(我认为这是耻辱)被译为“我认为这是中国的耻辱”等等。

Google翻译中出现的错误

  该篇文章发表后,引起了很多人的注意,不少媒体都进行了转载,之后,Google Translate翻译服务也迅速修正了这个技术错误。

Google翻译修正了技术错误

  由于我自己也是经常使用Google翻译工具,因此我就结合一下我对Google Translate翻译工具的理解来阐述一下这种错误可能产生的内在原因。

  以往的翻译通常都是使用一个一个词地“死译”,由于词义的多变性,同样一个单词在不同的场合下可能会出现完全不同的含义,因此原先的那种翻译效果可谓“惨不忍睹”,翻译质量普遍很差,基本上没有什么参考价值,大家可以使用词霸或者Yahoo翻译来随便翻译一两篇英文来实验一下。百度因为“更懂中文”,因此没有全文翻译产品,只有一个简单的单词翻译功能。

  Google Translate翻译服务是目前中文翻译领域中表现最为突出的一个,主要原因是Google翻译于今年进行了一次创新,使得Google翻译具有人工智能的词义辨识能力,也就是说,通过Google搜寻不同字词同时出现在同一网页的频率来确定字词间的关联性,以这种人工智能的方法来进行真正意义上的全文翻译。

  在Google眼中,一个字词的意义经常能从其他与它并用的字眼而获得,Google有天然的优势—已经索引过的海量资料库,通过对海量的多语言数据进行对比学习,找到不同语言之间的语法和文字对应规律,实现了机器自动学习功能。

  Google的这种智能识别翻译虽然极大地提高翻译质量,但是总的来说翻译水准还是不能达到很高的水平,出现一些技术上的错误也在所难免。例如这次出现的这个翻译错误问题。

  我推测这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是负面的,因此某些“不好的字眼”经常和“中国”一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个“不好的字眼”和“中国”进行了一定关联,于是就出现了这种智能推测,导致了所谓的“Google辱华翻译事件”。

  当然,这个技术问题解决起来也不难,就是扩大Google翻译的机器学习资料库,从不同的环境多分析一些资料(比如也分析一下人民日报的信息),这样推测词义出现的偏差可能会小一些,结果也会更为“中立”一些。

  总的来说,Google放弃传统的翻译方式,改而使用机器自动分析统计识别的方法,是一大进步,极大提高了文章的翻译质量,后续Google应该做的是优化识别统计算法,扩大自动学习资料库,使得翻译的结果更加准确。然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面,早先有“Google搜索南京大屠杀事件”,现在又有“抵制Google翻译事件”,是的,哪里有臭味,哪里就有苍蝇的身影,苍蝇改不了逐臭,正如狗改不了吃屎一样,我奉劝那些专门搜寻这方面材料的那些人,不要再做那些妖言惑众、哗众取宠的事情了,这么做不仅侮辱了自己的智商,同时也侮辱了广大网民的智商。当今社会是一个竞争激烈的社会,需要不断学习新知识,学习,不仅仅是学习知识,更重要的是学习分析问题的能力和技巧,如果只知道固步自封、闭门造车,整天想一些歪门邪道,不去想办法提高知识和技能,那么迟早有一天会被这个社会所淘汰。

Google Translate机器翻译错误的技术分析

顶一下 ▲()   踩一下 ▼()

相关文章

  1. 1
    jrsdhr   说道:
    这篇原报道很偏激,翻译句子也找的相当的别有用心。
    I thought this was glory. 被翻译成 “我认为这是中国的荣耀”
    又作何解释?
    也可以说,Google "崇华媚中”?
    而且,是不是又使国内某个大型中文搜索网站向Google使出的下三滥的手段,也未可知。
    支持(12反对(6回复
  1. 2
    zhiliao   说道:
    这个帖子好。最能说明问题。我从donews上面转贴。至少明白两件事:第一Google没有自己的翻译引擎, 第二Google买了一个翻译引擎的技术:不是Language Weaver的, 就是美国乐图 (LOTO)的。我对比了一下两个的效果,应该是Language Weaver的。下面是原贴:

    http://free.donews.com/viewthread.php?tid=56839&extra=page%3D1
    支持(7反对(1回复
  1. 3
    1号   说道:
    呵呵,愤青有用啊,愤青可以当炮灰。
    支持(8反对(2回复
  1. 4
    丝蓬格梅   说道:
    谢谢11楼的朋友。
    你的说法帮到我忙,呵呵
    支持(7反对(3回复
  1. 5
    admain   说道:
    还要说一件事
    他出卫星地图
    就有人说什么泄露机密
    有本事自己做个更牛逼的出来啊
    美国地图放大到毫米级别,也泄露下别人的“国家机密”嘛
    做不出来
    就不要说这些让人觉得脸红的话
    支持(6反对(3回复
  1. 6
    study5   说道:
    我觉得可能google的理念和中国的文化冲突太大,所以把不好的都往中国身上推,而且该问题一揭露马上就解决了,充分说明这是有预谋的,我不相信是巧合!
    支持(8反对(5回复
  1. 7
    mathena   说道:
    我在我Blog中已经写过了
    之所以每个词都加“中国的”,是因为到中文语境的问题。到中文语境,可能刻意增加了“中国的”这个词的权重

    Google机器翻译对于你我都是黑盒子,大家都是去猜,这一点上无论做什么猜测我都能理解。 不过我去年在Google面试过,也和李开复先生讨论过Google的机器翻译的底层用的什么算法,我也有很多朋友在Google, 至少我对底层算法模型还是知道的。

    如果Google用的是HMM模型, 你搜一下china/chinese+shame的双语网页有多少? 怎么可能发生关联呢?
    支持(7反对(4回复
  1. 8
    nife   说道:
    崇洋的人还真多啊,一天骂人愤青,搞得用google就要高上一等似的,更本拿不出算法。有些人以为的自己比所谓的愤青聪明,一天到晚鄙视这个那个的,其实自己就是白痴一个,很多根本就是google的问题简体中文也能翻成english,我根本看不出在词典里有什么关联,这个最基本的词汇翻译都做不好,这还能说是关联错误吗,还有为什么要用西方的文献和中国的对应?fucking也能翻成中国运动员,词汇翻译不能更直接?那些骂愤青的,我看你们一遇到这种是才是上纲上线,马上就提到什么民族自卑了,个个说得头头是到的,还不是一群人在跟风
    支持(4反对(1回复
  1. 9
    AT   说道:
    何苦呢,泛政治化
    支持(7反对(5回复
  1. 10
    ronaldo   说道:
    本體論 以詞 做 相關律 是 不了解語意 定義

    如 之 平方 平方 數據上

    可能 和 語意當初者 完全不相干

    要求 學術人士 理解 本體論 之 論述 已經 是 眾說紛紜 不知 云云了


    若還要電腦理解 本體論 之 拼湊 數學模型 是 解決語意 策略的 緣木求魚 方法

    是以 智者不為

    語意 定義 是 生活意旨符號集合 之 函數模組

    是 計算機 資料庫 之 可程式庫之 人文科學 之 擬人化 思維法則


    現有一團隊進行中 其 將公佈 世界 翻譯 流程 說明

    有 模組矩陣 程式 能力者 可試用之

    電腦 若能理解及實施 中 英 文法內容時

    對於 世界語言翻譯 及 知識 know how 的 網路管理服務


    就有了開始

    現在 google 與 world lingo 翻譯水準 如果稱得上 已有五成 技術能量時

    用此 擬人化 程式流程 可以 大大 提高 一半 以上


    此將 公告 在 網路 上

    詳情 資料

    LANGENEBASE @ GMAIL.COM

    ATTN ronaldo

    re: VIRTUAL BRAIN
    支持(7反对(5回复

发表留言