青青子衿, 悠悠我心, 但为君故, 沉吟至今
« Siri引发的产品设计变革苹果iOS游戏类应用不应该独立 »

Google 翻译,梦想与现实的距离有多远

  在信息纷繁如大洋般浩浩的互联网时代,操持各自语言的人们汇聚网络,言之纷纷,书之不息,各类信息无时不发,无处不在……不论是经典著述、长篇大论,抑或巧思短文、灵感的火花……似乎,互联网承载和传播了这个星球上人类的所有智慧。然而,一个简单的事实让信息携带智慧流通全球还依然只是一个梦想——即:不同语言之间无法直接沟通。为解决这个问题,机器翻译随科技的发展应运而生,并不断发展。

  前面的废话

  曾经有一个梦想——希望能轻松读懂英文,至少在看一篇没有太多文学色彩的技术文章时,可以明白个八九不离十。

  也曾经不自量力——在借助机器翻译求学外文失败之后,试图研究机器翻译应当如何进行……

  世界发展真快,失望、怅然与自知无能为力的几年虚度,曾经的渴望和若有所研的心得早已抛诸天外。直至几年前,Google 推出了翻译服务,经初步试用,如果要求不高的话,感觉翻译效果也算是不错!(注:不能用专业的人工翻译和机器自动翻译比质量)。免费使用,及时快速,在信息飞速流动的互联网时代,有这样的免费服务已经很知足了。(其实很想说一声谢谢!)

  机器翻译的质量

Google翻译

  一个显而易见的前提是,机器翻译不可能与人工翻译相比。在目前的技术条件下,一般认为机器翻译如果有 60% 以上的准确率就基本可用了。目前机器翻译已经发展到“基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性”(摘自维基百科“机器翻译”词条)。从对 Google 翻译服务的试用来看,其对简单短句、短语、以及习惯用语的翻译都还不错,翻译包含了对句法词序的转换处理。

  那么,现阶段我们是否可以期待计算机对普通长句也有比较好的翻译效果呢?

  简单的答案是:No!

  复杂一点的答案也许是:我们可以有这样的期望吗?

  或许,我们可以有这样的期望。但我们需要作出一些付出!请细想一下,我们通常所见的那长长的句子,它是否可以被分解为多个短句呢?如果短句与短句之间有语法上的主次关系,它们是否可以被包装成一个父级的简单句呢(即视短句仅为一个占位单元)?如果答案是肯定的,那长句就可以拆解封装成简单句的组合了(可能有多层)。

  这是无意中尝试的一个例子,请看:

  原文:“为什么计算机合成语音多数是女声。”
  Google 译成英文:“Why do the majority of female computer synthesized speech.”
  用该译文译回中文:“为什么大多数女性电脑合成语音。”

  一正一反两次互译,含义已经相去甚远了。但我们尝试一下分解策略:

  中文分解                Google 译文
  -------------------------------------------------
  1. 计算机合成语音       Computer-synthesized voice
  2. 女 声                Female voice  // 注:原译为 Girl,应是个 Bug,中间空一格即可
  3. 多数                 Most
  4. 为什么 X 是 Y        Why X is Y   // X 和 Y 是占位符,此处是取其语法翻译

  组合后译文:“Why <Computer-synthesized voice> <Most> is <Female voice>”
  去掉尖括号:“Why Computer-synthesized voice Most is Female voice.”
  用该译文译回中文:“为什么电脑合成的声音大多是女性的声音。”

  效果如何! 有种惊艳的感觉吧?

  再来一句试试:
  原文:“互联网以英文为主是不争的事实,”
  Google 译成英文:“Internet in English is an indisputable fact,”
  用该译文译回中文:“在英国的互联网是一个不争的事实,”

  中文分解                Google 译文
  -------------------------------------------------
  1. 互联网               Internet
  2. 英文                 English
  3. XX 以 YY 为主        XX to YY-based
  4. XX 是不争的事实      XX is an indisputable fact

  组合得译文:“Internet to English-based is an indisputable fact,”
  用该译文译回中文:“以英语为主的互联网是一个不争的事实,”

  与直接回译的差别是不是有点大,与原文的意思是不是基本符合?

  看到这里,是否,我们真的可以有某些期望? 或许,这是一个需要努力但并非太多努力就可接近的目标! 请抱持思考和理性批评的心态看待下面的解说。

  长句拆解,短句组合构造长句译文

  一般来说,对于具有较深文学色彩的文字,因大多包含隐喻,上下文环境依赖等,机器翻译十分困难。但对于普通的文法较为规范的描述性文章(如技术类说明书,使用手册等),如果句法足够简单,则机器翻译的表现已很不错。

  如上所见,如果人工稍作参与,通过长句分解,机器翻译整篇文章或许也会有比较理想的结果。这里,我们需要对长句进行逻辑判断和拆解,如果必要,构造父级的句法特征句(如“XX 以 YY 为主”,XX 为占位符,代表相应子句,用于语法转换),则人工参与的并不多,但效果却会很大。

  对原文进行拆解标识的意义

  或许,你认为人工参与机器翻译并不划算,太低级,理想的机器翻译应当是完全的无人工自动执行。确实,这是人人期盼理想状态,但那离现实似乎太过遥远(个人看法)。

  表面上看,一旦人工参与,任何机器无法解决的智能问题都会化解,所以,人工参与不是解决问题的办法——这仅是简单地看问题。

  我想说,这观点低估了人脑智能的复杂性,对机器智能寄予了过高的期望。另外,这也忽略了一个重要事实,即——分析拆解工作其实是“一次性”的。当我们对原文做好语法标识后,就可以撒手不管它将要被翻译到何种语言了。注意!这里没有指明何种语言,因为——这适用于翻译到任何一种语言——所作与目标语言无关,标识仅仅是说明了自己。

  还有一点,精通一门语言易,精通多门语言难,通晓一门语言的人很多,通晓多门语言的人很少。任何一个人,只要母语多少有些修养,就可以标识用母语写的文章,从而帮助作者的文章得到翻译,或作者自行标注,让自己的文章可以直接被翻译。人机结合,这对翻译人员的门槛降到了最低——好宽广的群众基础啊! 梦想,是否有实现的可能?

  技术性的个人研究分享

  很浅薄,请不吝赐教……

  从上面的分析看,借助于 Google 翻译服务的 API,现阶段就可以编写并不复杂的程序,实现可行的通篇文章机器翻译,但前提条件是,原文需要被适当标识。个人认为标识文章的语法应当尽量简单,以利于大众化普及,由于机器翻译服务已有初步的智能,简单标识已经可行。

  笔者设计的标识逻辑有 3 层,共 7 个标识字,如下:

      顶层: 子句,标识字 clause
      中层: 短语,标识字 phrase,包含常用习语、俗语、俚语等
      底层: 单词,标识字 名词 word-n,动词 word-v。
     
      另外两个特殊词,人名 names,术语 term,一般情况下保持为不翻译,需标识出来。

  如果仅针对长句拆解,底层的单词标注其实已经不需要,这里加入是方便将来机器对短句进行更加准确的判断。

  标识例子1(Html 代码,用 class 属性表达):
      <span class="syntax">
          <span class="phrase">为什么</span>
          <span class="clause">
              <span class="word-n">计算机</span><span class="word-v">合成</span><span class="word-n">语音</span>
              // 注:这一句其实不必拆解,它可能已成为一个术语
          </span>
          <span class="clause">
              多数<span class="word-v">是</span><span class="phrase">女声</span>
          </span>,
      </span>

  标识例子2
      <span class="syntax">
          <span class="clause">其中一个<span class="word-n">答案</span></span>
          可能在于
          <span class="clause">
              人类的<span class="phrase">生物机制</span>
          </span>。
      </span>

  注:
  1. 代码最外围用 syntax 包含,表示内部为语法标识。
  2. 并非所有的文字都需要标注,将句子切分以表达出逻辑关系即可。
  3. 一些介词、助词之类的字是语法标志词,不需要标注。

  抛砖引玉,期待探讨!谢谢。

  来源:读者原创投稿,作者:乙謌



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/2882.html
  • 文章排行:
  • 1.鱿鱼王子
  • 荒唐之极,不知道月光为什么会放上如此没有技术含量的文章。就算作者天真到认为这么简单的方法就能解决机器翻译的问题,也该在发表这类文章前先学学相关的基础知识吧?

    任何学过自然语言处理的都应该知道语义网、语法树的概念,这里提的不过是简化了的语法树罢了,不仅没有考虑语序、时态、多义性等问题,甚至连一开始的英文翻译都是错的。
    为什么 X 是 Y=Why X is Y??
    就算按最简单的情况考虑,也应该是Why is X Y
    例如:为什么他是猪=Why is he a pig

    稍微复杂一点的状况,LZ的模型就可以去死了。
    为什么你是猪=Why are you a pig 人称变化
    为什么你们是猪=Why are you pigs 注意单复数的变换不是和中文一一对应的
    为什么你曾经是猪=Why were you a pig 时态变化
    天知道为什么你是猪=God knows why you are a pig 连语序都变了

    除此之外,还有需要联系上下文才能解释的多义性问题,习惯用法问题,最好的语义网和语法树都可以去死了。更不用说语言本身还一直在发展、变化,例如
    这是神马世道=???

    自然语言处理太困难了,简单地划分从句、标记语法结构、甚至是语义,根本不可能解决问题。别小瞧了全世界的专家,并不是所有的专家都是脑残。
    老师 于 2011-11-11 11:41:04 回复
    这位[鱿鱼王子],装啥大瓣蒜,跑这里来找技术含量
  • 2011/11/9 20:04:02   支持(37)反对(17) 回复
  • 2.闲着没事的退休老人
  • 好意劝告各位伪专家们不要基于貌似高深而的理论设想乃至假设批驳出自经验和实际的可能在你们看来简单浅白的操作性构想与建议如此必将有助于尔等精神健康与个人福祉
  • 2011/11/11 11:36:55   支持(16)反对(7) 回复
  • 3.ChiNvo
  • 拆句的解决方案很不错。看了下面那些“批斗综合症”患者的回复,心冷了,折篇文章只是在探讨一个算法,与是否最终可行以及用不用人文的方式无关。
    月光也是人,难道就不能偶尔“妄想”一下?
    至少,我认为,创新,离不开“妄想”。
  • 2011/11/11 14:38:22   支持(18)反对(9) 回复
  • 4.橘子熟了
  • 目前机器的智能化还有限,机器翻译应该总会出这个那个的问题,我就试过 中文->法文->德文->日本->英文->中文 这个循环翻译,到最后翻译出来的中文有些和原文想比是一塌糊涂~
  • 2011/11/10 0:50:25   支持(10)反对(5) 回复
  • 5.google之后
  • -----相信会有一天,google翻译能达到90%的效果。
    google以统计模型起家, 不可能彻底转型,靠google希望不大。
  • 2011/11/11 14:45:23   支持(6)反对(1) 回复
  • 6.zhlsk
  • google翻译的荷兰语、德语、法语与英语间互相翻译做得非常不错,至少意思是翻译得正确。中文与西方语言互翻,要做准确难度非常大。
  • 2011/11/9 19:27:12   支持(5)反对(2) 回复
  • 7.鸡啄米
  • Siri如果能够做的再精准一些,谷歌翻译更能,因为谷歌翻译应该比Siri容易的多。
  • 2011/11/10 11:01:00   支持(6)反对(3) 回复
  • 8.SB
  • 上次用翻译写的信给外国朋友,害的我差点跟她分手...
    smart 于 2011-11-10 17:57:24 回复
    17楼的真强悍
  • 2011/11/10 15:37:37   支持(5)反对(2) 回复
  • 10.晨露博客
  • 机器如果那一天能和人类一样了,估计就会有人和机器人大战了。。
  • 2011/11/9 17:48:51   支持(5)反对(4) 回复
  • 11.lukas
  • 机械只是程序,需要人为设置,恐怕就很难理解人类的语言敢情了。
    ccaiai 于 2011-11-9 19:29:47 回复
    是啊,还有语气。
  • 2011/11/9 19:06:45   支持(7)反对(6) 回复
  • 12.仟亿超人
  • 谷歌翻译帮了不少的忙,确实得感谢谷歌
  • 2011/11/9 19:00:00   支持(6)反对(6) 回复
  • 13.敏敏知音
  • 可以知道大概的意思,知道词语!
  • 2011/11/10 7:12:31   支持(3)反对(3) 回复
  • 14.广告衫定制
  • 我觉得从英文翻译成中文非常难以理解
    但是从中文翻译成英文就可以理解了~~~
  • 2011/11/10 9:12:04   支持(4)反对(4) 回复
  • 15.随梦
  • 相信会有一天,google翻译能达到90%的效果。
  • 2011/11/10 9:23:40   支持(4)反对(4) 回复
  • 16.太平鸟女装
  • 机器翻译的确是很机械,不过谷歌应该会不断完善的
  • 2011/11/10 20:23:48   支持(6)反对(6) 回复
  • 17.CCNA
  • 我感觉google的翻译还是不错的,但翻译之后你稍微思考变换一下就可以了
  • 2011/11/13 11:53:15   支持(3)反对(3) 回复
  • 19.1465977214119
  • hello ,
    楼主,你的span用法不对吧,Beikao帝(Http://Www.Beikaodi.Com/word/span.html)中的例句好像不是你这么用的
    time:3:53:34 PM
  • 2016/6/15 15:55:02   支持(0)反对(0) 回复
  • 20.apple
  • 有点儿语义网自然语言切词处理的味道了啊.
  • 2011/11/9 18:28:50   支持(6)反对(7) 回复
  • 21.fox
  • 作者基本上很迷信GOOGLE
    事实上,微软的bing在线翻译用作者的句子来试验效果好的多
    实例如下:
    BING翻译结果:
    为什么计算机合成语音多数是女声。
    Why is computer synthesized speech most girls.
    为什么计算机语音合成大多数女孩。

    互联网以英文为主是不争的事实,
    Internet in English as the primary is an indisputable fact that,
    英语作为主要的互联网是不争的事实,

    可以看到,BING对中英文互译的把握要好的多,这都不需要所为什么人工的修正就这可以达到这样的效果,所以本质上来讲就是google自己的技术问题而已.

    一个简单的技术问题,别用这么人文的方式来讲,好恶心的
    martixingwei 于 2011-11-12 19:00:46 回复
    Google翻译对于 为什么计算机合成语音大多为女声? 的翻译是:
    Why are computer-synthesized voice mostly female?
    这句话基本是对的。可能是部分词汇对于逻辑顺序的判断有影响。
    Bing对于 互联网以英文为主是不争的事实。 的翻译是
    Internet in English is an indisputable fact.
    不知fox是如何得到那个结果的?
    Google主要依靠的就是经过大量网友描述的语言模型,所以翻译结果很容易由于大量的未经手动更正的错误翻译而受到影响。
    比如女声的那个句子,primarily就是点击后看到的第一个单词
  • 2011/11/9 20:19:06   支持(14)反对(15) 回复
  • 22.清风
  • 语义问题是一个世界性的难题!加上文化及历史等因素,个人认为这不可能靠机器解决。
  • 2011/11/10 13:02:06   支持(4)反对(5) 回复
  • 23.Flash技术
  • 语言的翻译和文化背景也有很大的联系
  • 2011/11/12 10:54:43   支持(5)反对(6) 回复
  • 25.bush
  • 這是分詞學硏究的問題。中文分詞和英文分詞差別明顯,目前國內的分詞硏究進步很大,但還不能滿意。也許今後能有中英互譯的新算法,但是 Google 翻譯是一種多對多的轉換框架,可能他們更願意用通用型的分詞算法。
  • 2011/11/9 19:29:25   支持(4)反对(6) 回复
  • 26.delanden
  • 一直都用英德互译的路过……

    表示中英互译只用GOOGLE查单词拼写……机器翻译是永远不能替代人工的……
  • 2011/11/13 3:34:58   支持(4)反对(9) 回复
  • 27.不纯粹文人
  • 这是NPL的知识,貌似这里懂的人不多,少点这类文章吧。
  • 2011/11/9 19:30:04   支持(5)反对(11) 回复
  • 28.lunar
  • 看到正文我有点失望.反驳的意愿很强烈.Google的确做了不少工作,但对于机器翻译来说 技术上并没有本质的跃进.文章里这种依靠简单模型 对于复杂的语言来说, 简直太小巫了.
    我更期待的一种翻译方式 实现一个中间模型X,这个模型覆盖所有人类能表达的含义. 然后语言A->X. 然后X->语言B. 各个国家负责实现自己的语言与这个中间模型之间的翻译. 当然这个模型X的实现是不太可能的事情. 人类能表达的含义太多了. 况且僵硬的文字 并不包含语气.总之各种问题. 在人类变态的语言没有好的改进, 计算模型没有好的改进之前,机器翻译应该不会有什么质变.
  • 2011/11/10 1:29:40   支持(3)反对(14) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.