Web2.0与日语翻译

从Google的崛起说起

今年6月18 日,雅虎宣布,特里·塞梅尔辞去雅虎首席执行官职务,由公司创始人之一杨致远接任。特里·梅塞尔走得不太风光。至少,中国的新闻都把“重新出山”的杨致远形容成“拯救”雅虎的救世主。与雅虎的低迷形成鲜明对比的是,风头正盛的Google。

雅虎为什么败给Google(论胜败似乎为时过早,但从目前来看至少是这样)?Google是靠搜索起家的,雅虎是老牌门户网站。Google取代雅虎,其实是搜索引擎取代门户网站。今天大家打开浏览器,首先打开的应该是百度或者Google吧。

门户网站也是一种检索信息的手段。但是它与搜索引擎的检索有何不同?

门户网站检索信息时,采用的是目录式的检索方法。我们通过门户网站找到需要得信息,必须先知道它属于哪一个类别,然后从这个类别找到它属于的子类别。门户网站将它所收集的网页归类,靠得是人工检阅。但是随着网页数量的猛增,人工检阅渐渐地显示了其局限性。于是以Google的Spider为代表的机器人检索技术就应运而生。机器人检索是使用计算机程序将网页内容自动收集起来的。当我们输入关键词时,与该关键词相关的网页就显示出来了。

但是机器人检索也有其弊端。有的时候,如果你输入某个关键词,结果却得到一大堆与该关键词并没有多大联系的网页。Google使用一种叫做Pagerank的机制很好地解决这一问题。也就是说它使用一种算法,使与关键词关联度最高的网页排在最前面。

googlebomb

尽管这样,这种机制也可能被恶意利用(google炸弹):一个有名的例子是,如果在google里搜索“miserable failure”一词时,排在首位的居然是布什的介绍网页和白宫的主页(现在google已经采取对策)。

机器人检索的难题

机器人检索还有一个难题:检索图片。

首先,机器人(程序)不认识图片。这也是许多网站为了防止机器人恶意注册,要求输入以图片形式显示的验证码的缘故。要检索到图片,您必须先告诉计算机,这张图片的内容。比如说,您想通过“苹果”两个字检索到苹果的图片,您就得先告诉机器这是“苹果”。

但是,又有一个问题,如果您只告诉它这是“苹果”,当您用“apple”来检索的时候,它还是不会出现。当您用“水果”来检索的时候,它也不会出现。

只有一个办法:那就是事先在苹果这张图片上贴上标签(tag):“苹果”、“水果”、“apple”“リンゴ”“富士”“红色”“甜”……毫无疑问,这个工作还得需要人工处理。

事实上,除了图片,为了便于检索,文字等信息也开始使用标签。比如博客里面的标签(tag)。

贴标签其实是使用人工将信息类别化。当然,同一个信息,可能被不同的人贴上不同的标签。这种分类叫做Folksonomy(公众分类法)。被贴上不同的标签的信息,可以说博采众人的智慧,这被叫做Collective Intelligence(中文无定译。有译作“集体智能”。日文叫做「集合知」、比较贴切。)

跟机器人检索一样,Folksonomy、Collective Intelligence也是Web2.0的关键词。许多被认为是web2.0的服务,如博客、SNS、社会书签(如del.icio.us)、网络百科辞典(Wekipedia),网络相册分享(如Flickr)、网络视频分享(如Youtube)等,都渗透了这种理念。

机器人翻译的难题

机器人翻译遇到的难题与机器人检索相似。

举个例子说:你现在给机器人右边的图片,告诉他这是个“苹果”。现在你问他要什么,它告诉你这是“苹果”。你如果再拿一个青苹果放在一起,问他要什么,他可不会告诉要“那个红的”。 apple

翻译面临的问题一样。正如上面的图片在不同场合(也可以成为语境)表达不同的意思一样,同一个词,在不同的语境中也有不同的意思。机器人翻译的困境就在于

  1. 在不同的语境中的意义选项并不明确。
  2. 即便明确,也不知道如何取舍。

第二个问题似乎无法解决,这也是机器人不能代替人,而只能辅助人翻译的原因。

但是,第一个问题可以可以借鉴Web2.0的理念得到解决。

1,给每个词都贴上意义标签。

2,将这些标签按照①常用程度②该词与句子中某个特定的词的关联、进行排序。

比如说“紧张”一词,可以给贴上“緊張”“忙しい”“激しい”“差し迫った”“逼迫”等标签。当句子中出现“我”的时候,这个时候标签“緊張” “忙しい”等词的优先度提高排在最前面,而当句子中出现“供应”的时候,“逼迫”的优先度提高,排在前面。

当我们检索的时候,可以这样检索:关键词“紧张”,副关键词“我”。然后检索结果就出来:“緊張”“忙しい”排在最前。

如何给词贴标签?这个事情跟给图片贴标签一样:需要人来做。但是靠单个人的力量是无法完成的。我们需要众人都来参与,形成Collective Intelligence。

关于梦苑工作室

PR





inserted by FC2 system