回复: 加拿大移民新生活日记 Blog 连载
SilverCAT项目的中文技术介绍
SilverCAT 中文简介
第一部分 SilverCAT项目介绍 (本文)
第二部分 SilverCAT 项目商业计划 (另文阐述)
The SilverCAT Project 是什么?
新一代的基于云计算的在线多语言计算机辅助翻译平台. 它从以下多方面为翻译行业带来革命
流水线式的团队协同工作系统 vs 个人作坊
在线交易平台, 将客户,翻译个人和翻译团队联系起来, 进行信息对等的公平交易. 将交易成本和风险降到最低, 利润空间最大 vs 传统的翻译公司机构
全球共享的统一翻译记忆数据库. 云计算的强大能力提供高效的电脑辅助翻译算法. 降低对翻译人员技术水平的要求, 提高工作效率, 提高准确度和可靠性. vs 手工作坊式的个人知识积累.
全面使用最新的电脑技术成果, 从技术上领先对手1-3年.
翻译行业现状和电脑和网络应用
翻译是一个古老的行业. 自从不同语言文化的人类开始交流, 翻译这个行业就出现了. 多年以来, 电脑和互联网的发展也深入了翻译行业. 世界各地的翻译人员在不同程度上都在使用电脑作为工具帮助提高工作效率. 各种各样的机器翻译软件和计算机辅助翻译工具正在广泛使用着. 但是翻译这个行业的基本运作方式没有本质的改变. 绝大多数时候仍然是以自由职业者为主的分散的手工作坊式的模式. 在这种模式下, 客户将文档提供给翻译公司, 翻译公司松散地联系很多个体翻译人员, 将工作分派出去. 翻译各自在自己家里完成工作, 然后返回翻译公司. 翻译公司进行校对和基本修正后提交给客户. 客户再进行修改, 再返回翻译公司或者翻译本人. 这样的流程耗时耗力, 效率低而且项目管理难度大. 虽然电脑和网络技术已经应用, 但是主要还是用在通信和传输文件方面, 并没有真正实现如同其他大工业生产一样的流水线方式的革命. 当年美国人Henry Ford就是因为发明了流水线汽车生产线是的美国一跃成为汽车大国. 在当今社会,很多行业都已经形成了流水线式的团队协作模式. 为什么翻译行业这个过程姗姗来迟呢?
主要的原因在于翻译是个人化程度比较高的一个工作. 同样一个句子, 不同水平的人翻译的东西就是很不一样. 翻译本人对行业的熟悉程度, 术语的了解程度, 以及语言表达能力都关系着译文的质量. 先进的计算机辅助翻译工具基本是基于Translation Memory(翻译记忆, 简称为TM)技术的. 简单地说就是自己曾经翻译过的句子保存进入数据库. 下次再碰到同样或者类似的句子的时候, 以前的翻译记忆就可以直接从数据库中取出来不用重新输入. 这种情况用于技术文档或者翻译过旧版本再翻译新版本的时候重用率可以很高. 因此被广泛的应用. 现有的TM系统都是基于个人或者小团队的, 也就是说翻译人员或者翻译公司需要很多年的积累才可以建立一定规模的TM数据库. 一旦遇到自己的库里面没有的内容, TM就基本上派不上用场了.
除了TM的限制以外, 目前的很多翻译工具都是基于Word等本地安装的字处理软件设计的. 翻译人员需要在本地拷贝上进行编辑修改. 这样的话就无法实现网络协作. 一旦发生多个版本的冲突, 很难进行版本融合.
有时候为了提高效率, 一个项目的多个文档会交给多人翻译人员一起工作. 但是由于没有一个有效的网络协作平台. 甲翻译的术语和乙翻译的可能有不同. 如果合并起来会产生前后文不一致的问题. 一旦这样的情况发生, 必须进行二次甚至于三次修改. 事实上反而延误了时间, 降低了产品质量.
网络协作平台
使用网络化的协作平台, 这样的问题就可以迎刃而解.
在网络平台上, 翻译不需要使用本机上的任何东西. 就是一个网络浏览器即可. 所有文档, 工具, 翻译记忆数据库都在网络平台上. 翻译需要的就是一个脑袋和两只手.
由于文档时在网络上存放, 不存在多个拷贝多人编辑的可能. 任何人的编辑会立即显示在其他协作人员的屏幕上. 而且通过网络协调, 每个人会有自己的编辑区域, 避免重复工作. 项目管理人员可以实时看到工作进度和工作质量. 发现错误可以及时纠正避免到交稿期限才发现错误.
在团队协作工作情况下, 所用的术语和翻译记忆都是共享的. 也就是说只要一个人最一个术语进行了翻译, 这个术语的翻译会自动在整个团队共享, 并自动翻译自动检查. 如果校对者或者行业专业发现这个术语有更好的翻译时, 只需要改动一处, 所有的地方都会自动更改. 不会出现前后文不一致的情况.
统一共享翻译记忆库
在网络协作平台上, 统一共享的翻译记忆库就成为可能. 不仅仅是一个项目, 一个团体, 事实上最有价值的是一个跨越全球的云规模的翻译记忆库. 全世界的翻译都可以共享同样一个巨大的语料库. 只要世界上有人曾经翻译过一个类似的句子, 后来者就可以直接采用. 由于这个数据库的规模是巨大的, 因此翻译命中率可以十分的高. 通过一段时间的运行和积累, 可以预测到绝大多数的翻译可以自动完成, 稍加人工干预即可得到高质量的翻译产品. 工作效率可以大大提高. 同时对翻译人员的素质门槛也可以大大降低. 以往需要经过几十年积累才可以算是高手翻译, 现在初出校门的翻译就可以借助这个巨大的翻译知识库达到类似的水准. 这样可以入行的人数就大大增加. 而且很多业余的双语的普通人也可以加入这个行业, 为翻译流水线提供了大量的人力资源. 从而在很大程度上降低了翻译的成本.
云计算使这一切成为可能
网络协作平台和统一共享记忆数据库的概念很吸引人, 那么为什么这麽多年来并没有哪个公司将这一产品推出呢? 这里面主要是技术瓶颈. 建立这么大规模的数据库和协作平台不是以往的技术架构可以承担的. 这一切都在云计算的时代才成为可能. 云计算进入商用也只是近一年来的事情. SilverCAT算应该是第一个利用云计算技术用于翻译软件行业的项目了.
核心的技术是智能语言匹配算法
数据库内容足够多会产生一个明显的副作用. 就是一个语句的翻译可能不同的人不同的时间给出不同的版本. 这些不同的版本在当时那个文章中应该是准确的, 但是是否放在现在这个特定的文章中是否仍然匹配就很难由计算机来判断了. 以往的方式是将搜索到的结果提供给人类进行判断. 这种方案在数据库规模小, 而且大部分数据都是由本人曾经输入的情况下是可行而且有效的. 但是一旦到了云规模的数据库, 这个方案就不好用了. 因为可能的选项太多了, 如果都提供出来给翻译去选择那还不如不要提供. 必须有一个智能的语言匹配算法将不太可能的选择想去不过滤掉, 将最可能的选项给予最高评分放在最前面. 仅提供很少数量但是最大可能的选项给翻译人员去选择. 一旦翻译人员做出选择, 这个选择结果要反馈回算法以便于算法自我优化以便于提高以后的准确程度.
这种"分析-过滤-评分-选择-反馈-优化"的循环是只智能语言匹配算法的方法论, 也是本系统最核心的部分. 事实上是利用大众的选择来对算法进行优化, 从而提高准确度来更好的服务大众. 这就是所谓的"大众智慧".
运营一个平台而不是卖一个软件
在上个世纪, 登峰造极的微软公司依靠销售软件License这个边际效益最佳的方法成就了世界首富. 一时间无数软件公司都按照类似的模式试图和微软进行竞争. 挑战者前仆后继, 但是始终未能撼动微软公司的老大地位. 这一切终于终结在Google的崛起. Google能够成功的第一重要的因素就是它不是按照微软一样的模式去盈利. 也就是说 Google不买软件License, 它卖的是服务.
SilverCAT也是走的"软件即是服务"的思路. SilverCAT不是一个被销售的软件, 它是一个服务平台. 它位于翻译行业的产业链中央. 它将客户, 个人翻译, 翻译团体三者联系起来, 用一种全新的方式从端到端的解决方案.
在SilverCAT系统中, 翻译工作是通过如下方式进行的:
客户上传文档, 提出要求.
翻译公司和个人翻译会得到竞标通知, 参加竞标.
客户根据翻译公司和翻译个人的能力评价历史来进行选择. 竞标成功的个人或者公司组成项目团队.
项目团队中包括各种角色, 包括项目经理, 翻译, 校对, 行业专家等等. 这些人不一定是全职与某个项目, 而是跨越多个项目从而提高时间利用率.
项目团队中的各种角色都工作在SilverCAT平台上. 利用SilverCAT提供的强大的智能翻译辅助算法高效的进行内容翻译.
因为是团队协作平台, 在翻译工作的同时, 校对, 行业专家可以流水线化的进行工作. 翻译产生的错误或者不专业的术语会立刻被发现而不必等到第一稿结束. 校对和行业专家的修改意见可以实时的反馈给团队中所有成员, 并在智能翻译辅助系统的帮助下自动更正并自动避免重复的错误.
由于是流水化操作, 翻译完成第一稿后基本上全部工作就算是完成了. 不需要再有二稿三稿.
翻译任务完成并通过测试后. 客户进行付款. 团队中的个人或者翻译公司按照先前的约定得到报酬. SilverCAT运营商从交易中获取佣金.
客户和团队互相对对方的合作态度和工作质量进行评价.
该项目的所用翻译记忆和术语资料自动保存, 用以优化翻译算法并且为下次类似的项目提供基础知识库.
在如上所述的工作环节中, 文档不需要离开系统, 不会存在多个不同版本的拷贝. 也避免了可能引起的文件内容泄密的情况. 所有文档都是有访问权限管理的. 团队的不同角色和分工也只是能够访问事先制定好的文档的一部分. 甚至可以做到翻译人员翻译的是打乱分割的一些散乱的段落以保证比较高的保密程度.
SilverCAT的核心价值和核心竞争力
新的商业模式
新的云计算技术
利用大众智慧自动调优的翻译算法
巨型统一共享的语言知识库