DeepL & Google Translate 翻译哪家强?

DeepL & Google Translate 翻译哪家强?-即刻学术

无论是在工作、度假还是在专业翻译中,大多数人都在某些时候使用过机器翻译。问题是使用哪个引擎。各个供应商之间在质量和隐私方面有很大的差异,看看谷歌翻译和DeepL 引擎就知道了。

像谷歌翻译这样的机器翻译引擎曾经是一个笑话,因为他们想出了很多糟糕的翻译,但近年来机器翻译引擎的输出有了很大的改善。

像谷歌翻译这样的工具变得如此受欢迎并不奇怪,因为它们使人们比以往任何时候都更容易和更快地与世界各地的人沟通和工作。各种机器翻译引擎现在已经在市场上确立了自己的地位,这也不奇怪。但是,它们之间的主要区别是什么,例如在其输出的质量和提供的数据安全方面?让我们仔细研究一下两个最著名的机器翻译引擎。

谷歌翻译

你可能还记得你第一次试用谷歌翻译时的情景--那可能是在2006年,因为那是它推出的时候。你很有可能得到一些有趣的结果。以德语单词 "Kernseife "为例。"Kernenergie "意味着核能,而 "Seife "意味着肥皂,那么谷歌翻译做了什么?你猜对了:它得出了 "核肥皂"。

尽管想象一下这可能是什么很有趣,但更有趣的是为什么会发生这些错误。谷歌翻译背后的技术使用统计方法来翻译文本,这意味着它根据语言使用模式逐字翻译,而不考虑上下文。而这种缺失的上下文使得它的翻译不正确或完全无意义。但那是在当时,现在使用谷歌翻译支持的103种语言进行翻译时,像这样的错误已经很少了。谷歌已经更新了它的工作方式,对于某些语言,它使用了神经网络,这是一种人工智能的形式,可以被认为是我们大脑中神经系统的复制。大量现有的在线数据被用来训练神经网络,它存储了各种背景和语言信息。这意味着神经系统比统计系统更善于学习,这也使其在翻译过程中更加灵活--对于某些语言对,其结果是惊人的好。

但是,尽管谷歌翻译对较短的文本经常产生非常好的结果,但它离100%的可靠性还有一段距离。而更大的担忧是数据安全。看看谷歌的服务条款就知道了。

"当你向我们的服务上传、提交、存储、发送或接收内容时,你给了谷歌(和那些与我们合作的人)一个全球许可,以使用、托管、存储、复制、修改、创建衍生作品(例如那些由翻译、改编或其他我们所做的改变而产生的,以便你的内容能更好地与我们的服务配合)、沟通、出版、公开表演、公开展示和分发这些内容。"

简而言之,这意味着数据是不安全的。因此,如果你需要翻译敏感的商业信息,请避开谷歌翻译。

DeepL

DeepL 机器翻译引擎自2017年由一家位于科隆的初创公司推出以来,已经声名鹊起,该公司声称它可以击败谷歌和必应等大公司。而且他们是对的:多项测试表明,DeepL 产生的翻译比谷歌翻译更好。

但是,是什么让它脱颖而出?

该机器翻译引擎有两个主要版本:一个是仅限于5000个字符的免费版本,另一个是每月20欧元的专业版本,允许用户将多达一百万个字符翻译成德语、英语、法语、西班牙语、葡萄牙语、意大利语、荷兰语、波兰语和俄语。真正引起各地翻译机构注意的是,专业版具有API和CAT工具的软件插件。

就如何使用谷歌翻译和DeepL,起初看起来没有什么区别:它们都有两个输入字段,一旦要翻译的文本被复制或输入一个字段,翻译就会出现在它旁边的字段中。虽然目前谷歌翻译可以翻译超过100种语言,而DeepL,但后者允许用户突出显示个别单词以查看替代翻译。

这两个引擎的真正区别在于它们使用的技术。两者都使用神经网络,但谷歌翻译(像大多数其他机器翻译引擎一样)使用的是所谓的递归神经网络。相比之下,DeepL 使用卷积神经网络(CNN),它对较长的、连续的单词序列产生更好的全面结果。虽然CNN并不完美,而且到目前为止还没有被其他机器翻译供应商使用,但它们能更好地并行处理文本,并因此产生更好的翻译结果。

DeepL 所使用的CNN已经使用其自己的在线词典Linguee的数据库进行了训练。Linguee搜索网络上的翻译,将它们添加到其数据库中,并使用算法和用户反馈来评估它们。DeepL 背后的公司没有透露他们的机器翻译引擎到底是如何弥补CNN的弱点的。

数据安全如何?
我们已经提到了谷歌翻译的服务条款如何明确指出数据是不安全的,但是DeepL 呢?我们的经验是,免费版本对于个人使用绝对没有问题。但与谷歌翻译一样,免费版不适合商业使用。虽然它符合欧盟数据保护法规(毕竟DeepL,总部在德国),但只有为专业版付费的用户才能在传输数据时获得端对端加密,并在翻译后选择删除其源文本。

DeepL 的专业版在本质上适用于商业翻译。然而,它的输出还不如人类产生的翻译好。它的缺点在风格重要的文本中特别明显,如创意营销文本,直译几乎肯定行不通。而以重要的安全或法律信息(技术文件、危险信息等)为特征的文本应该留给专家:当涉及到保证机械用户的安全,避免人身伤害和损失索赔时,不能允许发生翻译错误。因此,机器翻译应始终与机器翻译输出的人工更正(后期编辑)一起使用。

好的翻译机构将熟悉机器翻译的优点和缺点,并能利用它使你受益。因此,在真正重要的时候,请与您的翻译机构的专业人士交谈。


这里一段摘自 HotCloud 的论文为例:

Consensus protocols are used to provide consistency guarantees over replicated data in a distributed system, and allow a set of replicas to work together as a coherent group. Raft is a consensus protocol that is designed to be easy to understand and implement. It is equivalent to Multi-Paxos in fault-tolerance and performance. It uses a leader based approach for coordinating replication to a majority. The leader regularly informs the followers of its existence using heartbeats. All reads and writes go through the leader to ensure strong consistency. However, read-heavy workloads increase load on the leader since the followers in Raft are maintained as cold standbys. Since the algorithm itself guarantees replication to at least a majority, why not exploit this fact to serve strongly consistent reads without a leader? We propose mechanisms to use quorum reads in Raft to offload the leader and better utilize the cluster. We integrate our approach in CockroachDB, an open-source distributed SQL database which uses Raft and leader leases, to compare our proposed changes. The evaluation results with the YCSB benchmark illustrate that quorum reads result in an increased throughput of the system under read-heavy workloads, as well as lower read/write latencies.

谷歌家的翻译结果:

共识协议用于为分布式系统中的复制数据提供一致性保证,并允许一组副本作为一个一致的组一起工作。 Raft是一种共识协议,旨在易于理解和实施。它在容错和性能方面等效于Multi-Paxos。它使用基于领导者的方法来协调大多数复制。领导者会定期通过心跳通知跟随者其存在。所有读取和写入都要经过领导者,以确保强大的一致性。但是,繁重的工作负载会增加领导者的负担,因为Raft中的跟随者被保持为冷备用。由于算法本身可以保证至少复制大多数,因此为什么不利用这一事实在没有前导的情况下提供高度一致的读取结果呢?我们提出了在Raft中使用仲裁读取的机制,以减轻领导者的负担并更好地利用群集。我们将我们的方法集成到了CockroachDB(一个使用Raft和Leader租约的开源分布式SQL数据库)中,以比较我们提出的更改。 YCSB基准测试的评估结果表明,在大量读取工作负载下,仲裁读取导致系统吞吐量增加,并且读取/写入延迟降低。

Deelp的翻译结果:

共识协议用于为分布式系统中的复制数据提供一致性保证,并允许一组复制体作为一个连贯的团体一起工作。Raft是一个共识协议,它被设计为易于理解和实施。它在容错和性能方面与Multi-Paxos相当。它使用一种基于领导者的方法来协调复制到多数人。领导者定期用心跳声通知跟随者它的存在。所有的读和写都要经过领导者,以确保强一致性。然而,由于Raft中的追随者是作为冷备用的,所以重读工作负载会增加领导者的负荷。既然算法本身保证了至少大多数人的复制,为什么不利用这一事实,在没有领导者的情况下提供强一致性的阅读呢?我们提出了在Raft中使用法定人数读取的机制,以卸载领导者并更好地利用集群。我们在CockroachDB中整合了我们的方法,这是一个开源的分布式SQL数据库,使用Raft和领导者租赁,以比较我们提出的变化。对YCSB基准的评估结果表明,在重读工作负载下,法定人数读取会增加系统的吞吐量,并降低读/写延迟。

个人感觉而言,谷歌翻译更接近书面语,Deelp 的翻译显得没那么严禁。

虽然,机器翻译已经越来越成熟,但要深入理解还是得看英文原版。

最后,提供一个 Deelp 2.4 的网传 crack 版本。个人测试了,的确是pro 但是还是有 5000 字数限制,不知道怎么搞的。

下载权限

查看
  • 免费下载
    评论并刷新后下载
    登录后下载

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您有每天免费下载所有资源次的特权,今日剩余 已取得下载权限

为TA充电
共{{data.count}}人
人已赞赏
学术频道科研工具

Zotero 教程

2021-5-5 10:31:43

硬件小知识

深入探索SSD中DRAM缓存的作用和影响

2021-4-27 12:36:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索