这篇文章主要探讨了ChatGPT在机器翻译任务中的表现,并对其进行了初步评估。以下是文章的主要内容总结:
-
研究背景:ChatGPT是基于GPT-3.5和GPT-4的智能聊天机器,具备多种自然语言处理能力,包括机器翻译。文章旨在评估ChatGPT在翻译任务中的表现,并与商业翻译产品(如Google翻译、DeepL翻译)进行比较。
-
评估内容:
-
翻译提示:通过向ChatGPT寻求建议,设计了三种翻译提示,发现它们在翻译任务中表现良好,性能差异较小。
-
多语言翻译:ChatGPT在高资源欧洲语言(如德语、英语)上的表现与商业翻译产品相当,但在低资源或远距离语言(如罗马尼亚语、中文)上显著落后。
-
翻译鲁棒性:ChatGPT在生物医学摘要和Reddit评论等特定领域或噪声数据上的表现不如商业系统,但在口语语言上表现出色。
-
-
改进策略:
-
枢轴提示:通过将源句子先翻译为高资源枢轴语言(如英语),再翻译为目标语言,显著提高了远距离语言的翻译性能。
-
GPT-4引擎:随着GPT-4的推出,ChatGPT的翻译性能显著提升,变得与商业翻译产品相当,即使是对于远距离语言。
-
-
分析与结论:
-
自动分析与人工分析:通过自动工具和人工分析,发现ChatGPT在低频词和短句子上表现较差,且容易产生幻觉和误译错误。GPT-4在这些方面表现更好,错误更少。
-
结论:ChatGPT在高资源语言上的翻译表现与商业产品相当,但在低资源语言上仍有差距。通过枢轴提示和GPT-4引擎,ChatGPT的翻译性能显著提升,已经成为一个好的翻译器。
-
-
局限性:研究仅基于少量样本,未来需要更全面的评估,并探索其他翻译能力(如受限机器翻译和文档级机器翻译)。
文章展示了ChatGPT在机器翻译中的潜力,并提出了改进策略,表明其在未来有望成为强大的翻译工具。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目在这里。
摘要
本报告对 ChatGPT 在机器翻译方面的表现进行了初步评估,包括翻译提示、多语言翻译和翻译鲁棒性。我们采用了 ChatGPT 建议的提示来触发其翻译能力,发现候选提示通常表现良好,性能差异较小。通过在多个基准测试集上的评估,我们发现 ChatGPT 在高资源欧洲语言上的表现与商业翻译产品(如 Google 翻译)相当,但在低资源或远距离语言上显著落后。在翻译鲁棒性方面,ChatGPT 在生物医学摘要或 Reddit 评论上的表现不如商业系统,但在口语语言上表现出色。此外,我们探索了一种名为枢轴提示的有趣策略,用于远距离语言,该策略要求 ChatGPT 将源句子翻译为高资源枢轴语言,然后再翻译为目标语言,从而显著提高了翻译性能。随着 GPT-4 引擎的推出,ChatGPT 的翻译性能显著提升,变得与商业翻译产品相当,即使是对于远距离语言也是如此。对 Google 翻译和 ChatGPT 的人工分析表明,使用 GPT-3.5 的 ChatGPT 往往会产生更多的幻觉和误译错误,而使用 GPT-4 的 ChatGPT 产生的错误最少。换句话说,ChatGPT 已经成为一个好的翻译器。
1 引言
ChatGPT2 是 OpenAI 基于 InstructGPT [6] 开发的智能聊天机器,它被训练为遵循提示中的指令并提供详细的响应。根据官方声明,由于对话格式,ChatGPT 能够回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。它集成了各种自然语言处理能力,包括问答、讲故事、逻辑推理、代码调试、机器翻译等。我们特别感兴趣的是 ChatGPT 在机器翻译任务中的表现,尤其是 ChatGPT 与商业翻译产品(如 Google 翻译、DeepL 翻译)之间的差距。
脚注 2: https://chat.openai
在本报告中,我们提供了 ChatGPT 在机器翻译方面的初步研究,据我们所知,这也是自 ChatGPT 发布以来的首次研究。具体来说,我们关注以下三个方面:
-
*翻译提示:ChatGPT 本质上是一个大型语言模型,需要提示作为指导来触发其翻译能力。提示的风格可能会影响翻译输出的质量。例如,在多语言机器翻译模型中,如何提及源语言或目标语言信息很重要,通常通过附加语言标记来解决 [8, 10]。
-
*多语言翻译:ChatGPT 是一个单一模型,处理各种 NLP 任务并涵盖不同语言,可以被视为一个统一的多语言机器翻译模型。因此,我们好奇 ChatGPT 在不同语言对上的表现如何,考虑到资源差异(例如高资源与低资源)和语言家族(例如欧洲与亚洲)。
-
*翻译鲁棒性:ChatGPT 是基于 GPT3 开发的,GPT3 是在涵盖各种领域的大规模数据集上训练的。因此,我们想知道它是否能在特定领域甚至噪声句子上表现稳健。
为了触发 ChatGPT 的翻译能力,我们向 ChatGPT 本身寻求建议,并获得了三个候选翻译提示。通过在中文⇒⇒英文翻译任务上的评估,我们发现候选提示通常表现良好,显示出较小的性能差异。尽管如此,我们采用了表现最好的提示用于研究的其余部分。通过在 Flores-101 测试集上对四种选定语言的翻译进行评估,我们发现 ChatGPT 在高资源欧洲语言上的表现与商业翻译产品(如 Google 翻译)相当,但在低资源或远距离语言上显著落后。在翻译鲁棒性方面,三个鲁棒性测试集的结果表明,ChatGPT 在生物医学摘要或 Reddit 评论上的表现不如商业系统,但在口语语言上表现出色。
此外,我们还讨论了如何改进 ChatGPT 的机器翻译能力。一方面,我们探索了一种名为枢轴提示的有趣策略,用于远距离语言,该策略要求 ChatGPT 将源句子翻译为高资源枢轴语言,然后再翻译为目标语言,从而显著提高了翻译性能。
2 ChatGPT 用于机器翻译
评估设置
我们简要介绍了评估设置,主要包括比较的基线和测试数据。
基线。我们将 ChatGPT 与三种商业翻译产品进行比较,即 Google 翻译3、DeepL 翻译4 和腾讯 TranSmart5。到目前为止,这三种商业系统分别支持 133、29 和 16 种语言的翻译。默认情况下,本报告中的结果来自 2022.12.16 版本的 ChatGPT。对于新结果,我们将相应地标记更新的版本信息。
翻译提示
为了设计触发 ChatGPT 机器翻译能力的提示,我们通过向 ChatGPT 寻求建议来获得灵感。具体来说,我们使用以下提示向 ChatGPT 提问:
提供十个简洁的提示或模板,可以让你进行翻译。
并获得如图 1 所示的结果。生成的提示看起来合理,但格式相似。因此,我们将它们总结为三个候选提示,如表 2 所示,其中 [SRC] 和 [TGT] 分别代表翻译的源语言和目标语言。请注意,我们在 Tp2 中添加了一个额外的命令,要求 ChatGPT 不要在翻译周围生成双引号,这在原始格式中经常发生。尽管如此,它仍然不稳定,例如批量中的句子(多行)偶尔会被翻译成单行。
我们在中文到英文(Zh⇒⇒En)翻译任务上比较了三个不同的候选提示,使用了 Flores-101 的测试集。表 3 显示了 ChatGPT 和三个商业系统的结果。虽然 ChatGPT 提供了相当好的翻译,但它仍然落后于基线至少 5.0 BLEU 点。关于三个候选提示,Tp3 在所有三个指标上表现最佳。因此,我们在本报告中默认使用 Tp3。
多语言翻译
我们选择了四种语言来评估 ChatGPT 在多语言翻译中的能力,包括德语(De)、英语(En)、罗马尼亚语(Ro)和中文(Zh),这些语言在研究和竞赛中都被广泛采用 Wang et al. (); Jiao et al. (2021, ) 和 Bojar et al. (2016); Farhad et al. (2021)。前三种语言来自同一家族,使用拉丁字母,而最后一种来自另一个家族,使用汉字 Fan et al. (2021)。我们测试了任意两种语言之间的翻译性能,共涉及 12 个方向。为了清晰和比较,我们报告了 BLEU 分数以及与 Google 翻译相比的性能提升或下降(即 +/-)。表 4 展示了结果。
翻译鲁棒性
我们进一步评估了 ChatGPT 在 WMT19 Bio 和 WMT20 Rob2 和 Rob3 测试集上的翻译鲁棒性,这些测试集引入了领域偏差和潜在噪声数据的影响。例如,WMT19 Bio 测试集由 Medline 摘要组成,需要领域特定知识来处理术语。WMT20 Rob2 是来自社交媒体网站 reddit 的评论,可能包含各种错误,包括拼写/排版错误、单词遗漏/插入/重复、语法错误、口语、网络俚语等 Michel and Neubig (2018)。
表 5 列出了 BLEU 分数。显然,ChatGPT 在 WMT19 Bio 和 WMT2 Rob2 测试集上的表现不如 Google 翻译或 DeepL 翻译。原因可能是像 Google 翻译这样的商业翻译系统通常需要不断提高其翻译领域特定(例如生物医学)或噪声句子的能力,因为它们是现实世界的应用程序,需要在分布外数据上具有更好的泛化性能。然而,这些可能在 ChatGPT 中无法实现。
一个有趣的发现是,ChatGPT 在包含众包语音识别语料库的 WMT20 Rob3 测试集上显著优于 Google 翻译和 DeepL 翻译。这表明,本质上作为人工智能聊天机器的 ChatGPT 能够生成比这些商业翻译系统更自然的口语。我们在表 6 中提供了一些示例。
3 改进 ChatGPT 的机器翻译
如上所述,ChatGPT 在高资源语言对上的表现可以与商业翻译系统相媲美,但在低资源语言对上仍然表现不佳,尤其是那些远距离语言。那么,一个问题出现了:
我们如何改进 ChatGPT 的机器翻译?
枢轴提示
改进 ChatGPT 机器翻译的第一种方法是利用 ChatGPT 在其他任务中的潜力来辅助目标任务。在这里,我们探索了一种名为枢轴提示的有趣策略,以提高远距离语言之间的翻译质量。与直接在源语言和目标语言之间进行翻译不同,我们要求 ChatGPT 先将源句子翻译为高资源枢轴语言(即默认英语),然后再翻译为目标语言。因此,我们调整了 TP3 提示如下:
请先提供这些句子的英文翻译,然后再提供中文翻译:
如果单个类或两个 VLAN-TDxHopd 隐藏
最好的利润运行;至少有一些恐龙有羽毛,这一理论已经广泛传播,但还提供了纺织品通常无法提供的细节,如颜色和三维排列
802.1in 标准在传输 Z4 GHz 和 50 GHz 上运行。
-
1.Hit was that he had faith in Wi-Fi doorshelf.
-
2.The new only confirms that at least some dinosaurs had feathers, a theory that is already widespread, but also provides details that feasible generally cannot provide, such as color and three-dimensional arrangement.
-
3.We believe it is possible to make sure that the word "T" is not "B" is "C" for all the words. This means that the word "T" is not "B" for all the words.
-
4.The 802.1in-translation operation on transmission Z4 GHz and 8.0 GHz.
图 2: ChatGPT 使用枢轴提示的翻译结果(日期:2023.01.31)。
GPT-4 作为引擎
另一种改进 ChatGPT 机器翻译的方法是改进其引擎。不出所料,OpenAI 于 2023 年 3 月 15 日发布了 GPT-4(OpenAI, 2023),它展示了比 ChatGPT 背后的 GPT-3.5 模型更强大的全方位能力。因此,我们重新评估了四个翻译方向的性能。如表 8 所示,GPT-4 显著提升了 ChatGPT 在所有四个方向上的性能,将 BLEU 分数提升到顶级商业翻译系统的水平。请注意,这些结果仅来自零样本设置。通过现代技术,如带有示例的上下文学习(Brown et al., 2020; Agrawal et al., 2022),翻译性能可以进一步提高。换句话说,GPT-4 已经成为一个好的翻译器!
4 分析
在这里,我们对翻译输出进行了一些分析,以更深入地理解 ChatGPT。默认情况下,我们分析了 Google、ChatGPT 和 GPT-4 在 Zh⇒⇒En 翻译中的所有 50 个测试示例的输出。
自动分析
我们遵循先前的研究(Jiao et al., 2021; Wang et al., )使用自动工具(即 compare-mt10)在单词级别和句子级别上分析翻译输出。
脚注 10: https://github/neulab/compare-mt
单词频率。 本质上,ChatGPT 是一个大型语言模型,已经在各种语料库上进行了训练,涵盖了不同的领域。这可能有助于翻译测试集中的低频词。具体来说,我们根据目标词的频率将其分为三类,并计算单词预测的准确性。表 9 显示了 F-measure 结果。出乎意料的是,ChatGPT 在低频词(即 <2<2)上表现最差,我们将其归因于 ChatGPT 的翻译能力不成熟。有趣的是,GPT-4 主要解决了 ChatGPT 的这一缺点,对高频词的改进较小。
句子长度。ChatGPT 还针对各种文本生成任务进行了训练,这些任务通常不需要像机器翻译那样严格的生成句子长度约束。因此,我们好奇翻译性能对句子长度的敏感程度。我们根据句子长度将目标句子分为三类,平均值为 23.2 个标记。表 10 显示了结果。可以看出,ChatGPT 在短句子(即 <15<15)上表现最差,比 Google 翻译低 18.8 BLEU 点。一个观察结果是,在翻译术语时,例如 美国公共广播公司,ChatGPT 倾向于输出全名(即 American Public Broadcasting System),而 Google 翻译和参考使用缩写(即 PBS)。因此,单词预测的精度会显著降低,BLEU 分数 Papineni et al. (2002) 也会降低,尤其是对于短句子。GPT-4 有时可以正确预测缩写,从而提供更好的翻译性能。
人工分析
除了自动分析外,我们还手动检查了翻译输出。我们要求三位注释者识别翻译输出中的错误 Wang et al. (),包括欠翻译(即 Und-Trans)、过翻译(即 Ove-Trans)和误翻译(即 Mis-Trans)。根据翻译错误,注释者对 Google、ChatGPT 和 GPT-4 的翻译输出进行排名,1 为最佳系统,3 为最差系统。对于难以区分的翻译输出,我们允许相同的排名(例如 1-1-1、1-1-2 或 1-2-2)。为了消除主观偏见,我们没有向注释者展示每个翻译输出的系统信息,并且每个测试示例的三个翻译输出也是随机打乱的。
表 11 显示了翻译错误的结果。一般来说,ChatGPT 比 Google 翻译产生更多的过翻译错误和误翻译错误,但欠翻译错误略少。这表明 ChatGPT 更容易产生幻觉。相比之下,GPT-4 在三个错误类别中产生的错误最少,展示了最佳的翻译性能。这也得到了表 12 中排名结果的证实,GPT-4 在 50 个测试示例中被排名最佳(即 1)32 次,其次是 Google 翻译和 ChatGPT。然而,GPT-4 的 BLEU 分数仍然低于 Google 翻译(即 28.50 vs. 31.66 在表 8 中),这表明 GPT-4 可能会生成更多与参考不同的词汇选择的多样化翻译。
案例研究
我们在表 13 中展示了四个测试示例,以便直观理解。第一个示例展示了 ChatGPT 在前几个标记上的幻觉以及 过量降水 的不准确翻译。第二个示例显示,ChatGPT 和 GPT-4 都将 广泛耐药结核病 翻译为全名,而参考和 Google 翻译则没有。第三个示例显示,GPT-4 也可以将术语 美国公共广播公司 翻译为缩写。最后一个示例表明,GPT-4 能够根据上下文更准确地翻译术语 很短,而 Google 翻译和 ChatGPT 则未能做到。
5 结论
本工作对 ChatGPT 在机器翻译方面的表现进行了初步研究。我们发现,ChatGPT 在高资源欧洲语言上的表现与商业翻译产品(如 Google 翻译)相当,但在低资源或远距离语言上显著落后。它在口语语言上表现出色,但在生物医学摘要或 Reddit 评论上的表现仍不如商业系统。我们进一步探索了一种名为枢轴提示的有趣策略,可以显著提高远距离语言的翻译性能。随着 GPT-4 引擎的推出,ChatGPT 的翻译性能显著提升,变得与商业翻译产品相当,即使是对于远距离语言也是如此。广泛的人工分析表明,ChatGPT 已经成为一个好的翻译器,以 GPT-4 为引擎。
局限性
作为一项初步研究,本工作远未完成,有许多方面需要使其更可靠:
-
*全面性:目前,由于 ChatGPT 的响应延迟,我们从每个测试集中随机选择了 50 个样本进行评估,由于数据覆盖范围,这并不全面。此外,我们发现同一查询的结果可能在多次试验中有所不同,给评估结果带来了随机性。为了获得更可靠的结果,最好对每个测试集重复多次翻译并报告平均结果。
-
*翻译能力:在本报告中,我们仅关注多语言翻译和翻译鲁棒性。然而,还有一些其他翻译能力可以进一步评估,例如受限机器翻译和文档级机器翻译。