亚马逊云计算AI实验室:机器翻译在网络内容中占比惊人 质量问题凸显

   时间:2024-02-04 10:51 来源:虎科技

【虎科技】2月4日消息,亚马逊云计算人工智能实验室的最新研究显示,网络上存在大量由机器翻译生成的内容,且这些内容在跨语言翻译时往往质量不佳。这一发现凸显了在训练大型语言模型时,对数据质量和来源进行细致考量的至关重要性。

研究人员指出,机器翻译内容在资源匮乏语言的网络环境中尤为普遍,甚至占据了网络内容的相当大一部分。这些内容虽然在一定程度上促进了信息的跨语言传播,但由于翻译质量的问题,也给用户带来了不少困扰。

据虎科技了解,为了更好地理解机器翻译内容的特征,研究团队还开发了一种名为“多维cc矩阵”的庞大资源。该资源涵盖了90种语言中的64亿个独特句子,并包含了翻译元组,即一组相互翻译的句子。这一资源的开发为机器翻译研究提供了新的视角和工具。

此外,研究人员还发现,出于增加广告收入等目的,网络上的机器翻译内容存在一定的选择性偏差。这种偏差不仅影响了机器翻译内容的准确性和客观性,也对大型语言模型的训练产生了不良影响。

研究论文总结道,尽管机器翻译技术在过去十年中取得了显著进步,但其质量仍远未达到人类翻译的水平。由于历史上大量使用当时可用的机器翻译系统,导致网络上存在大量质量较低的机器翻译内容。这些问题可能会导致大型语言模型在训练过程中产生更多的“幻觉”,而选择性偏差则进一步降低了数据质量。因此,在训练大型语言模型时,选择高质量的语料库,如书籍和维基百科文章,并进行多次向上采样是至关重要的。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群