亚马逊云计算AI实验室：机器翻译在网络内容中占比惊人质量问题凸显-业界资讯-虎科技

亚马逊云计算AI实验室：机器翻译在网络内容中占比惊人质量问题凸显

时间：2024-02-04 10:51 来源：虎科技

【虎科技】2月4日消息，亚马逊云计算人工智能实验室的最新研究显示，网络上存在大量由机器翻译生成的内容，且这些内容在跨语言翻译时往往质量不佳。这一发现凸显了在训练大型语言模型时，对数据质量和来源进行细致考量的至关重要性。

研究人员指出，机器翻译内容在资源匮乏语言的网络环境中尤为普遍，甚至占据了网络内容的相当大一部分。这些内容虽然在一定程度上促进了信息的跨语言传播，但由于翻译质量的问题，也给用户带来了不少困扰。

据虎科技了解，为了更好地理解机器翻译内容的特征，研究团队还开发了一种名为“多维cc矩阵”的庞大资源。该资源涵盖了90种语言中的64亿个独特句子，并包含了翻译元组，即一组相互翻译的句子。这一资源的开发为机器翻译研究提供了新的视角和工具。

此外，研究人员还发现，出于增加广告收入等目的，网络上的机器翻译内容存在一定的选择性偏差。这种偏差不仅影响了机器翻译内容的准确性和客观性，也对大型语言模型的训练产生了不良影响。

研究论文总结道，尽管机器翻译技术在过去十年中取得了显著进步，但其质量仍远未达到人类翻译的水平。由于历史上大量使用当时可用的机器翻译系统，导致网络上存在大量质量较低的机器翻译内容。这些问题可能会导致大型语言模型在训练过程中产生更多的“幻觉”，而选择性偏差则进一步降低了数据质量。因此，在训练大型语言模型时，选择高质量的语料库，如书籍和维基百科文章，并进行多次向上采样是至关重要的。

更多>同类内容

矩网科技携手一线数智，邀大咖分享数智转型	微软智能办公工具OfficePLUS让创作更轻松！
OPPO Find X7 Ultra和VIVO x100哪个好？处	开启 AI 新纪元，全新 Surface Pro 与 Surf

亚马逊云计算AI实验室：机器翻译在网络内容中占比惊人 质量问题凸显

亚马逊云计算AI实验室：机器翻译在网络内容中占比惊人质量问题凸显