首页 » 软件开发 » 运行成功率最高达80.9%(代码高达翻译成功率编程语言)

运行成功率最高达80.9%(代码高达翻译成功率编程语言)

神尊大人 2024-07-24 11:31:41 0

扫一扫用手机浏览

文章目录 [+]

还记得美国前一阵要招聘60岁的老程序员吗?都怪编程语言发展太快!

因为新冠疫情的缘故,美国一些地区的失业救济系统不堪重负,而这些系统都是上古语言COBOL写的。

然而,现在早已经是C/C++、Java、Python的天下了,把COBOL程序换成Python,何其难也。

运行成功率最高达80.9%(代码高达翻译成功率编程语言) 软件开发
(图片来自网络侵删)

远的不说,Python 2刚刚淘汰,过去的老程序手工转成Python 3也是个很大的工程。

既然AI能翻译自然语言,那也应该能翻译编程语言。

Facebook也是这么想的,所以他们最近提出了TransCoder,一个翻译编程语言的AI,现在可以在C++、Java、Python语言之间互译。

经翻译后的程序,成功运行的通过率最高可以达到80.9%。

而且TransCoder是一种无监督学习算法,意味着不需要大量成对的、标记的编程代码数据集进行训练。

如果这项技术达到实用化程度,对广大程序员来说真是巨大福音啊!

难怪论文作者之一Guillaume Lample在Twitter上宣布了这篇论文后很快引起了热议。

翻译编程语言,什么原理?

TransCoder充分利用了编程语言的特点,比如像for、while、if这些关键词以及通用的数学运算符。

下图展示了C++、Java和Python关键字的嵌入。
在相似的上下文中使用的不同编程语言的关键字在嵌入空间中非常接近。

例如,Python中的except和Java、C++中的catch都用于获取异常,它们被映射到非常相似的嵌入空间位置。

对于映射的实现(map和dict)、用于将字符串转换为字符数组(c_str和toCharArray)以及类似的变量类型(例如long、int和Integer),也可以观察到相同的现象。

那么以上这些关键词的嵌入是如何获得的?

Facebook提出了实现无监督编程语言机器翻译的三个原则。

首先,通过跨语言掩码语言模型(MLM)预处理来初始化模型,这有些类似于自然语言的填空题。
结果是表达相同指令的代码片段被映射到与编程语言无关的相同表示。

其次是去噪自动编码,它能训练解码器始终生成有效序列,即使在输入有噪声的数据时也是如此,提高了编码器对输入噪声的鲁棒性。

最后是反向翻译,它允许模型生成可用于训练的并行数据。
每当Python转C++模型变得更好时,它就会为C++转Python模型生成更精确的数据,反之亦然。

通过以上步骤,TransCoder在训练后获得了之前提到的跨语言嵌入。

我们观察到,TransCoder成功地理解了每种语言特有的语法、数据结构、函数库和方法。

在上面的图中,展示了Java和C++独有的三元运算符X ? A : B,翻译到Python中就变成了if X then A else B。

以下是一个从Python翻译到C++的实例。
TransCoder推断变量和函数返回值的类型,将Python的deque()容器映射到C++中类似的实现deque<>,并使用C++的front、back、pop_back和push_back方法来检索和插入deque中的元素,而不是使用Python方括号、pop和append方法。

实验结果

为了训练TransCoder,Facebook在GitHub上寻找了280万个开源代码库进行训练,其中包含数百亿个token。

然后去GeeksforGeeks平台去验证翻译成果,该平台是收集各类编码问题,并以多种编程语言提供解决方案。

和自然语言不同的是,代码翻译并不太要求逐字逐句的对照,因此翻译后的代码和参考代码的重合度其实很低,比如C++转Java的代码和Ground Truth仅有3.1%匹配。

另外NLP翻译中的BLEU也不宜作为代码翻译的衡量标准,因为这只能表示实际代码和参考代码之间的语法差异。

因此需要一个新的度量标准——计算正确率,它表示翻译后的代码测试后是否能与参考代码有相同的输出。

以此为标准,C++转Java的代码的计算正确率为60.9%,而Java转C++的计算正确率为80.9%。

Facebook不是唯一开发AI代码生成系统的公司。
前不久微软Build大会上,OpenAI就演示了一个在GitHub数据上训练的模型,仅根据注释内容即可生成对应功能的代码。

TransCoder没那么智能,但是在计算机技术飞速发展的今天,谁知道下一个流行的语音是什么,有了TransCoder,至少让我们在移植代码的时候没那么难了。

也许美国社保系统的COBOL就靠它解决了。

论文地址:

https://arxiv.org/abs/2006.03511

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

标签:

相关文章

语言栏乱显示背后的技术挑战与应对步骤

随着信息技术的飞速发展,智能语音助手、智能翻译软件等应用在日常生活中越来越普及。在这些应用中,语言栏乱显示的问题却时常困扰着用户。...

软件开发 2025-01-01 阅读0 评论0

详细介绍易语言卡顿现象,成因与解决方法

易语言作为我国自主研发的编程语言,凭借其易学易用的特点,深受广大编程爱好者的喜爱。在使用过程中,很多用户都遇到了易语言卡顿的问题。...

软件开发 2025-01-01 阅读1 评论0

跨语言交流,PS技术的创新与挑战

随着全球化的不断深入,跨语言交流已成为人们日常生活中不可或缺的一部分。由于语言障碍的存在,跨文化交流的顺利进行仍然面临着诸多挑战。...

软件开发 2025-01-01 阅读0 评论0

语言课计算器的崛起,重塑语言学习新范式

在信息技术迅猛发展的今天,教育领域也经历了前所未有的变革。其中,语言课计算器的出现,无疑为语言学习领域带来了一股清新的风潮。本文将...

软件开发 2025-01-01 阅读1 评论0