首页 » 软件优化 » 大厂悄悄放大招!用APPAgent替你使手机!鹅厂这回整挺好(腾讯操作手机替你都是)

大厂悄悄放大招!用APPAgent替你使手机!鹅厂这回整挺好(腾讯操作手机替你都是)

少女玫瑰心 2024-11-25 05:38:14 0

扫一扫用手机浏览

文章目录 [+]

最近一提到腾讯,大家的反应就是股价大跌,游戏业务受重创,但是,他们却悄悄发布了新的AI研究,这事也不容小觑。

12月21日,腾讯团队发布了一篇论文,题目是《AppAgent:像人类一样操作手机的多模态智能体》,还顺便把代码开源了。

顾名思义,AppAgent就是一个替你操作手机APP的机器人。
之所以叫多模态智能体,是因为它利用GPT-4 V的视觉理解能力,像人一样用“眼睛”来看APP界面,然后学习人类的操作方式,学会之后就可以自己玩手机了。

大厂悄悄放大招!用APPAgent替你使手机!鹅厂这回整挺好(腾讯操作手机替你都是) 软件优化
(图片来自网络侵删)

他们在10款APP上测试了50种操作,AppAgent都完成了任务。
比如,在谷歌地图里输入“腾讯上海公司”,然后设置导航路线;在Gmail邮箱里写邮件,询问同事的工作情况,然后发送邮件;还能在修图软件Lightroom里自动修图。

更有趣的是,AppAgent学习使用APP的逻辑都和人类非常像。

试想一下老人学习使用智能手机的情景,他们看到陌生的操作界面,会先理解一下各个按钮都是做什么用的,然后点一点试一试,如果自己实在搞不懂,就会让年轻人帮忙演示一遍。

AppAgent也是如此,研究团队给它设定了几个常用的APP操作方式,比如点击、长按、上下左右滑动、输入文字和返回,之后,它就靠GPT-4 V的视觉识别和理解能力自己探索了。

它的探索分为两个步骤:“自主交互探索”和“观看演示探索”。
“自主交互”就是把APP界面中的各种按键、功能都试一遍,看看点完按键会产生什么样的结果,然后与几个默认动作匹配上,比如搜索框需要先点击一下再输入文字,最后它会自己创建一个特定APP的操作指南,以后按指南走就行了。

不过这种方式有点慢,就需要“观看演示探索”。
也就是人类帮它演示一遍,快速学习各种按键的操作方式和逻辑,有些不需要点击的地方就不用再浪费时间探索了。

你看,这简直和人类学习APP的流程一模一样,都是靠眼睛看、动手试、再请别人教。
打通了这样的底层逻辑,现在可以学会10个APP,未来就可以学会成千上万个APP,甚至有可能完成更加复杂的操作。

这就意味着,我们以后使用APP的时候可能不需要点来点去了,动动嘴就可以让AppAgent帮忙了。

比如,有些APP的发票管理功能隐藏得非常深,以后可能就不用自己费劲找了。
如果再发散一下,是不是像王者荣耀、原神那样需要复杂操作的游戏也可以让AppAgent来玩呢。

我一直认为,大模型的真正机会并不是大模型本身,AI Agents才是潜在的机会方向。

腾讯的AppAgent就走在了正确的方向上,这项研究并没有纠缠在底层模型上,而是直接利用GPT-4的能力,开发出了实用的功能。
这非常值得鼓励,也值得很多创业公司思考。

不过,腾讯并不是创业公司,他们还有更大的资源可以利用,比如微信、QQ等庞大的社交平台,这里面又有什么样的想象空间呢?

实际上,AppAgent就是一个替你操作手机的分身,就像自动驾驶汽车一样,当你

现在有很多手机厂商在系统里植入一些AI聊天、AI修图功能,声称自己是AI手机,还有电脑厂商说自己的产品是AI PC。

但是,能够像AppAgent一样自动操作APP,才更像是AI手机,而未来也可能出现电脑版的AppAgent,因为操作逻辑都是相似的。

这就意味着,手机端、PC端的智能Agent有可能改变APP的操作方式,甚至改变应用开发逻辑,我们很可能迎来新一轮的智能应用变革。

QQ是腾讯在互联网时期的拳头产品,微信是他们在移动互联网时期的杀手锏。
马化腾曾说,如果没有微信,腾讯可能面临灾难。

现在,人工智能革命的浪潮席卷而来,对腾讯这样的互联网大厂同样是一轮新的考验。
方向对了,在操作上是否也能做对呢?

企业做大了就要平台化,腾讯平台以前的问题就是相对封闭,但是,现在已经是一个生态化协作的时代了,希望在AI时代腾讯能够加强开放性。
有没有可能不止自己开发AI Agents,而且将自己的平台资源开放出来,允许与第三方开发的AI Agents的相互调用,甚至让多个AI Agents进入到平台里,让AI与人们互动,为人们提供服务,甚至成为人们的朋友。

我们曾经畅想过,随着AI Agents的发展,未来每个人都会有多个人工智能好友。
它们凡事都会为你着想,既是你的知心好友,又是比你学识渊博的导师。
不仅能帮你操作手机,还能和你一起玩游戏,帮你写作业、帮你工作。
所以,每个人的人工智能好友可能比人类好友都多。
腾讯什么时候能够允许第三方开发的人工智能好友出现在微信的好友列表里,也是他们开放态度的一个晴雨表。

关键在于,这很可能会进一步催生社交媒体平台的新形态。
但是,大厂们即使理解AI Agents的价值,自己开发也未必能成为未来的赢家,而开放合作,既对创业公司是个福音,也是对自己平台地位的巩固。

以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。
欢迎关注全球风口微信号,报名加入!

另外做一个预告,本周日的前哨AI小课中,主讲人Tina将会讲解如何用开源AI项目做漫画、换脸、换衣服,Tina帮我做了一张穿上钢铁侠装甲的效果图,我已经用来做微信头像了。
如果你也感兴趣的话,就报名加入吧。

王煜全要闻评论,我们下周见!

标签:

相关文章