手机Agent,转移交互范式的跃迁。自触控屏幕开启转移互联网黄金期间今后,App被打算为一个个独立的孤岛,用户通过点击图标进入特定的操纵境况,寄托视觉和手动点击来结束义务。跟着操纵数目的延长和成效的堆叠,用户正在差异App间切换、寻找成效入口、手动搬运数据的本钱明显上升。跟着大模子的冲破性发达,转移交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然道话外达思做什么,手机Agent便掌管将图谋转化为整个的实施措施并交付结果。怎样正在碎片化的转移生态中让AI超越操纵围墙实施义务,业界目前有两条差异的技能门道:
API范式:创造模范化的语义接口,App拓荒者主动适配并表露相应成效。Agent通过构造化的API挪用来带领App实施义务,以苹果的Apple Intelligence及其App Intents框架为典范代外。
GUI范式:应用众模态模子看懂屏幕上的UI元素,应用编制辅助任事模仿手指的点击与滑动。这一齐线不依赖拓荒者的配合,试图以通用的视觉才智“暴力”打通一共操纵。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一齐线的前锋。
中心区别比拟,API Agent与GUI Agent工力悉敌。比拟了两种范式的技能门道区别,GUI Agent的中心上风正在于通用性高,正在牢靠性、职能、隐私危急角度则是API Agent更胜一筹。1)通用性: GUI Agent的通用性明显更高,这是中心上风,不须要App 拓荒者举行适配。外面上只须是人类或许行使的 App,GUI-Agent 都能行使。处分了操纵笼盖率的题目,新成效或未表露成效的适配度也更高。2)牢靠性;GUI Agent的牢靠性还是较低。源由征求模子对庞大界面的识别才智还达不到百分百;须要众措施模仿用户操作,满堂义务腐败率更高;UI 改版时容易失效。3)职能:API Agent 能够一次挪用结束庞大义务,后端直接驱动实施效能高。GUI Agent职能较低,结束简略义务恐怕须要众次截图说明、视觉推理等庞大估计,算力花费更大。截图上传到云端模子时,数据量一样高于API传输参数,延迟也更高。4)隐私危急:API-Agent 的操纵端后台可举行精采的数据和权限治理,权限范围分明。GUI-Agent 的隐私危急较高。它须要读取屏幕内容,容易表露闲扯纪录、暗码、验证码等敏锐新闻。除了技能题目,贸易阻力上咱们以为GUI Agent不经由授权,更容易受到操纵厂商的抵触。
贸易样式演变:三方博弈与生态重构。手机Agent的兴盛意味着转移互联网流量的从新洗牌,手机厂商、大模子厂商和操纵厂商三方权势将张开庞大的博弈。手机厂商希望从硬件售卖进一步获取流量入口的价格,OS成为了用户图谋的第一授与者。近似于查找广告恐怕演酿成一种新的竞价形式。大模子厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话结束一共需求。把将其他App酿成我方的后端数据库和器材。大模子厂商会踊跃寻求与二线手机厂商配合。字节跳动与中兴的配合即是典范案例。操纵厂商,一方面恐怕与手机/模子厂商配合,盛开个别才智接口;另一方面,为偏护自己优点,也恐怕拒绝或局限Agent的接入。Agent的授权范围是须要进一步划分的公法题目。App自己也正在Agent化,比如微信最终会推出一个AI智能体,淘宝也正在试验通过“问问”等成效正在App内完毕自然道话导购。咱们以为手机Agent的兴盛不会是API或GUI的单选题,关于高价格、涉及敏锐数据的操作(如支拨、通信、中心营业流),API Agent有更高切实实度和隐私偏护。关于只读、新闻盘查类的需求,以及API尚未笼盖的操纵,GUI Agent通过视觉解析的体例运转能够更伶俐通用。为剖析决延迟和隐私题目,来日的手机收拾器估计还将进一步优化视觉模子的推理才智,使GUI识别和决议正在端侧结束,不再上传云端。
API Agent:腾讯控股、阿里巴巴、谷歌算力:寒武纪、海光新闻、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾严谨、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮新闻、东山严谨、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润修股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。
Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合新闻、税友股份、新致软件、金桥新闻、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微收集、朗新集团、润达医疗、壹网壹创、万兴科技、用友收集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得新闻、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石收集、迪安诊断、中科金财、恒生电子、星环科技、卫宁健壮、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发教化、新大陆、新开普等。
自触控屏幕开启转移互联网黄金期间今后,图形用户界面(GUI)不绝是人机交互的绝对主导。正在这一范式下,App被打算为一个个独立的孤岛,用户通过点击图标进入特定的操纵境况,寄托视觉和手动点击来结束义务。这种以操纵为中央的交互形式跟着操纵数目的延长和成效的堆叠,用户正在差异App间切换、寻找成效入口、手动搬运数据的本钱明显上升。跟着大模子的冲破性发达,转移交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然道话外达思做什么,手机Agent便掌管将图谋转化为整个的实施措施并交付结果。
怎样正在紧闭且碎片化的转移操作编制中,让AI超越操纵围墙实施义务?业界慢慢瓦解出两条差异的技能门道:
API范式:创造模范化的语义接口。操作编制或平台厂商界说一套通用的图谋接口(如“订票”、“发送动静”),App拓荒者主动适配并表露相应成效。Agent通过构造化的API挪用来带领App实施义务。这一齐线以苹果的Apple Intelligence及其App Intents框架为典范代外,夸大生态的有序整合与隐私安闲。
GUI范式:模仿人类的感知与操作。应用众模态模子看懂屏幕上的UI元素,应用编制辅助任事模仿手指的点击与滑动。这一齐线不依赖拓荒者的配合,试图以通用的视觉才智“暴力”打通一共操纵。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一齐线的前锋。
![]()
苹果等厂商试图正在操纵之上构修一层“语义互联网”,将App内的成效原子化,供AI调遣,这须要操纵拓荒者配合接入。
苹果推出的Apple Intelligence其中心并非仅仅是一个更灵活的Siri,而是一套深度的编制级集成框架——App Intents(应蓄谋图)。为了让 Siri 更好地解析拓荒者的操纵并完毕更贯通的对话式交互,拓荒者须要选拔与操纵成效相成婚的域和形式,拓荒者通过使应蓄谋图、操纵实体或操纵列举适宜形式,确保 Apple Intelligence 或许解析操纵的操作和内容。
![]()
API范式的挑拨正在于差异拓荒者对统一个成效的界说恐怕千差万别。为剖析决这个题目,苹果供应了众个助手架构(Assistant Schema),每个架构都对应差异的内容界限(比如浏览器、文档阅读器、文献治理等)。这些架构助助 Siri 按照内容的类型供应定制化的相应。助手架构能够解析为一组模范化的“模板”,Apple 打算这些模板是为了助助 Siri 识别操纵的整个成效。好比拓荒者的操纵是图片治理类的,那么行使photos.openAsset如此的架构,能够让Siri解析要揭示一张照片。
本年10月谷歌正在安卓拓荒者博客默示,拓荒者能够应用新的Prompt API构修我方的自界说天生式AI成效。本年蒲月的I/O大会上,谷歌推出了基于Gemini Nano模子的兴办天生式人工智能API,通过简略的API简化了摘要、校正和图片刻画等义务,使常睹义务变得更简略。
GUI Agent最先须要“解析”屏幕。这重要依赖于大模子的众模态解析才智,这方面才智上领先模子厂商一贯冲破,近期谷歌宣布的Gemini 3 Pro的众模态解析才智就大幅进取: 模子或许收拾妥协析文本、图像、视频、音频以致代码等众种模态的数据,并正在这些庞大数据之间举行推理,抵达了亘古未有的细巧水平。Gemini 3 Pro正在Screen UnderStanding义务方面再现更加出众,正在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5(36.2%)和GPT 5.1(3.5%)。
决议与计划:推理链与义务拆解以及实施经过中的动态计划:解析屏幕后,Agent须要计划活跃。比如面临“助我点一杯拿铁”如此的指令,咱们以为Agent恐怕会将其拆解为子义务序列:翻开App - 查找咖啡 - 选拔规格- 下单,Agent每实施一步,都要动态考查目前屏幕形态决策下一步活跃,比如点击下单后,恐怕弹出一个优惠券,也恐怕提示售罄。案例:智谱AutoGLM
2025年8月20日,北京AI公司“智谱 AI”宣告,客岁宣布的环球首个可自决操作手机的智能体产物AutoGLM再次升级,推出AutoGLM2.0,并迈出更具史册事理的一步——初度面向大众整个盛开,无需邀请码即可行使。此次宣布的AutoGLM2.0被定位为“实施型助手”。 正在生计场景中,用户一句话即可让AutoGLM操作抖音、小红书、美团、京东等40余款操纵,结束点餐、订票、查房、预定等任事。正在办公场景中,它也能跨操纵实施完备流程,从检索材料到撰写文稿,再到天生视频、PPT或播客,并直接结束宣布。
2025年12月1日,字节宣布豆包手机助手预览版。这是一个面向手机厂商的编制级任事,它将豆包大模子深度融入操作编制,让用户只需动嘴(或动一下手指),就能带领手机去实施那些正本需重心击几十次屏幕的繁琐操作。成效征求跨平台比价点外卖、搜小红书做攻略等。豆包手机助手的主力研发团队,是字节掌管 AI 硬件的 Ocean,它附属于字节 AI 产物大部分 Flow,重要成员来自字节众年来先后收购的极少硬件产物团队,如锤子手机、VR 头显 PICO、智能耳机 Ola Dance 等,以及近年出席字节的手机、硬件从业者。这款豆包与中兴配合的手机已正在豆包手机助手官网及中兴商城上架,售价 3499 元。这款手机只是豆包手机助手的 “打样”。字节正和众家手机厂商道配合。
正在与中兴努比亚(Nubia Z60 Ultra)的配合中,豆包助手被整合进编制底层。通过长按侧边键叫醒,豆包能够直接获取编制底层的屏幕缓冲区数据,无需通过Accessibility任事的截屏接口,大大低落了延迟。
豆包手机助手激励了被操作App的抗拒。据上观报道,12月3日,众位网友正在社交平台上反应,搭载豆包助手的努比亚M153工程机登录微信时,页面弹出“登录境况分外,需调换兴办从新登录”的戒备。个别用户调换账号后虽能暂时登录,但传输闲扯纪录时再次被强制下线。更要害的是,若通过豆包助手操作微信成效(如发送动静),编制直接提示“义务腐败”,并标注“尝试室成效暂不维持微信操作”。另外,12月3日上午,尚有个别行使“豆包AI手机”的用户反应,因行使豆包手机助手操作微信,微信账号被封禁了。正午12时摆布,被封禁的微信相联被解封,能够平常上岸,但无法行使豆包助手举行微信上的自愿化操作。另据网友正在社交媒体上反应,我方正在行使豆包AI手机助手的时辰遭到了农行、修行等APP内的强弹窗指挥,央求紧闭豆包AI手机助手后再举行行使。
按照以上对API Agent和GUI Agent技能门道的说明,咱们比拟了两种范式的区别,GUI Agent的中心上风正在于通用性高,正在牢靠性、职能、隐私危急角度则是API Agent更胜一筹。除了技能题目,贸易阻力上咱们以为GUI Agent更容易受到操纵厂商的抵触。
![]()
手机Agent的兴盛意味着转移互联网流量的从新洗牌,手机厂商、大模子厂商和操纵厂商三方权势将张开庞大的博弈。手机厂商:从硬件售卖到获取流量入口的价格
正在App期间,用户翻开手机直接点击App,OS只是一层启动器。正在Agent期间,用户直接告诉OS“我要打车”,OS决策唤起哪个App。OS成为了图谋的第一授与者。近似于查找广告。当用户外达订旅馆图谋时,携程、飞猪、美团谁排正在第一位?这恐怕演酿成一种新的竞价形式。
大模子等厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话结束一共需求。能够解析为思把将其他App酿成我方的后端数据库和器材。
合纵连横:为了得回编制级权限,大模子厂商踊跃寻求与二线手机厂商配合。字节跳动与中兴的配合即是典范案例。操纵厂商:数据护城河的警戒战
关于App厂商,一方面恐怕与手机/模子厂商配合,盛开个别才智接口;另一方面,为偏护自己优点,也恐怕拒绝或局限Agent的接入。
对外经济交易大学法学院教化、数字经济与公法立异斟酌中央主任许可先容了发作正在美邦的Perplexity案。该案中,被告Perplexity是一家AI公司,其通过亚马逊付费会员账号助助用户购物,被亚马逊指控违法并给自己形成贸易耗损。Perplexity则睹解我方是“用户授权的署理人”,以为亚马逊的指控是一种霸凌。许可指出,该案中心争议响应了一种公法窘境:AI助手声称是用户权柄延迟,但平台以为其活动捣蛋了贸易生态和安闲程序。“正在许众情景下,用户权利安定台权利都须要推敲,须要双重授权以至众重授权。”许可说。
App自己也正在Agent化。正在腾讯2025年第三季度财报电话会上,腾讯总裁刘炽平披露微信AI化计谋,精确默示“微信最终会推出一个AI智能体”,让用户正在生态内即可结束从需求解析到任事交付的全流程。淘宝也正在试验通过“问问”等成效,正在App内完毕自然道话导购。
![]()
预计来日,咱们以为手机Agent的兴盛不会是API或GUI的单选题,而是两者的调和。关于高价格、涉及敏锐数据的操作(如支拨、通信、中心营业流),APIAgent有更高切实实度和隐私偏护。关于只读、新闻盘查类的需求,以及API尚未笼盖的操纵,GUI Agent通过视觉解析的体例运转能够更伶俐通用。为剖析决延迟和隐私题目,来日的手机收拾器估计还将进一步优化视觉模子的推理才智,使GUI识别和决议正在端侧结束,不再上传云端。
API Agent:腾讯控股、阿里巴巴、谷歌。算力:寒武纪、海光新闻、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾严谨、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮新闻、东山严谨、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润修股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。
Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合新闻、税友股份、新致软件、金桥新闻、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微收集、朗新集团、润达医疗、壹网壹创、万兴科技、用友收集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得新闻、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石收集、迪安诊断、中科金财、恒生电子、星环科技、卫宁健壮、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发教化、新大陆、新开普等。
行业比赛加剧危急:若相干企业加疾技能迭代和操纵结构,满堂行业比赛水平加剧,将会对目前行业内企业的延长发作挟制。
卓殊声明:《证券期货投资者符合性治理宗旨》于2017年7月1日起正式执行。通过微信局面创制的本材料仅面向邦盛证券客户中的专业投资者。请勿对本材料举行任何局面的转发。若您非邦盛证券客户中的专业投资者,为确保任事质料、把持投资危急,请撤废体贴,请勿订阅、继承或行使本材料中的任何新闻。因本订阅号难以修立拜候权限,若给您形成未便,烦请原谅!感激您予以的解析和配合。
首要声明:本订阅号是邦盛证券估计机团队设立的。本订阅号不是邦盛估计机团队斟酌陈述的宣布平台。本订阅号所载的新闻仅面向专业投资机构,仅供正在新媒体靠山下斟酌见地的实时调换。本订阅号所载的新闻均摘编自邦盛证券斟酌所曾经宣布的斟酌陈述或者系对已宣布陈述的后续解读,若因对陈述的摘编而发作歧义,应以报揭发布当日的完备内容为准。本材料仅代外报揭发布当日的判别,相干的说明主睹及揣摩可正在不发出知照的景遇下做出更改,读者参考时还须实时跟踪后续最新的斟酌发达。
本材料不组成对整个证券正在整个价位、整个时点、整个商场再现的判别或投资倡导,不或许等同于教导整个投资的操作性主睹,浅显的一面投资者若行使本材料,有恐怕会因缺乏解读任事而对陈述中的要害假设、评级、倾向价等内容产心理解上的歧义,进而形成投资耗损。因而一面投资者还须寻求专业投资参谋的教导。本材料仅供参考之用,授与人不应纯正寄托本材料的新闻而庖代自己的独立判别,应自决作出投资决议并自行承当投资危急。