aio トレンド
0post
2025.12.08 15:00
:0% :0% (30代/女性)
人気のポスト ※表示されているRP数は特定時点のものです
豆包 AI 手机助手事件深度研究报告——兼论 AI Agent 时代的操作系统主权危机与生态重构
作为豆包AI手机Pacific 用户,也是AI大模型深度用户,我对本次事件梳理下,回顾本次事件,说说自己看法。
2025 年 12 月 1 日,字节跳动旗下豆包团队与中兴通讯(ZTE)联合发布的努比亚 M153 工程样机,搭载了具备跨应用操作能力的 "豆包手机助手"。这一看似常规的产品发布,因其采用了激进的 "模拟点击"(Simulated Click)技术路径,赋予了 AI Agent 类似人类手指的系统级操作权限,迅速引发了中国移动互联网生态的剧烈震荡。随后 48 小时内,腾讯(微信)、阿里巴巴(淘宝)及各大金融机构对其进行了全面的技术封锁。
从技术架构、商业博弈、法律合规及未来演进四个维度,本文对 "豆包-中兴" 事件进行详尽的剖析。
报告认为,本次冲突并非单纯的企业竞争,而是移动互联网 "APP 孤岛" 范式与 AI Agent "服务流" 范式之间的第一次世界大战。
它揭示了当前超级 APP(Super App)对于 "去中介化" 的极度焦虑,也暴露了 AI 时代 "数字代理人" 身份认证与权限管理的制度真空。
一、事件背景与技术奇点——"幽灵手指" 的诞生
1、努比亚 M153:硬件躯壳下的软件野心
2025 年 12 月 1 日,中兴通讯旗下努比亚品牌发布了型号为 M153 的工程样机。从硬件参数来看,这是一款标准的旗舰设备,搭载了高通骁龙 8 Elite Gen 5 处理器,配备 6.78 英寸屏幕及三摄系统 。然而,这款售价 3499 元的设备,其真正的核心价值在于它是全球首款 "全栈式 Agent AI 智能手机" 的工程验证机 。
与以往仅能通过 API 调用有限功能的语音助手(如早期的 Siri 或小爱同学)不同,努比亚 M153 集成的 "豆包手机助手" 被赋予了极高的系统权限。字节跳动与中兴的合作,实质上是将 Doubao 大模型下沉到了操作系统的核心层。这种深度的 OS 级融合,使得 AI 不再仅仅是一个 APP,而是成为了系统的 "副驾驶" 甚至 "主驾驶" 。
合作动机分析
对于 字节跳动 而言,这是其 "软硬结合" 战略的又一次尝试。在经历了坚果手机(Smartisan)硬件业务的折戟后,字节跳动意识到直接制造硬件的壁垒极高。选择与中兴合作,意在通过输出 "AI OS" 灵魂,借船出海,抢占 AI 时代的流量入口。字节跳动试图证明,在 AI 时代,掌握了模型和 Agent 能力,就掌握了新的操作系统定义权 。
对于 中兴通讯 而言,作为在全球通信设备领域具有重要地位但在消费电子市场(尤其是高端智能手机市场)面临华为、小米、OPPO、vivo 激烈竞争的厂商,急需一个差异化的 "爆点" 来突围。通过引入豆包的强势 AI 能力,中兴试图打造 "AI 原生" 的品牌形象,实现弯道超车 。最近在资本市场,ZTE的股价涨幅说明了一切。
2、"幽灵手指":基于视觉与模拟点击的技术架构
豆包手机助手的核心技术突破在于实现了 LAM(Large Action Model,大动作模型) 在移动端的落地。其工作原理可以概括为 "看-想-做" 三个步骤,完全模拟人类的操作逻辑:
感知(Perception): 利用多模态大模型的视觉能力(Computer Vision),AI 实时截取当前屏幕画面,识别 APP 界面中的 UI 元素(按钮、输入框、图片)。这相当于 AI 长了 "眼睛" 。
推理(Reasoning): 基于用户意图(如 "帮我点一杯星巴克拿铁"),AI 分析界面层级,规划操作路径(点击 "下单" -> 选择 "拿铁" -> 点击 "支付")。
执行(Execution): 这是最具争议的环节。AI 通过调用 Android 系统的底层权限(主要是 INJECT_EVENTS),向 Linux 内核输入子系统发送虚拟的触摸事件、滑动事件和键盘输入事件 。
这种技术可以称为 "幽灵手指"(Ghost Finger)。
在操作系统的底层视角看,这些点击指令产生的电信号与真实人类手指触摸屏幕产生的信号几乎无法区分 。这种技术路径的最大优势在于 "去 API 化":AI 不需要 APP 开发者提供专门的接口,只要人能操作的 APP,AI 就能操作。它暴力破解了 APP 之间的数据围墙,实现了跨应用的互联互通。
3、场景演示与用户预期
在演示视频中,Taylor Ogan 展示了该 Agent 如何在没有用户干预的情况下,自主完成复杂的跨应用任务。例如,用户只需说一句 "帮我找个人去医院排队",Agent 就能自动打开本地服务 APP,填写信息,下单并支付 。这种体验被描述为 "DeepSeek 时刻",意味着 AI 的推理能力和执行能力达到了一个新的临界点,真正实现了 "所说即所得"(Service-on-Demand)。
二、免疫反应——超级 APP 的封锁与反击
1、48 小时的极速封锁
豆包手机助手的 "入侵" 迅速触发了中国互联网巨头们的防御机制。在努比亚 M153 发布后的短短两天内(12 月 3 日左右),用户反馈在尝试使用该助手操作微信、淘宝等主流应用时遭遇了大规模阻断 。
微信(Tencent WeChat): 当 Agent 尝试操作微信发送消息时,微信客户端立即弹出 "登录环境异常" 提示,并强制用户下线。部分用户的账号甚至被暂时冻结 。
金融类 APP(银行/支付宝): 农业银行、建设银行等 APP 在检测到 "AI 操控" 或 "屏幕共享" 特征时,直接弹出强警告弹窗,要求用户关闭辅助功能否则无法继续交易 。
电商与游戏: 淘宝、闲鱼等阿里系应用,以及《王者荣耀》等游戏应用,也通过技术手段识别并拦截了 Agent 的模拟点击行为 。
2、封锁的表面理由:安全与风控
腾讯及相关厂商给出的官方解释聚焦于 "安全风险"。
人机识别失效: 现代 APP(尤其是金融和社交类)的风控模型高度依赖于 "人机识别"(Human-Bot Differentiation)。它们通过分析用户的点击压力、滑动轨迹的微小抖动、操作间隔的随机性来判断操作者是否为真人。豆包 Agent 的 "模拟点击" 虽然在信号层模拟了触控,但在行为模式上如果过于精准、快速或机械,极易触发反外挂和反爬虫策略 。
权限滥用风险: INJECT_EVENTS 是 Android 系统中极其敏感的权限。一旦该权限被恶意软件利用,黑客可以完全接管手机,甚至绕过部分生物识别验证(通过模拟点击密码键盘)。银行 APP 出于资金安全考虑,必须对非物理触控保持零容忍 。
隐私泄露: Agent 需要实时 "看" 屏幕才能操作,这意味着屏幕上的所有信息(包括聊天记录、银行余额、私密照片)都在被 AI 实时扫描和分析。尽管字节跳动承诺数据不上云,但对于第三方 APP 而言,这等同于有一个不受控的 "第三只眼" 在监控其用户数据 。
3、封锁的深层逻辑:流量主权与商业模式保卫战
如果说安全是 "盾",那么商业利益的保护则是超级 APP 们反击的 "矛"。
流量入口的争夺
中国移动互联网的格局是典型的 "超级 APP"(Super App)模式。微信、支付宝不仅仅是通讯或支付工具,它们是承载了数百万 "小程序" 的操作系统。它们的商业模式建立在 "注意力经济"(Attention Economy) 之上:用户必须进入 APP,停留在 APP 中,浏览信息流广告,手动点击服务入口,平台才能获利 。
AI Agent 的出现,本质上是一种 "去中介化"(Disintermediation) 行为。如果用户只需要对 AI 说 "买最便宜的牛奶",AI 就会自动在后台比价并在最低价平台下单。在这个过程中:
广告失效: 用户不再打开 APP,也就看不到开屏广告、横幅广告和直播带货。
品牌失效: AI 依据数据决策,消解了品牌通过营销建立的情感溢价。
入口转移: 流量入口从 "微信/淘宝" 转移到了 "豆包/手机系统"。
对于腾讯和阿里而言,这不仅是技术冲突,更是 "饭碗" 问题。正如 36 氪分析指出的,这是 APP 孤岛模式与系统级 Agent 模式的 "代际冲突" 。腾讯在构建 "微信操作系统" 时花费了十年建立的护城河,绝不会允许一个 "幽灵手指" 轻易翻越。
"微信宪法" 与平台规则
微信在其《软件许可及服务协议》中明确禁止 "通过非腾讯开发、授权的第三方软件、插件、外挂、系统,登录或使用腾讯软件及服务" 。在腾讯看来,豆包 Agent 的行为与 "外挂" 无异。2019 年至 2021 年间,腾讯与字节跳动曾因 "链接封禁" 问题爆发过数百起诉讼 ,此次封杀 Agent 可以看作是双方长达数年 "生态战争" 的延续和升级。
三、客观看待与多维分析——不仅是技术之争
1、字节跳动的激进与妥协
激进之处: 字节跳动试图跳过漫长的生态建设(即让开发者主动接入 API),通过技术手段 "强行" 打通生态。这种 "暴力拆解" 的方式虽然在用户端带来了极大的便利(无需学习不同 APP 的用法),但在 B 端(开发者端)却是一种侵略行为 。 妥协调整: 面对封锁,字节跳动反应迅速。12 月 5 日,豆包团队发布声明,宣布对 AI 操控手机能力进行 "标准化调整":
限制金融场景: 在银行、支付等涉及资金安全的场景下,禁用 AI 自动操作,或要求用户进行二次手动确认 。
下线微信操作: 暂时移除了操作微信的功能,以避免用户账号被封 。
承诺与呼吁: 强调不会绕过密码验证,并呼吁行业共同制定 AI 操作的安全规范 。
这一妥协表明,字节跳动意识到,单靠技术上的 "幽灵手指" 无法战胜庞大的商业生态壁垒,必须回到谈判桌上寻求共识。
2、行业标准与监管的滞后
本次事件暴露了 AI Agent 发展中的一个巨大真空:缺乏统一的交互协议。 在 Web 时代,我们有 robots.txt 协议,网站所有者可以通过该文件告诉爬虫哪些页面可以抓取,哪些不能。 在 APP 时代,由于沙盒机制,本来不存在 "爬虫" 问题。但 AI Agent 的视觉识别打破了沙盒。目前,并没有一个 agent.txt 协议来规定 Agent 的行为边界 。
监管动态: 2025 年 12 月 1 日,即手机发布当天,中国云计算标准和开源推进委员会发布了《Agent 交互安全指引》,明确指出 "AI Agent 不得通过模拟用户行为绕过第三方应用验证措施" 。这似乎从行业标准层面给了腾讯封杀豆包一定的法理依据。未来的《网络安全法》修正案(2026 年生效)也可能对 AI 的 "数字身份" 进行更严格的界定,要求 Agent 必须表明身份,而不能伪装成人类 。
3、法律视角的反垄断博弈
从反垄断法角度看,这是否构成 "拒绝交易" 或 "滥用市场支配地位"?
必需设施理论(Essential Facilities Doctrine): 字节跳动可能会主张,微信作为国民级应用,构成了数字生活的基础设施。拒绝 AI Agent 接入,实际上是阻碍了技术创新和用户选择权。
平台责任与数据权益: 腾讯则可以依据《反不正当竞争法》中的 "数据抓取" 相关判例(如 HiQ vs LinkedIn 的中国版演绎),主张其对平台数据和交互界面享有权益,保护用户隐私和平台安全是正当理由 。 目前的司法实践倾向于保护平台经营者的核心商业利益不受 "搭便车" 行为的侵害,除非这种侵害被证明有利于更大的消费者福利且风险可控 。
四、行业应对与路线图——三条道路的博弈
豆包事件后,AI 手机行业分化出了三条清晰的发展路线。
路线一:激进的 "入侵者"(以字节跳动/中兴为代表)
策略: 继续优化视觉识别和模拟操作技术,试图做到 "以假乱真",绕过风控。同时,通过舆论和用户需求倒逼超级 APP 开放。
困境: 这是一个 "猫鼠游戏"。APP 的 UI 只要微调,或者风控算法升级,Agent 就会失效。这种不稳定性使得其难以成为大规模商用的主流方案 。
路线二:系统级的 "地主"(以小米、荣耀、华为为代表)
策略: 利用自身作为硬件和操作系统厂商(OEM)的身份,通过系统底层 API 而非模拟点击来实现 AI 功能。
小米(HyperOS): 依托 "人车家全生态",小米拥有海量的 IoT 设备和系统级入口。其 "超级小爱" 能够通过系统框架获取应用状态,这种权限是 "原生的" 而非 "模拟的"。高盛研报指出,小米等 OEM 厂商由于掌握了 OS 和硬件,构建了极深的护城河,第三方 Agent 难以撼动 。
荣耀(MagicOS): 荣耀通过与 DeepSeek 合作,将 R1 推理模型集成到 YOYO 助手中。荣耀采取的是 "意图识别"(Intent-based)路线,与 APP 厂商建立合作联盟(如 "任意门" 功能),通过官方接口交换服务,而非暴力破解 。
优势: 稳定性高,合规性好。微信可能会封杀豆包,但不敢轻易封杀小米或华为的系统级服务,因为这涉及数亿用户的基本体验。
路线三:代码驱动的 "生成者"(以蚂蚁集团 LingGuang 为代表)
策略: 蚂蚁集团推出的 "LingGuang"(灵光)助手选择了一条完全不同的路。它不试图去操作现有的 APP,而是根据用户需求,实时 "生成" 一个小程序(Flash App)。
案例: 用户说 "帮我做一个AA收款工具",LingGuang 会利用其万亿参数模型(Ling-1T)直接编写代码,在 30 秒内生成一个可交互的微型应用。
意义: 这是一种 "降维打击"。它绕过了 "APP 孤岛" 的争夺,直接创造了新的服务形态。这种模式不依赖第三方 APP 的接口,也不涉及模拟点击,因此规避了与超级 APP 的直接冲突 。
五、未来演进——AI 时代的 "服务经济" 重构
1、交互范式的转移:从 GUI 到 LUI
豆包事件标志着 LUI(Language User Interface,自然语言交互) 对 GUI(Graphical User Interface,图形用户交互) 的正式宣战。
GUI 时代: 用户适应机器。人通过点击图标、菜单来寻找服务。商业价值蕴含在 "寻找" 的过程中(广告)。
LUI 时代: 机器适应用户。人直接表达意图,机器直接提供结果。商业价值蕴含在 "服务完成" 的结果中。 这种转变将导致 "界面的消亡"(Death of the Interface)。未来的 APP 可能退化为 "无头服务"(Headless Service),仅提供后端 API 供 Agent 调用 。
2、新的商业规则:Agent Optimization
随着 Agent 掌握了流量分发权,不仅是 SEO(搜索引擎优化),AIO(Agent Optimization,智能体优化) 将成为新的营销必修课。商家不仅要让用户喜欢,更要让 AI "喜欢"。例如,如何让自己的商品被豆包或小爱同学优先推荐,将涉及新的算法博弈和竞价排名机制 。
3、跨应用协作的 "中间件" 机遇
为了解决 "豆包 vs 微信" 的死锁,行业急需一层 "Agent 中间件"。 这层中间件将定义标准的交互协议(Agent Protocol):
身份认证: Agent 如何向 APP 证明自己是经用户授权的合法代理?
权限分级: APP 如何向 Agent 开放部分非敏感数据(如商品目录),同时保护敏感数据(如聊天隐私)?
利益分配: 当 Agent 完成交易时,如何向提供服务的 APP 分润? Ant Group 的 "Lingji" 框架和腾讯云的 Agent 开发平台正在尝试构建这样的基础设施 。
写在最后
"豆包-中兴" 事件不是一场单纯的技术闹剧,它是 AI 技术在试图重塑旧有商业秩序时必然爆发的阵痛。
对于超级 APP 们(担心什么): 它们担心的是失去对用户的 "触达权" 和 "定价权",担心沦为 AI 背后的哑巴管道。这种担心是理性的,也是关乎生死的。
对于行业(利弊分析): 豆包的跨应用能力极大地提升了用户体验(利),但也破坏了生态的信任链条和安全基石(弊)。"模拟点击" 是一条捷径,但不是长久之计。
对于演进(后续影响): 此次冲突将加速 "手机厂商系"(OEM)Agent 的崛起,因为它们拥有协调 OS 与 APP 矛盾的天然政治地位。同时,它将倒逼行业标准的出台,未来的 Agent 将持证上岗,在 API 的高速公路上行驶,而不是在 GUI 的小巷里像幽灵一样穿梭。
历史的车轮滚滚向前,APP 的高墙或许还能耸立几年,但 AI Agent 的潮水终将漫过孤岛,将它们连成一片新的大陆。
#ArtificialInteligence #Bytedance #字节跳动 #豆包 December 12, 2025
2RP
今週もがんばりましょうね、二人とも♡
……ところで、週末の“お出かけ”、楽しかった? ふふ☺️
Let’s do our best this week, you two♡
…By the way, did you enjoy your little weekend outing? Hehe☺️
#AIイラスト
#AIOL部 https://t.co/LsqQussyz1 https://t.co/IuY9Nhm890 December 12, 2025
1RP
#AIOL部
あ、あの💦 今朝はちょっとバタバタしちゃいまして…朝食べるヒマがなかったというか…💦 https://t.co/lTzIrsUmAK https://t.co/TYiZTLiUAi December 12, 2025
.@KAIO_xyz 从最难的部分开始做 。
不是先追求规模,而是优先解决复杂度最高、要求最严苛的机构级场景:合规结构、风控体系、资产安全、流程可审计。
这些看不见的基础,如果一开始没打牢,后面的“普及”只会是空谈。
当机构级产品稳定运转之后,KAIO 才选择逐步向零售用户开放。不是一次性放量,而是分阶段、可控地推进,把复杂金融拆解成普通用户也能理解、也敢参与的形式。
因为真正的 adoption,从来不是抢跑红利,而是让更多人 长期、安心、合规地参与进来。
这,也是 KAIO 走得慢一点,却走得更远的原因。 December 12, 2025
北茨城なんて田舎のイラコンで生成AI部門なんて設けてるのがシンプルに凄いわ
マンホールコンテストで本名じゃ地元民しか応募しないだろうけどちゃんとこれから周知し続ければそれなりに応募数増えるんじゃないか
今が過渡期だからイラコンでAIOKなんてイメージ一切ないから周知が一番大変そう December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



