东吴证券:端侧AI革新人机交互,模型快速升级

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  财中社 邓芷晴 1.2w阅读 2025-03-03 11:50:32
3月3日,东吴证券发表研究报告称:端侧AI革新人机交互,模型快速升级,巨头...

3月3日,东吴证券发表研究报告称:端侧AI革新人机交互,模型快速升级,巨头引领行业发展:AI自主化能力沿着“以指令为中心“到“以意图为中心”持续提升。LLM从各个层面改造终端,其中Agent对开放式问题必不可少,背后是大模型带来的理解复杂输入、进行规划推理/合理使用工具的能力。据头豹,端侧AI市场规模2023-2028年预计CAGR高达58%,2028年超过1.9万亿元。从具体小模型性能表现上看,参数量对模型性能影响巨大,但受限于硬件,小模型的技术创新更加积极以提升有限参数量下的性能表现,其中量化/剪枝/蒸馏是最主要的模型压缩方式,各家小模型因数据集/压缩精度/量化混合方式等差异预计带来小模型的百花齐放。Agent架构中,基础模型本身要引入新的输入类型,成为VLA模型,同时还增加了个性化和内存操作要求,均需要额外的优化。

硬件变革核心在内存,苹果发力内存创新应对内存瓶颈:相比于云端模型,硬件是端侧模型的重要制约,需要升级以补齐短板。对比各家硬件,认为苹果在内存/电池/散热上提升空间巨大。认为内存及其操作带来的能耗是当前最短板,预计成为硬件核心变革方向,如半精度的7B模型仅参数加载占用DRAM就超过14GB,同时DRAM耗能比SRAM和计算高出两个数量级。同时iOS和安卓内存利用效率差异巨大,认为安卓需要在OS层提供统一的AI基础模型,而iOS在模型压缩之外则需要提高硬件内存以克服硬件瓶颈。除了简单的增加内存容量外,苹果在内存结构、耗能、传输速度等方面创新密集,如与三星合作开发独立封装形式,以及推进全新的WMCM封装方式进一步提高芯片组合的灵活性和集成度。

多模态UI交互界面革命带来Agent的历史机遇:根据交互的模式,任务执行方法可分为基于API和基于用户界面(UI)的方法。API交互泛用性较弱。UI界面方式在Transformer架构下较好克服了任务和UI元素之间的隐含关系,大幅提升了GUIAgent的可行性,有望成为主流。当前苹果和谷歌均发力UI交互模型,苹果的Ferret-UI和谷歌的ScreenAI模型都采用读屏AI视觉语言模型,采用统一编码方式理解屏幕信息。从谷歌UI模型看,模型参数提升对性能影响较大,同时5B模型对性能提升尚未饱和,有必要继续提升模型性能。

重要提示:本文仅代表作者个人观点,并不代表财中社立场。本文著作权归财中社所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至czs@caizhongshe.cn。

相关推荐

最新文章推荐

长按保存图片