
几千年前的“算力”和今天有什么关系?
去年有本历史书叫《翦商》,很火。
它讲了个很有意思的观点。
说周文王被商王关起来的时候,捣鼓出的《周易》。
本质上,是利用当时最流行的占卜技术,来预测一件事。
就是推翻商朝这事儿,到底有多大把握。
后来他儿子周武王成功了,《周易》也就在周公旦的包装下,成了我们熟知的《易经》。
它代表了那个时代的神秘科技巅峰。
这和我们今天聊的AI大模型,其实有点异曲同工之妙。
它们都是在用“算力”来预测未来。
只不过,几千年前用的是木棍和脑力。
现在,我们用的是芯片。
这件事的重要性,在于算力正在从遥远的云端服务器,下沉到我们每个人的设备里。
一场围绕手机、PC、汽车本地AI算力的“军备竞赛”,已经悄悄打响。
“周易”X3来了,到底强在哪?
就在11月13日,安谋科技(Arm China)在上海发布了一款新东西。
名字很巧,也叫“周易”,型号是X3 NPU IP。
这可以看作是他们“All in AI”战略下,扔出的一颗重磅炸弹。
目标非常明确:就是要解决大模型在手机、汽车这些端侧设备上跑不动的难题。
安谋科技宣称,和上一代相比,“周易”X3在**AIGC**大模型上的能力,直接提升了10倍。
这个10倍可不是吹牛,是实打实的技术升级堆出来的。
首先是架构变了,专门为现在大模型最主流的Transformer架构设计。
这意味着它不再只擅长处理图片识别这类传统AI任务。
而是为未来几年大火的生成式AI、AI代理做好了准备。
其次,它对浮点运算的支持大大增强了。
我给你通俗解释一下这个技术名词。
【技术名词科普:定点 vs 浮点】
你可以把“定点计算”想象成用整数算账,比如1+1=2,精确但范围有限,适合以前的安防监控识别等简单任务。
而“浮点计算”就像用小数算账,比如1.01+1.02=2.03,能处理更复杂、更精细的数据,这是跑大模型推理所必需的。
“周易”X3的浮点运算能力(FP16 TFLOPS)提升了16倍,这是它能跑大模型的底气。
光有算力还不够,怎么让它“跑满”?
对于AI芯片来说,峰值算力高只是“入门券”。
真正的难题是,在实际运行时,能把多少算力用起来,也就是“算力利用率”。
很多芯片标称算力很高,但一跑起来就“出工不出力”。
安谋科技给了一组基于Llama2 7B大模型的实测数据。
“周易”X3在处理用户输入的提示词时,算力利用率高达72%,这在行业里算相当高了。
更夸张的是在生成内容(token)的阶段。
安谋科技说,配合一个叫WDC的自研解压硬件,它的有效带宽利用率能超过100%。
“超过100%”听起来像个物理学奇迹。
其实是他们用了一个很聪明的办法,解决了端侧设备最大的瓶颈——带宽。
简单说,就是大模型的参数文件(权重)是压缩存放的。
当NPU需要调用时,WDC这个硬件会实时解压,这个过程对软件是透明的。
这就好比,你家的水管物理上只有那么粗,但我用魔法把水压缩了,流出来的水就远超水管的物理极限。
这个“魔法”带来了15%~20%的等效带宽提升,让大模型能更流畅地生成内容。
为了让开发者用起来更爽,“周易”X3还配套了一个叫“Compass AI”的软件平台。
这个平台可以直接支持Hugging Face上的模型,一站式就能部署。
Hugging Face是全球最大的AI模型社区,这意味着最新的**AI模型**,开发者可以很方便地拿到“周易”X3上跑。
更重要的是,这个平台很多核心组件都开源了。
这给了有能力的开发者“白盒”优化的空间,甚至可以打造自己的编译器,做出差异化产品。
写在最后:这和我们小微企业主有什么关系?
你可能会觉得,芯片发布离我们太遥远了。
但“周易”X3这样的**边缘AI**芯片,其实预示着几个非常实际的搞钱机遇。
第一,隐私和速度催生新应用。
当大模型能在你的手机、汽车上本地运行时,你的数据就不用上传到云端了。
这意味着更安全、响应更快的AI应用会成为可能。
比如,完全离线的智能个人助理、保护隐私的健康顾问、反应极快的智能座舱交互。
对创业者来说,这是一个全新的蓝海,可以开发出过去依赖云端API无法实现的产品。
第二,垂直场景的AI Agent(智能体)迎来爆发。
强大的端侧算力,让AI Agent不再是巨头的专属。
你可以为特定行业,比如汽车维修、法律咨询、电商客服,开发在本地设备上运行的专用AI Agent。
这些Agent因为离线运行,成本更低,也更能保护商业机密。
第三,软硬件结合的解决方案有了新机会。
安谋科技提供的是IP,最终会落地到各种设备里。
这意味着,未来会有大量搭载了类似“周易”X3芯片的智能设备出现。
围绕这些新设备开发配套的AI软件、优化服务、内容生态,都是实实在在的创业方向。
总的来说,算力从云端走向我们身边,真正的AI普及才刚刚开始。
关键在于,你是否能看到技术趋势背后,那些正在萌芽的新需求和新机会。

