华为用过的寒武纪AI芯片再出新品，背后原来是科大少年班兄弟，哥哥做芯片弟弟做AI

手机大战升温，国内不少厂家都开始把拍照作为亮点，指望靠着AI算法，把用户拍的更美，来俘获芳心，增加销量。

不过，对于智能美颜这种复杂的运算来说，目前手机通用的CPU和GPU的处理效率并不高。即使是家大业大的智能手机大户，也会遇到人脸识别和美颜功能形同鸡肋的窘境，引得用户一阵吐槽。

于是，在不少有专业需求的国产高端智能手机上，我们看到了NPU的身影。

近日，为华为的麒麟970处理器提供NPU的智能芯片公司寒武纪科技再出新品，同时发布了第三代终端芯片Cambricon 1M和首款云端智能芯片MLU100。

这两款人工智能芯片，能更好的处理计算机视觉和语音识别等方面的需求。除了智能手机的美颜功能，安防监控、可穿戴设备和无人驾驶甚至云端服务器等，都能从中受益。

担忧“中国无芯”的人，或将因此吃下一粒定心丸。

“NPU”插曲，英雄不甘屈居幕后

NPU上一次引发广泛关注，还是在2017年9月2日，麒麟970首次亮相的德国柏林国际消费类电子产品展览会上。

这是华为海思用台积电10nm工艺做出来的芯片，号称“全球首款内置独立NPU的智能手机AI计算平台”。

NPU全称是Neural-network Processing Unit，即神经网络处理器。与适用于通用计算的CPU和GPU比起来，它突破了两者采用的存储和处理分离的“冯·诺伊曼结构”，采用“数据驱动并行计算”的架构，通过调整算法，能够更加高效地处理AI任务。

根据官方公布的数据，麒麟970内置的NPU的能效和性能是传统四核 CPU的50倍和25倍，这让麒麟970图像识别速度能够达到约2000张/分钟，而内置A10 Fusion的iPhone 7 Plus识别速度是487张/分钟，搭载骁龙835的三星S8是95张/分钟。

让麒麟970威力巨大的这款NPU，就是寒武纪的心血。

这里还有个小插曲。当时，在麒麟970的发布会上，华为消费者业务CEO余承东提及NPU时，用词是“华为NPU”，而PPT里也写着“Kirin NPU”，丝毫没有提及寒武纪的意思。

为此，寒武纪背后的中科院洋洋洒洒写了一封“外柔内刚”的“祝贺信”，并指出该“深度学习处理器”是“我所企业寒武纪公司（Cambricon Technologies）研制并具有自主知识产权的‘寒武纪1A深度学习处理器’（Cambricon-1A Processor）”。

后来，有消息指出，寒武纪此举是因为和华为之间只是IP授权的关系，后者并没有买断产权。

值得一提的是，与华为和媒体报道中对这款处理器的称呼不同，寒武纪在信中并未提及“NPU”这一英文缩写，而是多次强调1A是“深度学习处理器”。事实上，在最初展示1A的时候，寒武纪官方就一直在讲“深度学习”。

前几日的发布会后的采访中，陈天石说出了背后的原因：

“我们通常不称自己是NPU，因为Neural Processing Unit把应用限定在神经网络上。事实上，寒武纪做的是MLU（Machine Learning Unit)，各种机器学习算法，包括神经网络深度学习，也包括多种传统机器学习算法，都能很好地支持。”

也许是和华为的小摩擦提醒了寒武纪，在这场发布会上，“Cambricon MLU”被打上了注册商标“®”和商标“TM”的烙印，产权不容置疑。

1A是寒武纪在2016年就已经发布的“世界首款商用深度学习处理器”，除了智能手机，还可以应用于安防监控、无人机、可穿戴设备和智能驾驶等各类终端设备上。

虽然，寒武纪和华为的暗地交锋没有后文。好在，寒武纪也算争气，IP产品衍生出1A、1H之后，又在前不久发布了性能超越1A 十倍的第三代机器学习专用芯片1M。

以下是1M的部分参数：

生产工艺：台积电7nm；
8 位运算效能比：5Tops/watt（每瓦 5 万亿次运算）；
处理器内核尺寸：2Tops/4Tops/8Tops；

除了与1A、1H一样可支持 CNN、RNN、SOM 等多种深度学习模型之外，1M进一步支持SVM、k-NN、k-Means、决策树等经典机器学习算法的加速。

“使用 1M 的设备可以根据用户行为对应用进行个性化定制”，寒武纪的创始人兼CEO陈天石说。

同时，他指出，1M也是“全球第一款支持本地机器学习训练的智能处理器产品”，这意味着，日益让全球网民困扰的用户数据隐私问题将能被解决。

陈天石和哥哥陈云霁都是中科大少年班精英，早早拿了博士学位，然后留在中科院计算所当研究院。哥哥研究芯片，弟弟做人工智能。

2008年，陈云霁和陈天石领导的课题组开始研究神经网络算法和芯片，并且从2012年开始发表一些科研成果。当时，课题组研究出来的芯片DianNao平均性能就已经超过主流CPU核的100倍。

随着课题日渐成熟，两人于是在2016年到上海临港创立了寒武纪科技。后来，由于性格原因，哥哥继续在计算机所做研究，给芯片写代码，弟弟则当起了CEO，负责芯片的市场商业化推广，华为Mate10、P20、荣耀10手机里都有用寒武纪的NPU。

寒武纪科技发布1M那天，同时被推出的还有另两款重量级产品——Cambricon MLU 100 云端 AI 芯片，以及内置MLU100的云端智能处理卡。

MLU芯如其名，是一款应用范围从神经网络扩展到了机器学习（Machine Learning）加速任务的芯片，支持各类深度学习和常用机器学习算法，能够处理视觉、语音、自然语言处理、经典数据挖掘等多种云处理任务。

MLU100 采用了寒武纪最新的 MLUv01 架构以及台积电16nm工艺，并且具有两种模式：

平衡模式——
主频：1Ghz;
等效理论峰值速度：最高可达128 万亿次定点运算；
功耗：80W；
高性能模式——
主频：1.3GHz；
等效理论峰值速度：166.4 万亿次定点运算；
功耗：110w。

目前，联想和中科曙光分别推出了支持2个MLU100 智能处理计算卡的服务器ThinkSystem SR650和支持2-10个MLU100 智能处理计算卡的PHANERON，前者打破了 37 项服务器基准测试的世界纪录，后者在的能效则提高了30倍。

过去接受采访时，陈云霁曾经说过，神经网络处理器尚处在类似“春秋战国”的时期，和通用CPU不一样，在这个新兴领域里，中外研究不存在太多历史积累上的差距。

“相反深度神经网络处理器中国做得还是最早的，完全有领先的可能性。”