手机大战升温,国内不少厂家都开始把拍照作为亮点,指望靠着AI算法,把用户拍的更美,来俘获芳心,增加销量。
于是,在不少有专业需求的国产高端智能手机上,我们看到了NPU的身影。
近日,为华为的麒麟970处理器提供NPU的智能芯片公司寒武纪科技再出新品,同时发布了第三代终端芯片Cambricon 1M和首款云端智能芯片MLU100。
这两款人工智能芯片,能更好的处理计算机视觉和语音识别等方面的需求。除了智能手机的美颜功能,安防监控、可穿戴设备和无人驾驶甚至云端服务器等,都能从中受益。
担忧“中国无芯”的人,或将因此吃下一粒定心丸。
NPU上一次引发广泛关注,还是在2017年9月2日,麒麟970首次亮相的德国柏林国际消费类电子产品展览会上。
这是华为海思用台积电10nm工艺做出来的芯片,号称“全球首款内置独立NPU的智能手机AI计算平台”。
NPU全称是Neural-network Processing Unit,即神经网络处理器。与适用于通用计算的CPU和GPU比起来,它突破了两者采用的存储和处理分离的“冯·诺伊曼结构”,采用“数据驱动并行计算”的架构,通过调整算法,能够更加高效地处理AI任务。
根据官方公布的数据,麒麟970内置的NPU的能效和性能是传统四核 CPU的50倍和25倍,这让麒麟970图像识别速度能够达到约2000张/分钟,而内置A10 Fusion的iPhone 7 Plus识别速度是487张/分钟,搭载骁龙835的三星S8是95张/分钟。
让麒麟970威力巨大的这款NPU,就是寒武纪的心血。
这里还有个小插曲。当时,在麒麟970的发布会上,华为消费者业务CEO余承东提及NPU时,用词是“华为NPU”,而PPT里也写着“Kirin NPU”,丝毫没有提及寒武纪的意思。
为此,寒武纪背后的中科院洋洋洒洒写了一封“外柔内刚”的“祝贺信”,并指出该“深度学习处理器”是“我所企业寒武纪公司(Cambricon Technologies)研制并具有自主知识产权的‘寒武纪1A深度学习处理器’(Cambricon-1A Processor)”。
后来,有消息指出,寒武纪此举是因为和华为之间只是IP授权的关系,后者并没有买断产权。
值得一提的是,与华为和媒体报道中对这款处理器的称呼不同,寒武纪在信中并未提及“NPU”这一英文缩写,而是多次强调1A是“深度学习处理器”。事实上,在最初展示1A的时候,寒武纪官方就一直在讲“深度学习”。
前几日的发布会后的采访中,陈天石说出了背后的原因:
“我们通常不称自己是NPU,因为Neural Processing Unit把应用限定在神经网络上。事实上,寒武纪做的是MLU(Machine Learning Unit),各种机器学习算法,包括神经网络深度学习,也包括多种传统机器学习算法,都能很好地支持。”
也许是和华为的小摩擦提醒了寒武纪,在这场发布会上,“Cambricon MLU”被打上了注册商标“®”和商标“TM”的烙印,产权不容置疑。
1A是寒武纪在2016年就已经发布的“世界首款商用深度学习处理器”,除了智能手机,还可以应用于安防监控、无人机、可穿戴设备和智能驾驶等各类终端设备上。
虽然,寒武纪和华为的暗地交锋没有后文。好在,寒武纪也算争气,IP产品衍生出1A、1H之后,又在前不久发布了性能超越1A 十倍的第三代机器学习专用芯片1M。
以下是1M的部分参数:
生产工艺:台积电7nm;
8 位运算效能比:5Tops/watt(每瓦 5 万亿次运算);
处理器内核尺寸:2Tops/4Tops/8Tops;
除了与1A、1H一样可支持 CNN、RNN、SOM 等多种深度学习模型之外,1M进一步支持SVM、k-NN、k-Means、决策树等经典机器学习算法的加速。
“使用 1M 的设备可以根据用户行为对应用进行个性化定制”,寒武纪的创始人兼CEO陈天石说。
同时,他指出,1M也是“全球第一款支持本地机器学习训练的智能处理器产品”,这意味着,日益让全球网民困扰的用户数据隐私问题将能被解决。
陈天石和哥哥陈云霁都是中科大少年班精英,早早拿了博士学位,然后留在中科院计算所当研究院。哥哥研究芯片,弟弟做人工智能。
2008年,陈云霁和陈天石领导的课题组开始研究神经网络算法和芯片,并且从2012年开始发表一些科研成果。当时,课题组研究出来的芯片DianNao平均性能就已经超过主流CPU核的100倍。
随着课题日渐成熟,两人于是在2016年到上海临港创立了寒武纪科技。后来,由于性格原因,哥哥继续在计算机所做研究,给芯片写代码,弟弟则当起了CEO,负责芯片的市场商业化推广,华为Mate10、P20、荣耀10手机里都有用寒武纪的NPU。
寒武纪科技发布1M那天,同时被推出的还有另两款重量级产品——Cambricon MLU 100 云端 AI 芯片,以及内置MLU100的云端智能处理卡。
MLU芯如其名,是一款应用范围从神经网络扩展到了机器学习(Machine Learning)加速任务的芯片,支持各类深度学习和常用机器学习算法,能够处理视觉、语音、自然语言处理、经典数据挖掘等多种云处理任务。
MLU100 采用了寒武纪最新的 MLUv01 架构以及台积电16nm工艺,并且具有两种模式:
平衡模式——
主频:1Ghz;
等效理论峰值速度:最高可达128 万亿次定点运算;
功耗:80W;
高性能模式——
主频:1.3GHz;
等效理论峰值速度:166.4 万亿次定点运算;
功耗:110w。
目前,联想和中科曙光分别推出了支持2个MLU100 智能处理计算卡的服务器ThinkSystem SR650和支持2-10个MLU100 智能处理计算卡的PHANERON,前者打破了 37 项服务器基准测试的世界纪录,后者在的能效则提高了30倍。
过去接受采访时,陈云霁曾经说过,神经网络处理器尚处在类似“春秋战国”的时期,和通用CPU不一样,在这个新兴领域里,中外研究不存在太多历史积累上的差距。
“相反深度神经网络处理器中国做得还是最早的,完全有领先的可能性。”