华为用过的寒武纪AI芯片再出新品,背后原来是科大少年班兄弟,哥哥做芯片弟弟做AI


作者:章姝敏
编辑:章姝敏
时间:2018-05-07 23:26

手机大战升温,国内不少厂家都开始把拍照作为亮点,指望靠着AI算法,把用户拍的更美,来俘获芳心,增加销量。

不过,对于智能美颜这种复杂的运算来说,目前手机通用的CPU和GPU的处理效率并不高。即使是家大业大的智能手机大户,也会遇到人脸识别和美颜功能形同鸡肋的窘境,引得用户一阵吐槽。

于是,在不少有专业需求的国产高端智能手机上,我们看到了NPU的身影。

近日,为华为的麒麟970处理器提供NPU的智能芯片公司寒武纪科技再出新品,同时发布了第三代终端芯片Cambricon 1M和首款云端智能芯片MLU100。

这两款人工智能芯片,能更好的处理计算机视觉和语音识别等方面的需求。除了智能手机的美颜功能,安防监控、可穿戴设备和无人驾驶甚至云端服务器等,都能从中受益。

担忧“中国无芯”的人,或将因此吃下一粒定心丸。

“NPU”插曲,英雄不甘屈居幕后

NPU上一次引发广泛关注,还是在2017年9月2日,麒麟970首次亮相的德国柏林国际消费类电子产品展览会上。

这是华为海思用台积电10nm工艺做出来的芯片,号称“全球首款内置独立NPU的智能手机AI计算平台”。

NPU全称是Neural-network Processing Unit,即神经网络处理器。与适用于通用计算的CPU和GPU比起来,它突破了两者采用的存储和处理分离的“冯·诺伊曼结构”,采用“数据驱动并行计算”的架构,通过调整算法,能够更加高效地处理AI任务。

根据官方公布的数据,麒麟970内置的NPU的能效和性能是传统四核 CPU的50倍和25倍,这让麒麟970图像识别速度能够达到约2000张/分钟,而内置A10 Fusion的iPhone 7 Plus识别速度是487张/分钟,搭载骁龙835的三星S8是95张/分钟。

让麒麟970威力巨大的这款NPU,就是寒武纪的心血。

这里还有个小插曲。当时,在麒麟970的发布会上,华为消费者业务CEO余承东提及NPU时,用词是“华为NPU”,而PPT里也写着“Kirin NPU”,丝毫没有提及寒武纪的意思。

为此,寒武纪背后的中科院洋洋洒洒写了一封“外柔内刚”的“祝贺信”,并指出该“深度学习处理器”是“我所企业寒武纪公司(Cambricon Technologies)研制并具有自主知识产权的‘寒武纪1A深度学习处理器’(Cambricon-1A Processor)”。

后来,有消息指出,寒武纪此举是因为和华为之间只是IP授权的关系,后者并没有买断产权。

值得一提的是,与华为和媒体报道中对这款处理器的称呼不同,寒武纪在信中并未提及“NPU”这一英文缩写,而是多次强调1A是“深度学习处理器”。事实上,在最初展示1A的时候,寒武纪官方就一直在讲“深度学习”。

前几日的发布会后的采访中,陈天石说出了背后的原因:

“我们通常不称自己是NPU,因为Neural Processing Unit把应用限定在神经网络上。事实上,寒武纪做的是MLU(Machine Learning Unit),各种机器学习算法,包括神经网络深度学习,也包括多种传统机器学习算法,都能很好地支持。”

也许是和华为的小摩擦提醒了寒武纪,在这场发布会上,“Cambricon MLU”被打上了注册商标“®”和商标“TM”的烙印,产权不容置疑。

科大少年班的兄弟芯片情

1A是寒武纪在2016年就已经发布的“世界首款商用深度学习处理器”,除了智能手机,还可以应用于安防监控、无人机、可穿戴设备和智能驾驶等各类终端设备上。

虽然,寒武纪和华为的暗地交锋没有后文。好在,寒武纪也算争气,IP产品衍生出1A、1H之后,又在前不久发布了性能超越1A 十倍的第三代机器学习专用芯片1M。

以下是1M的部分参数:

生产工艺:台积电7nm;

8 位运算效能比:5Tops/watt(每瓦 5 万亿次运算);

处理器内核尺寸:2Tops/4Tops/8Tops;

除了与1A、1H一样可支持 CNN、RNN、SOM 等多种深度学习模型之外,1M进一步支持SVM、k-NN、k-Means、决策树等经典机器学习算法的加速。

“使用 1M 的设备可以根据用户行为对应用进行个性化定制”,寒武纪的创始人兼CEO陈天石说。

同时,他指出,1M也是“全球第一款支持本地机器学习训练的智能处理器产品”,这意味着,日益让全球网民困扰的用户数据隐私问题将能被解决。

陈天石和哥哥陈云霁都是中科大少年班精英,早早拿了博士学位,然后留在中科院计算所当研究院。哥哥研究芯片,弟弟做人工智能。

左:陈天石    右:陈云霁

2008年,陈云霁和陈天石领导的课题组开始研究神经网络算法和芯片,并且从2012年开始发表一些科研成果。当时,课题组研究出来的芯片DianNao平均性能就已经超过主流CPU核的100倍。

随着课题日渐成熟,两人于是在2016年到上海临港创立了寒武纪科技。后来,由于性格原因,哥哥继续在计算机所做研究,给芯片写代码,弟弟则当起了CEO,负责芯片的市场商业化推广,华为Mate10、P20、荣耀10手机里都有用寒武纪的NPU。

芯片再进化,云端的MLU

寒武纪科技发布1M那天,同时被推出的还有另两款重量级产品——Cambricon MLU 100 云端 AI 芯片,以及内置MLU100的云端智能处理卡。

MLU芯如其名,是一款应用范围从神经网络扩展到了机器学习(Machine Learning)加速任务的芯片,支持各类深度学习和常用机器学习算法,能够处理视觉、语音、自然语言处理、经典数据挖掘等多种云处理任务。

MLU100 采用了寒武纪最新的 MLUv01 架构以及台积电16nm工艺,并且具有两种模式:

平衡模式——

主频:1Ghz;

等效理论峰值速度:最高可达128 万亿次定点运算;

功耗:80W;

高性能模式——

主频:1.3GHz;

等效理论峰值速度:166.4 万亿次定点运算;

功耗:110w。

目前,联想和中科曙光分别推出了支持2个MLU100 智能处理计算卡的服务器ThinkSystem SR650和支持2-10个MLU100 智能处理计算卡的PHANERON,前者打破了 37 项服务器基准测试的世界纪录,后者在的能效则提高了30倍。

过去接受采访时,陈云霁曾经说过,神经网络处理器尚处在类似“春秋战国”的时期,和通用CPU不一样,在这个新兴领域里,中外研究不存在太多历史积累上的差距。

“相反深度神经网络处理器中国做得还是最早的,完全有领先的可能性。”


来源:周到