太火了！商汤科技发布“日日新SenseNova”大模型体系，人工智能企业纷纷进入新赛道

4月10日下午，数百人来到临港的商汤科技人工智能计算机中心，当天，商汤发布了“日日新SenseNova”大模型体系。这一天，昆仑万维宣布大语言模型“天工”3.5将在4月17日启动测试；搜狗创始人王小川正式对外官宣成立百川智能，年底前赶上ChatGPT-3.5。与此同时，产业界也在期待4月11日阿里云“通义千问”的新动态……

在临港的商汤科技人工智能计算机中心参加技术交流活动的人群中，有投资人，也有汽车、医疗等各类产业行业客户，体验区的人那是相当热闹，很多人在电脑前不断“刁难”商汤的语言大模型“商量SenseChat”：

“商量、文心一言、通义千问，有什么区别？”

“苹果公司在大模型领域有哪些布局？”

“特斯拉中国建新厂，产业链上下游有哪些公司受益？”

……

现场一个体验者说：“我问了360周鸿祎同样的问题，看看这个模型的效果怎么样？”

“你可以问它一些创意性、规划性的问题，这个可能效果更好一点。”现场的一个工作人员说，如果是针对事实的提问，有时可能是有一点问题。

此次商汤科技发布的“商量SenseChat”，具备一定的多轮对话和超长文本的理解能力，也支持一些创新应用，比如编程助手，可帮助开发者更高效地编写和调试代码；健康咨询助手，为用户提供个性化的医疗建议；PDF文件阅读助手，能轻松从复杂文档中提取和概括信息。

除了“商量SenseChat”，商汤科技的“秒画SenseMirage”文生图创作平台、“如影SenseAvatar”AI数字人视频生成平台、“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台也在当天全面展示出来，体验者、问询者也是络绎不绝。

“在AI大模型时代，数据、算法和算力这三要素也在经历新的演变，大模型参数量将以指数级的速率提升，而数据量随着多模态的引入也将大规模增长，因此就必然会导致对算力需求的剧增。“商汤科技董事长兼CEO徐立现场分享时说。

商汤科技联合创始人、首席科学家王晓刚也表示：“AGI催生了新的研究范式，即基于一个强大的多模态基模型，通过强化学习和人类反馈不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。AGI将实现从‘数据飞轮’到‘智慧飞轮’的演进，最终迈向人机共智。”

ChatGPT引发的这一轮风口，让众多云计算公司、人工智能公司看到了历史性的机遇，美团联合创始人王慧文、搜狗创始人王小川……这些从上一家公司“退休”的人，一夜之间，纷纷进入语言大模型的赛道，激情澎湃。ChatGPT同时也带来全球化的AI投资热潮，众多投资者都在选择投资标的，目前微软、谷歌、英伟达均为投资者追捧对象。

成本急剧降低，商业模式将发生大变化

“自然语言大模型，它展现出来的的推理能力，还有新涌现出来的功能确实是让我们眼前一亮，特别是能联想到怎么让自然语言跟图像、跟其他能够有一个更好的结合。“商汤科技联合创始人、首席科学家王晓刚接受采访时说，“目前是在技术革命到来的时刻，我们一定会保持一个非常开放的态度去看，去探索各种可能性。”

在王晓刚看来，通用人工智能大模型带来了人工智能范式的变化，通过人和机器模型之间的交互，给人带来这种反馈，如此可以不断去解锁这个模型新的功能，它就以极低的成本、非常高效的方式去解决各个领域里面新出现的各种开放性的任务，这里带来的研发效率是大幅的提升的，人工智能所覆盖的范围也是大幅提升。

徐立技术交流日现场分享

“它跟以往的一个不同之处在于它能够去产生内容，人和机器与模型在互动的过程当中，去不断的去产生有智慧的内容，我们就叫做人机共大家通过循环的迭代去产生高质量的智慧和内容。”王晓刚说，（自然语言大模型）打开了一个非常大的想象的一个空间，后面怎么跟视觉结合，我觉得这就是一个全新的、需要思考的领域。

商汤科技联合创始人、大装置事业群副总裁陈宇恒也表示，人工智能大模型最大的特点是泛化能力非常强，可以问语文的问题，问数学的问题，问编程的问题，问物理的问题，它都可以给出不错的答案。你可以让它生成二次元风格的动画，也可以让它生成写实类型风格的图片，一系列的泛化能力展现就是规模效应的核心。比如可以通过训练出非常聪明的人工智能大模型之后，它可以非常直接的或者非常低的成本就服务于各行各业，而不需要像以前这样去做大量的手动的优化或者重新训练的工作，这会导致人工智能生产成本急剧地降低，或者应用成本急剧地降低，是商业模式上很大的转变。

徐立技术交流日现场分享

在陈宇恒看来，从人类发展角度，工业革命，蒸汽机的出现，把能源的转换效率提高了几十倍；电力的出现，把原来蒸汽时代的转换成本以及传输变电，利用的能源成本和效率也有几十倍提高。那计算机互联网的出现，所谓的信息革命，是把信息的传播、存储、分析效率从原始的纸张提到电子化、信息化，也提高了几十倍。“为什么我们觉得人工智能大模型是所谓的人工智能 2. 0 时代或者 AI 2.0时代？就是因为它一方面可以把原来的人工智能生产效率有呈几十倍甚至上百倍的提升，这样它在成本上就达到了商业要求。”

生产力工具变革，将带来生态大繁荣

技术交流日活动现场，商汤团队向外界展示了“日日新SenseNova”的各种AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用：

“秒画SenseMirage”文生图创作平台，展现了光影真实、细节丰富、风格多变的文生图能力，可支持6K高清图的生成；客户还可根据自身需求训练生成模型。
“如影SenseAvatar”AI数字人视频生成平台，仅需一段5分钟的真人视频素材，就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。
“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台，可以高效低成本生成大规模三维场景和精细化的物件，为元宇宙、虚实融合应用打开新的想象空间。

“生产力工具的变革，也会带来非常大的生态繁荣，所以我们觉得出现了大模型或者大模型基础设施之后，并不会形成行业垄断，反之会成为推进整个人工智能行业生态蓬勃发展的非常重要的组成部分。”商汤科技联合创始人、大装置事业群副总裁陈宇恒说。

"我们希望这个模型是一个很有天分的运动员，它能够不断给你带来惊喜，能够解锁新的能力。"商汤科技联合创始人、首席科学家王晓刚认为，在通用模型不断涌现出新能力并帮助客户解决问题的同时，开放生态合作是非常重要的，"生态合作伙伴可以在我们的这些模型上做各种微调，得到他们各种风格不同的模型。未来，我们也是希望能够依靠社区的力量把我们的这些模型进行调教，不只有原始模型，还有各种各样的这样的一些模型存在，能够更好的往前推进。"

算力需求大增，打造大模型的基础设施

人工智能的大模型技术，依托几个要素，首先是大算力，其次依托大数据，然后还有模型的设计。当前业界训练大模型对大算力的需求非常旺盛，并且真正好用的基础设施十分稀缺。

“现在一个很明显的趋势，就是每一代的模型的智能，它和算力有很大的相关性。下一代人工智能比上一代，比如说 GPT-4 比 GPT-3可能是百倍级的算力的需求，甚至它的参数量是十倍以上的需求，对应也需要更多的数据去完成训练。”商汤科技联合创始人、大装置事业群副总裁陈宇恒认为，在不断去接近所谓的通用人工智能或者 AGI 的路线上，肯定是要把基础的超大模型越做越大，这是未来 2 到 3 年，整个无论从学术界还是从工业界，还是从我们自己的对 AI 的理解上，都是比较明确的方向。

“很多人认为，只要买了这么多GPU，就可以去搭建超大规模的训练集群，这是很大的误区。其实去训练人工智能大模型，去造超级AI计算机去完成任务，我认为是工程的奇迹。”陈宇恒说，这里面有几个挑战：

一是如何去通过一个很好的系统架构和网络架构设计，把这么多 GPU 高效地连接起来去做通讯，使它们有非常高的并行效率。
在大模型的训练里面按照整个技术路线，从在1千卡级的训练集群的商业化到3千至4千卡及集群的大规模的部署，到未来的1万张卡的更大规模的单一集群的部署，去训练更大的模型的基础上，这里需要保证集群的规模越来越大，但是它的并行效率是可以得到很好的保障的。
理论上，1万张卡和1000张卡是有10倍的训练速度，但是如果系统没有良好的设计，可能1万张卡只能有1000张卡2 倍的训练效率，那从经济角度、投资回报的角度来说是完全不划算的。所以需要从系统到训练框架到算法的联合优化，使线性度可以得到很好的保障。
其次是如何保障长时间、无故障的运行时间。
用 100 张卡去做联合的训练时， GPU 可能每天每1000张GPU中有一张卡左右的故障。那有100 张卡的时候可能每天会故障0.1张，但如果说有1万张卡时，每天就可能故障更多张，系统的平均无故障时间可能在1万张卡的时候就只有一两个小时，那系统是没法使用。所以如何解决从硬件的可靠性，到软件的容错能力，使我们可以支撑未来万卡级的人工智能大模型的并行训练，在分布式系统的设计和软件框架的设计上，这提出了很大的挑战。

据了解，商汤历时五年，建设了业界领先的AI大装置，大装置上总共有27000块的GPU芯片卡，可以输出5.0 exaFLOPS的总算力，是亚洲目前最大的智能计算平台之一。基于大装置的能力，商汤目前已构建了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型，持续演进能力并广泛支持各种应用。

“未来，我们会把模型往更大的去做，我们现在是千亿级，后面会做到万亿级的模型参数，通过更大的算力和更大的模型去形成更强的智能的能力，为我们的生产力工具，或产品的用户体验提供更强大的人工智能驱动的引擎。”商汤科技联合创始人、首席科学家王晓刚认说，不过当我们面向ToB的应用发展起来的时候，我们一定是要通过模型的优化，生产小模型，降低对算力的需求，这样当我需要增加算力的时候，就不是这种线性的增加算力，我增加了10家客户，但我不需要10倍增加我的算力。