您当前位置: 威斯尼斯人wns8888 > 手赚资讯
作者:小编
2024-04-27 03:09 浏览: 分类:手赚资讯

对话商汤联创王晓刚:“千模大战”今年会收敛手机、汽车等端侧应用将爆发

  原标题:对话商汤联创王晓刚:“千模大战”今年会收敛,手机、汽车等端侧应用将爆发

对话商汤联创王晓刚:“千模大战”今年会收敛手机、汽车等端侧应用将爆发(图1)

  去年4月份,国内AI公司商汤踏入了大模型热潮,并在过去一年里,加快追赶OpenAI。

  在近日的技术交流日上,商汤董事长&CEO徐立正式发布日日新5.0大模型,全面对标GPT-4 Turbo,并推出“云端边”的全栈产品矩阵。

  徐立说手机应用,现在已经进入AI大模型2.0时代。“去年主要聚焦在模型本身的参数发布,而今年则更多关注行业场景的落地,以行业来驱动人工智能的爆发。”

  商汤联合创始人、首席科学家王晓刚对搜狐科技表示,未来百模或千模大战不可持续,而大模型竞争的关键在于差异化,而端侧将迎来爆发,这将是商汤的战略重点之一。

  4月24日,商汤股价暴涨31%,一定程度显示出市场对商汤转型大模型的认可。但在落地尚在初期的情况下,商汤还需挖掘出应用的更多爆发点。

  商汤此次发布的日日新5.0在多个方面实现升级,采用混合专家架构(MoE),拥有6000亿参数,推理上下文窗口达到200K,相当于超过36万字,超过GPT-4 Turbo的128K。

  同时,该模型增强了知识、推理、数学、代码等能力,全面对标 GPT-4 Turbo。基准测试显示,商汤基于日日新5.0打造的大语言模型商量在综合考试、语言知识、尝试推理、数学科学、代码等五大能力全面超越GPT-3.5Turbo,仅在数学和代码的两个测试集上的表现不如GPT-4Turbo。

对话商汤联创王晓刚:“千模大战”今年会收敛手机、汽车等端侧应用将爆发(图2)

  随着基座大模型升级,商汤多模态能力也有所提升。根据演示案例,与Midjourney等主流生图模型相比,商汤的秒画对生图提示词的理解更好,同时对图像识别的内容完整性和准确性也比GPT-4高。

  “我们的多模态能力能够把感知、理解、识别、生成一体化完成。”徐立表示,商汤还打造了文生视频平台,会更关注视频生成的可控性和交互性,预计很快就会发布。

  虽然现在测试集被吐糟用来评价大模型的能力并不科学,但也能在一定程度上表明不同模型在某些特定任务上的能力差异。日日新5.0多项能力全面对标甚至超越GPT-4 Turbo,也显示出商汤依然在加速追赶OpenAI。

  这背后则是商汤对Scaling Law(尺度定律)的信仰,其核心是随着模型的参数变大、数据量变大、训练时长加长,算法性能会越来越好。

  在徐立看来,尺度定律是资源配置的引导器,可以在有限的研发资源上找到最优的模型架构和数据配方,从而让模型能够更高效地完成学习的过程。

  徐立认为,大模型的能力可以分为三层,包括知识层、推理层和执行层,这是构造高质量数据的核心方法论,而数据正是大模型持续提升的瓶颈之一。

  据介绍,日日新5.0采用超过10T Tokens的中英文预训练数据,并合成构造了几千亿的思维链数据。

  “这是真正意义上保障模型能力提升的关键。如果每个行业的思维链数据都能够被轻松构造,那推理能力就会大幅度提升,这个过程中构造数千亿的知识链数据,使得模型能力可以对标GPT-4。”徐立称。

  不过,Scaling Law也会面临很多物理极限,如数据使用殆尽会导致合成数据速度放缓,如硬件连接有极限,如超高规模的算力卡连接可能会引发电力短缺。

  商汤对此提出的解决办法是对算法设计和算力设施联合优化。搜狐科技了解到,目前商汤AI大装置SenseCore运营算力已达1.2万PetaFLOPS,随着二期算力中心逐步投入使用,今年底将达到1.8万P。

  目前,商汤算力中心已上线万张,除了英伟达,还完成华为、昆仑芯、壁仞、燧原等58款国产芯片的适配。

对话商汤联创王晓刚:“千模大战”今年会收敛手机、汽车等端侧应用将爆发(图3)

  这也是商汤自去年入局大模型以来,打造的核心竞争力,为此计划合计投入百亿打造算力基础设施,并在今年实现万卡集群(3000P算力)的模型训练,未来还将把1万P的算力连接起来去训练更大的模型。

  “没有这些基础设施,以及数据生产管线研发流程体系的持续演进,将来不可能跟踪行业最先进的水平,甚至是做各种创新和超越。”王晓刚说。

  这也意味着未来大模型对资源的投入、软硬件基础设施的要求会越来越高,但并不是每一家都要这么做。“这必然导致的一个结果就是不会有那么多家去从事大模型,百模或千模大战会进行收敛。”

  商汤日日新的迭代,显示国内大模型在技术层面的竞争依然激烈。王晓刚认为,今天大模型发展最重要的不是到底是有几个模型能生存下来,最重要的还是模型的差异化。

  “今天说大战也好,卷也好,主要体现在缺少差异化。”王晓刚表示,未来重要的是怎么能通过原创和创新,并和行业结合能做到模型的差异化,而不是一味跟随。

  这家以坚持原创为使命的AI公司,在推进大模型技术的同时,也在持续推动其落地应用。

  徐立认为,端侧能力的应用是大模型行业应用铺开最核心的关键,而今年是大模型在端侧应用爆发的元年。

  王晓刚提到,智能终端是大模型非常广泛的载体和场景,如果用云端去解决就面临很高的成本问题。“比如30亿台手机,每人每天调用近10次,那对云端的算力需求和消耗成本巨大。”

  此外,有些场景,如智能驾驶,对数据的传输速度要求非常高,以及对数据安全、隐私保护有需求的行业,包括没有网络的地方,这些场景都需要在端侧部署大模型。

  目前,商汤在端侧推出了18亿和70亿的两款模型。根据测试,商汤18亿模型的能力领先所有开源20亿同级别模型。商汤还基于此推出端侧SDK,并和高通骁龙7和8系列芯片,以及MTK天玑芯片达成合作。

对话商汤联创王晓刚:“千模大战”今年会收敛手机、汽车等端侧应用将爆发(图4)

  徐立认为,端侧模型决策速度更快,如果要追求高性能,可以用端云联动的模式,并可以针对不同行业应用设置云端联动百分比,从而得到最佳推理效果。

  一般来说,云端大模型更强调通用能力,能做很多事情,而端侧模型只需要在某些方面做到足够好就可以。

  同时,随着云端大模型能力变得更强,也能帮助生成在某些高质量的数据,用这些数据就能更好地训练端侧模型,也能推动其性能快速提升,从而跟云端体验对齐。

  王晓刚介绍,通过端云的结合,可以保证大部分80%对大模型的调用通过端上来解决,少部分通过云端解决,因此端侧市场潜力巨大。

  “手机每年有30亿部,PC每年出货量每年有2-3亿台,汽车智能化也在高速发展,因此端侧大模型是商汤今年的一个战略重点。”王晓刚表示。

  目前,包括苹果、小米等在内的国内外手机厂商都在布局手机端大模型,有的除了跟供应商合作,还在自研。对此王晓刚认为,手机上的大模型一定是端云结合的模型,手机上的端侧模型也会不止一个。

  智能汽车也是商汤端侧模型落地重点,商汤此前将公司业务调整为以智慧城市为核心的传统AI、生成式AI和智能汽车业务绝影。

  王晓刚表示,智能汽车现在最大的问题是怎么能通过智能化提升品牌的议价能力,给10万、20万和30万的打造差异化的点,而大模型就能带来差异化,能增加品牌的价值。

  不过,不同于手机靠文本输入交互,智能汽车则是多模态大模型应用的典型场景,可以通过端到端数据驱动,使研发节奏能有大幅提升,且能提升人车交互。

  王晓刚表示,这些技术未来还会拓展到机器人,但他强调称,商汤未来重心不是做实体的机器人,而是打造机器人的大脑。

  对于此前商汤智能汽车业务独立融资的传闻,王晓刚则回应到,会给绝影更大的投入和更多的自主权,让绝影能在智能汽车终端里充分地展示通用人工智能和大模型的价值。

  除了端侧,商汤同样在发力在企业级应用,并推出企业级应用一体机,让企业可以基于一体机做千卡的推理,成本比云端下降80%。

  商汤现场还联合华为昇腾共同发布了基于金融、医疗、政务、代码等四大领域的行业一体机。小米、金山办公、海通证券、阅文集团等还为商汤大模型站台,如小米的小爱同学就采用了商汤的大模型技术,并用在手机和小米SU7等产品上。

对话商汤联创王晓刚:“千模大战”今年会收敛手机、汽车等端侧应用将爆发(图5)

  对于大模型的行业应用,徐立认为关键是要构造不同的数据集,需要企业级别的数据,甚至行业级别的数据,来构造思维链数据,从而形成差异化的竞争能力。

  目前,商汤是国内少有的率先吃到大模型红利的企业,去年生成式AI 业务带来12亿营收,而手机、智能汽车等端侧业务正是核心的增长亮点。

  但正如王晓刚所说,大模型是一个长期投入、长期竞争的过程,商汤还需保持更多的耐心去获取技术投入的回报,从规模收入到走向盈利,同样也需要一个过程。返回搜狐,查看更多

手赚资讯
安卓赚钱苹果赚钱
阅读头条转发赚钱