价格战的硝烟似乎还没有平息,但 ai 厂商们的又一场战争已经开始。
这一次的竞争核心是大模型应用开发。根据 idc 报告,2023年中国大模型平台及相关应用市场规模约还仅有区区17.65亿元人民币,但伴随着行业的巨变,2024年,模型应用开发相关的产业规模预计将会上涨至百亿级别,各行各业对于 ai 技术、模型应用的重视前所未有。
“今天我们接触到的所有客户、所有开发者、所有 cto,几乎都在用 ai 重构自己的产品。”在2024云栖大会上,阿里巴巴集团 ceo、阿里云智能集团董事长兼 ceo 吴泳铭也在主题演讲中印证了这一事实。在更垂直的一些领域,包括汽车制造、生物医药、工业仿真、气象预测、等行业,ai 大模型都在加速渗透。一场新产业革命正在轰轰烈烈却又默不作声地演进着。
而对于百度智能云、火山引擎、阿里云等厂商来说,大模型上游侧对于算力、底座大模型开发的攻城略地已经进入白热化,囤好了“粮”,一场产业下游的“跑马圈地”也即将开始。ai agent、rag、模型训推、工作流编排..... 新的技术革新故事正被传颂着,对于厂商们来说,大模型等技术终于来到了实践验证的阶段。这将是一场刺刀见红的“厮杀”,养兵千日,用兵一时,针对爆炸式增长的需求,谁能推出更好用的平台产品,谁似乎就抓住了 ai 技术发展的下一个机会。
如同 ios 与安卓的竞争一样,生态即是关键,在规模法则愈加应验的今天,抓住更多行业的数智化浪潮,为自身垒砌护城河,已经成为关键。但许多问题仍萦绕在人们心中:市场对于大模型应用开发的核心需求是什么?对于厂商来说,怎样才能打赢这场“战争”,站在“紫禁之巅”?
1抢占先机!谁抓住了大模型应用开发,谁就抓住了未来?
大模型技术何以应用?关键在于对数据要素价值的进一步挖掘,借助大模型强大的数据处理能力和深度学习能力,数据信息等生产要素的使用效率进一步提高,并借助新的生成方式作用于企业生产业务与经营决策中,通过更深层次的“数智化”,赋能不同的生产场景。
根据前瞻产业研究院发布的《2024中国 ai 大模型场景探索及应用报告》,大模型技术在金融、政务、教育等领域的渗透率均超过50%,借助生成式 ai 等能力,智能客服、智能营销、智能搜索等通用场景的应用成熟度逐渐增高,在医疗、制造、电商等领域,改变也在同步发生,包括英特尔、百度在内的软硬件厂商们正在不断布局这些行业领域,希望将大模型能力进一步融入进相关场景业务中,通过针对性的垂直应用产品提升业务效率。
“风口”已经到来,但对于许多企业来说,想要自如的运用大模型的能力,却并没那么简单。首先是算力瓶颈问题,高性能硬件资源的高昂成本和专业管理需求对许多企业构成了压力。其次,不同系统和框架之间的兼容性问题也增加了额外的开发工作和pg电子试玩免费的技术支持需求,人才紧缺也制约了企业大模型应用开发的脚步。此外,企业还需要关注模型的构建、训练、优化、部署和维护等多个层面的需求,这又在无形中增加了成本。
所有行业,都需要性能更强、规模更大、更适应 ai 需求的基础设施,并将其作用于应用开发之中,于是 ai 独角兽、云厂商们开始持续发力。
目前,国内外主要的 ai 大模型厂商均推出了大模型应用开发平台或相应的产品矩阵,在国外,openai 开发者平台、亚马逊云科技的 bedrock,azure ai studio 风头正劲,在国内,百度智能云的千帆生态、字节跳动的火山方舟等也备受关注,而最近阿里云也同样在大模型应用开发领域作出了新的部署,这也进一步引起了全行业的关注。
2024云栖大会上,阿里云宣布其主攻大模型应用开发的两大产品——大模型服务平台百炼和人工智能平台 pai 也迎来了新的升级:阿里云百炼进一步增强⼯作流与智能体的流程编排能⼒,同时也发布了百炼2.0专属版本,专⻔针对政企客户做了使⽤优化;⼈⼯智能平台 pai,已实现万卡级别的训练推理⼀体化弹性调度,ai 算⼒有效利⽤率超90%,进一步提升了大模型工程开发能力。这无疑是阿里云为建立 ai 开发和应用落地全栈能力的又一个重要布局。
对于许多企业来说,在数智化升级的前期,相关需求并不明晰,其使用的产品就需要覆盖更多元的功能与调用能力,而百炼和 pai 即可满足企业在大模型应用开发中的多样化需求。
百炼依托阿里云的 ai 基础设施,提供全面的模型应用开发工具,支持企业通过 prompt 构建 agent 和 rag 系统,实现模型功能的快速接入与应用构建。pai 则提供构建和定制大模型的能力,满足企业从0到1构建大模型或深度定制模型的需求。无论是模型调用、应用开发还是模型开发,借助百炼和 pai 的产品能力,企业基本能够实现模型功能在大模型领域的全栈落地。
百炼与 pai 的能力就在于,其真正将“应用开发”的全部能力整合进产品中,并通过逻辑清晰的封装与灵活易用的特性增强其开发能力。这也有针对性地解决了诸多大模型应用开发平台所面临的问题:单个工具的使用门槛并不高,但整体构建的框架与工作流并不清晰,致使大模型应用开发陷入困顿。真正的模型应用开发,不是简单的开发一个 agent,或是孤立的 rag 系统,而是能够由浅入深,真正构建出一款大模型应用,从而“一站式”地满足企业的数智化升级需要,以及多元的业务需求。
2破解成本与效率的迷局:如何让模型应用开发物有所值?
ai 的尽头是算力,尽管这是一句老生常谈,但在市场数据的支持下,我们不得不承认这一点。
随着 ai 大模型技术的迅猛发展,算力市场也在经历剧烈的变化。企业对大模型应用的需求不断增加,推动了对高性能计算资源的需求,尤其是 gpu 的需求,供不应求一度成为常态。时间来到2024年,ai 算力市场的供需关系逐渐平衡,部分 gpu 和 ai 服务器价格有所回调,nvidia h100和 rtx4090的租赁价格在10个月内下降了50%,h100的8卡节点年租赁价格从12-18万元降至约7万元。尽管如此,高端 gpu 如 a100仍供不应求,价格较高。国产 ai 芯片逐步崛起,但短期内难以大幅缓解供应压力。
在2024ai hardware summit 上,微软云计算 ai 和高级系统副总裁 zaid kahn 在演讲中提到,目前模型训练的计算需求与关键基础设施之间存在日益扩大的差距,训练计算量每年增长4.2倍,而内存带宽增长1.26倍,互连带宽增长1.18倍,算力、传输等技术的解锁已经成为目前行业发展的绕不过的关隘,整个行业需要系统性的革新。2024云栖大会上,阿里云 cto 周靖人也直言,算力供不应求的情况客观存在。
巨变仍需等待,算力资源等成本的居高不下,一直让大模型走向应用落地的步伐走得不是很畅快。这也为模型厂商的价格战提供了“土壤”,借助规模优势与技术创新,ai 服务背后的算力成本被进一步稀释,但对于很多企业来说,投入产出比仍旧是目前入局大模型应用开发的核心考虑因素,谁能用更低的价格提供更多的资源,帮助企业解决性价比问题,谁就能尽可能地占据更多的市场份额。
如何开源节流,技术创新为上策。对于云厂商们来说,首先就是充分利用自己的规模优势,scaling law 不仅在大模型的深度学习与训推中能够发挥作用,同样可以能够在大模型应用开发中发光发热。
纵观全球 ai 及云计算厂商,只有阿里云和 google cloud platform(gcp)同时拥有云基础设施和自研大模型开发的能力,其中阿里云作为中国唯一提供 ai 全栈产品与服务的公司,不断升级其底层计算、存储、网络等基础设施,为 ai 计算业务提供了超大规模、超强性能的智能算力。其灵骏集群能够支持单集群十万卡级别的 ai 算力规模,万卡规模性能线性度超过96%,网络带宽利用率超过99%,并行存储吞吐达到20tb/s。这进一步为阿里云的大模型应用开发服务提供了深厚的算力基础。
另一方面,模型产品的多样性也在不断丰富,百炼能提供包括通义千问在内的主流大模型的调用服务,借助30万 企业客户的不断调用,调用成本不断降低,同时模型也借助生态的规模优势不断调优,让模型的能力更加精准,附加多模态、全尺寸等全面的产品功能,也让企业对于资源的利用率进一步提高,让算力资源能够更加有的放矢。
企业在使用云计算资源时,往往会选择比实际需求更大的实例规格,以应对潜在的高峰负载。这种做法虽然能确保在高峰期不出现资源不足的情况,但在大部分时间里,这些资源处于闲置状态,导致算力浪费。例如,根据调查,约40% 的组织云计算规模是实际需求的两倍。
与此同时,在目前万卡集群等境况下,异构计算技术的不完善会导致大规模的算力浪费;在异构计算环境中,不同规格、版本的芯片混用时,如何高效协同工作是一个挑战,如果处理不当,也会造成资源的浪费;在多租户的企业级深度学习场景中,不同用户会提交不同框架的深度学习作业,这些作业对资源的需求各不相同,如果没有有效的资源管理和调度系统,也会导致资源的浪费。
另一方面,对于模型训练来说,出现训练错误的情况时常发生,如果没有及时的纠偏补全,模型训练就有可能从头开始,此前训练使用的算力资源也就被白白浪费。
针对这些情况,以阿里云为代表的云厂商们都在探索如何将单卡的算力发挥到极致,如何让大规模集群的资源利用更加科学,不少厂商都喊出了“打造全新的 ai 基础设施”的口号。以人工智能平台 pai 为例,其借助高性能的 ai 工程平台,能够全链路的支撑数据处理、开发、训练等各个环节,结合训推异构化的趋势,其能够实时根据业务负载、模型结构、资源类型的变化进行优化,实现万卡级别的训练推理一体化弹性调度,让异构计算下的不同芯片“捆成一股绳”,可以真正实现“指哪打哪”。
同时,通过云原生的统一调度引擎,统一管理,让多种异构算力、不同的卡型、厂商,动态的调度并且无感的切换任务,充分利用碎片化的算力资源,比如在大企业调用大规模卡群资源的同时,其中部分的碎片化的资源开放给开发者去使用,做小型任务的处理,让整个阿里云的算力资源能够充分被调动。据悉,目前阿里云 ai 有效算力已经实现了十倍以上的提升,有效算力利用率达到了百分之九十以上。
基于算力利用率的提升,基于百炼和 pai 这样的平台,企业、开发者够轻松无负担的用上万卡、十万卡集群资源,但不用将精力放在资源的管理调度之上,让大模型应用开发不仅在性价比方面突破桎梏,还进一步的隐藏了其复杂性,让行业的数智化发展更专注,更聚焦。
3抛弃噱头,返璞归真,“好用、能用”才是模型应用开发平台的核心竞争力?
回归到市场本身,当准入门槛被时间抹平,成本难题被想方设法攻克,最终决定成败的“弹药”仍旧是产品本身,以往的优势固然重要,但只有真正让大模型技术作用于业务场景中,让应用开发真正切实可行,才是破局的关键。
总结当下的大模型应用开发平台及产品,基本都遵循了相同的技术架构,围绕模型供应,模型精调与训练、agent 搭建,rag 知识库、工作流编排、prompt 指引等核心功能与关键环节展开,不同点主要在于产品框架的不同以及调用模型的不同。如何才能拉开差距?核心就在于实用性。
以阿里云百炼为例,作为供应模型数最多的平台之一,除了阿里云的通义千问主流模型之外,还有很多开源第三方模型以及行业大模型,在多样化模型的支持下,不同行业的企业可以从专业的行业大模型中调用服务,通义大模型则提供应用搭建的相关能力,辅以三方大模型的服务运维,可以结合实际情况,进行更深入的大模型能力调用。在模型本身的能力角度,在百炼服务升级后搭载了降价版本的通义千问 plus 版本与 turbo 版本,分别满足性能与性价比的需要。除此之外,百炼还提供多模态、全尺寸的模型服务,进一步扩展了模型应用的功能选择。
更重要的是,百炼还同步提供多样化的开发范式,“手把手”的帮助企业开发应用,结合细颗粒度、低门槛的工作流编排,通过 prompt 指引、案例参考、反馈优化等方式助力企业的开发进程,这对于缺乏 ai 团队与开发者的企业来说至关重要。在目前市场颇为关注的 rag(检索增强)领域,相对于市面上其他的产品,百炼也进行了进一步的灵活优化,让 rag 深度融入进了应用开发的各个环节中,进一步发挥企业自身的数据价值,让专业数据融入应用中,实现与模型能力的有机融合。
除此之外,模型幻觉问题对于应用的服务效果也有极大的影响,可监测的精细化运营或许是解决方法之一。针对这一问题,百炼的每个模块都将受到质量监控,通过多样化的实时指标持续优化应用。为此,阿里云还提供了一个支持全链路管理和分析的平台,其支持自动和人工评测,助力企业客户针对不同模块进行优化,无论是 sft 数据还是应用效果,确保模型应用可观测、可分析、可评价,并可进行干预。
在模型开发层面,数据加工和处理在大模型发展中变得至关重要,模型能力提升往往源于数据差异。针对这一问题,人工智能平台 pai 在基础模型方面,新增了系数模型、混合专家模型和多模态模型的 diffusion transformer 支持。模型训练上,强化了强化学习、dpo、模型蒸馏和小样本学习的支持,并集成了数据处理与效果评测,实现大模型开发端到端覆盖,进一步简化了传统复杂的大模型数据处理流程。
针对目前日益增大的模型规模与数据量,pai 还提供多模态数据处理能力,包括视频理解、图像处理、关键帧提取、图像和视频压缩等。整个流程从预训练数据处理到预训练模型,再到微调和服务,清晰展示和追踪数据模型依赖关系,结合 pai 的推理服务的升级以及灵活的资源调度模式,进一步减轻了模型开发人员负担。
这一切,归根到底是洞察了企业客户的需求,并在持续创新中完善相关能力,让产品更好用,更易用,进一步实现企业 - 数据 - 模型的良性循环。基于需求,持续创新,最终保持先进,这样的产品思路同时也融入进了阿里云的 ai 产品创新与业务运营之中。
以阿里云推出的系列产品推荐计划“飞天星品”为例,其旨在通过产品推荐让广大企业、开发者能够在多达数百款云产品中,根据自身业务问题,快速定位关键产品需求,轻松选到最好用、最高性价比、最适合自己的云产品。
深入业务,供需结合,才能真正让好的产品有的放矢,不仅在大模型应用开发领域,对于阿里云这样的头部 ai 厂商来说,真正结合生态,基于企业和开发者的真实需求帮助其解决问题,才是 ai 厂商长久发展的立足之本。
4结语
在当前阶段,我们对于 agi 似乎触手可得,但又遥不可及。大模型应用开发,尤其是以阿里云百炼和 pai 为代表的技术,为我们提供了一种可能的路径。通过深入分析行业趋势和未来,我们可以看到,深度结合实践需求、精细化、低门槛的产品方向,以及重视投入产出比,已经成为行业发展的核心要素。在这一背景下,单纯的技术进步已不再是唯一的驱动力,如何将技术转化为实际的业务价值,才是保持先进的关键。
同时,基于阿里云等头部厂商的实践,我们也能洞察到“ai 重构”的重要性。无论是云原生技术、算力、训推一体化,ai 都在引领一场全面的变革。这场变革从“计算”的“虚”出发,走向“业务”的“实”,意味着 ai 技术正在从单纯的计算能力转变为推动业务创新和转型的核心动力,助力企业打造面向 ai 时代的原生应用与服务,加速业务智能化升级,已经成为厂商们目前阶段的核心使命。
当然,这是一个风口,一个机会,也将开启厂商之间一场又一场的激烈竞争,大模型应用开发和 ai 重构不仅是技术层面的突破,更将是一场针对商业模式和产业实践的深刻变革。但无论如何,走上牌桌才是关键,正如吴泳铭在2024云栖大会上所说的那样:“我们认为生成式 ai 将逐渐渗透数字世界,并接管数字世界。”对于所有入局者来说,这是一场不容错过的技术革命。
总结
**文章总结**:文章描述了ai领域的新竞争焦点——大模型应用开发。随着idc报告预测2024年大模型及应用市场的爆炸性增长,ai厂商如百度智能云、火山引擎和阿里云等正积极备战,在大模型的算力、底座开发等多方面进行布局,准备争夺产业下游的市场份额。阿里巴巴集团ceo吴泳铭在云栖大会上明确指出,ai正在被广泛用于各个行业的产品重构中,标志着一场新的产业革命正在悄然进行。
文章强调,大模型技术的关键应用在于对数据进行深度挖掘和数智化赋能,以此提高生产效率和应用效果。金融、政务、教育等行业大模型渗透率已超过50%,而医疗、制造、电商等领域也正经历变革。然而,企业在应用这些技术时面临算力瓶颈、兼容性问题、人才短缺等多个挑战。对此,ai独角兽和云厂商正在通过开发大模型应用平台来应对,如openai、亚马逊、阿里云等。阿里云在云栖大会上展示了其大模型服务平台百炼和人工智能平台pai的最新升级,提供了全面的模型应用开发工具和定制能力。
在成本与效率方面,尽管算力市场正经历巨变,高端gpu供不应求,但行业需要系统性的革新来解锁算力、传输等技术的潜力。阿里云通过其底层计算、存储和网络基础设施的优化,提供了的超大规模、超强性能的算力,并通过技术创新提高了性价比。阿里云强调,要开源节流,充分利用规模优势和技术创新来降低成本。
文章还指出,好用、能用是模型应用开发平台的核心竞争力。阿里云百炼提供了多样化的开发范式、灵活的工作流编排和优质的模型服务,帮助企业轻松应对大模型应用开发的各种挑战。同时,百炼还提供可监测的精细化运营,确保模型应用的可观测、可分析、可评价。人工智能平台pai也在基础模型、模型训练和数据处理方面进行了强化,简化了传统复杂的数据处理流程,提供了全新的开发和训练方法。
最后,文章总结指出,ai正在推动全面的变革,深度的实践需求和精细低门槛的产品方向是行业发展的核心要素。如何将技术转化为实际的业务价值,是保持领先的关键。阿里云等头部厂商的实践表明,ai重构和商业模式、产业实践的变革,将推动业务创新和转型。对于所有入局ai竞争的厂商而言,这既是一个机会,也是一个挑战,一场不容错过的技术革命正在展开。