2024年11月22日晚,新捕京3522com第三十二期“知存讲座”暨信息科学前沿与产业创新课程在理科教学楼107教室顺利举办。阿里云智能通义实验室高级技术专家姜碧野博士受邀进行了以“阿里云大模型服务中的技术挑战与实践”为主题的报告。新捕京3522com副院长王润声老师主持了本次讲座。
姜碧野博士主讲
Part.1
讲座伊始,姜博士首先简要介绍了chatgpt革命,指出chatgpt确实是有史以来增长最快的一项技术,相比以往互联网,移动互联网很多应用的增长都要快。之后,姜博士指出开源是目前大模型的主旋律,我们可能正在经历一次最大的开源革命,开源模型的规模非常可观。当然,姜博士也强调说大模型时代给云带来了新的机遇与挑战。
本次讲座的第一部分的主题为LLM推理模式概要。首先姜博士简要介绍了大模型的推理过程,通过一个实际的例子来解释大模型的推理过程简单来说就是将前缀自底往上依次进行所有的layers,然后进行next token prediction,得到一个新的token,然后将该token加到队列中作为新的前缀重复上述过程。这样的重复生成过程直到达到预先设定的最大序列长度或生成了预定义的终止token时停止。 之后姜博士介绍了在推理过程中两个很重要的阶段:Prefill与Decode。Prefill阶段因为已经知道输入的所有内容,所以可以进行并行计算,效率较高;而decode阶段只知道当前预测的token,而对之后的内容并不了解,所以每次计算都要带上之前的内容一步一步计算。然后姜博士简要介绍了静态批处理、连续批处理以及动态KV cache管理。并对Prefill和Decode阶段的负载特性简要的进行了介绍,指出Prefill阶段能够并行处理所有输入的tokens并生成首token,是计算密集型任务,在整体端到端时延中占比较少,而Decode阶段是迭代逐个生成输出token,是访存密集型任务,在整体端到端时延中占主要部分。Prefill阶段算力密集,耗时是可预测的;而Decode阶段总耗时较长且不确定,需要组batch以提高吞吐。
同学们认真聆听
Part.2
讲座的第二部分为云产品概要。姜博士介绍到,传统的云产品有计算(ECS)、存储(OSS)、数据库(RDS),而现在互联网应用的所有基础设施都可购买。而在介绍云服务的主要技术和驱动力时,姜博士指出虚拟化和弹性是云的主旋律,分布式和大数据都是近年来云技术发展的方向。同时,大模型也为云带来了新的动能。之后,姜博士着重介绍了大模型服务作为云产品的挑战。他指出这样的产品形式是以token计费的模式提供模型API调用服务。目前多元的用户诉求,波峰波谷明显的使用场景,昂贵、异构的GPU资源以及尺寸繁多的模型和数百GB级别的参数都是大模型云产品所面对的挑战,需要合理的调度匹配。然后姜博士说明GPU做好弹性不容易,因为GPU架构迭代频繁,并且与显存/NVLink高度绑定,同时大模型又过大,难以使用分片资源,难以快速启动服务。同时,成本也是一个很重要的问题。既然如此,做好调度匹配至关重要。姜博士从大模型服务的特点出发,简要介绍了请求侧调度中的推模式(类传统微服务模式),拉模式(传统离线任务模式)两种调度方式以及资源侧调度。
讲座的最后,姜博士对本次讲座进行了总结,说明了大模型服务有着广阔的应用场景,能够为大量不同诉求的客户提供帮助。同时虚拟化和弹性是云的必由之路。此外姜博士对computer systems也进行了介绍。
讲座现场
Part.3
在问答环节,同学们积极踊跃地向姜博士提问,姜博士都耐心地做出了答复。
同学向嘉宾提问交流
此次讲座聚焦于阿里云大模型服务中的技术挑战与实践,让同学们对于大模型、云有了更加深刻的认识,本次知存讲座以热烈的掌声圆满结束。
新捕京3522com“知存讲座”将持续开展,邀请信息学科领域的知名人士为本科生介绍信息科学技术学科和产业发展热点和前沿话题,引导青年学子增进专业认知,确立前沿视野,寻找未来感兴趣的发展方向。