Kimi论文自曝推理半岛架构80%流量都靠它承担_半岛·体育(中国)官方网站

Kimi论文自曝推理半岛架构80%流量都靠它承担

栏目：公司新闻发布时间：2024-07-22

　(KV缓存用于存储键-值对(Key-Value Pairs)，主要优势在于可以简单高效地访问和检索数据，在大模型当中可以提高推理速度并减少计算资源消耗。)　　之所以这样做，是因为团队预计KV缓存的容量会长期保持高位，因此围绕KV缓存进行优化十分必要。　　其中全局调度器是用户请求到达系统后的第一站，它负责接收请求并根据KV缓存分布和负载情况，将请求调度到Prefill和Decoding节点。　

　　(KV缓存用于存储键-值对(Key-Value Pairs)，主要优势在于可以简单高效地访问和检索数据，在大模型当中可以提高推理速度并减少计算资源消耗。)

　　之所以这样做，是因为团队预计KV缓存的容量会长期保持高位，因此围绕KV缓存进行优化十分必要。

　　其中全局调度器是用户请求到达系统后的第一站，它负责接收请求并根据KV缓存分布和负载情况，将请求调度到Prefill和Decoding节点。

　　具体到Mooncake，它采用了一种启发式的自动热点迁移策略，可以在不需要精确预测未来访问的情况下自动复制热点KV缓存块。

　　实验结果表明，与随机调度和负载均衡调度相比，Mooncake的调度策略可以显著降低TTFT(Time To First Token，首个Token延迟)，提高系统性能。

　　Prefill节点接收到调度器转发过来的请求后，会从KV缓存池中读取缓存，执行预计算并生成新的KV缓存。

　　而Decoding节点除了接收调度器发来的请求外，还会收到Prefill阶段生成的KV缓存，节点会对这些缓存执行解码并生成最终结果。

　　这当中，大容量、高性能的KV缓存存储由缓存池提供;RDMA通信组件则凭借其高带宽、低延迟的优势，负责在不同节点之间的KV缓存传输。

　　除了采取以KV缓存为中心的工作流程外，Mooncake还有另一个重要特点分离式的架构。

　　采取分离式架构的重要因素之一，是在于Prefill和Decoding两个阶段的计算特性差异很大。

　　所以，月之暗面团队对GPU集群也进行了相应的拆分，以便将它们分别部署在不同节点集群上，实现资源隔离和专门优化。

　　另外，Mooncake中的KV缓存池也是分布式的，同时充分利用了GPU集群中空闲的CPU、DRAM和SSD资源，实现了大容量、高带宽的KV缓存存储和传输，同时也减少了闲置资源的浪费。

　　不过，即使Mooncake采用了高效的分离架构，但实际环境中的超大流量，对系统仍然是一个考验。

　　由于Mooncake采用的是分离式架构，可以采取早期拒绝策略，在Prefill阶段就根据Decoding节点的负载情况，提前拒绝请求。

　　具体的SLO要求是TTFT的90分位值(P90)不超过单个请求在空载条件下处理时间的10倍，TBT的P90值不超过5倍。

　　这种早期拒绝策略可以显著减少无效的Prefill计算，提高资源利用率，但同时也带来了新的问题Prefill和Decoding节点负载的波动，导致资源利用率下降、影响系统性能。

　　在阶段1，Prefill节点和Decoding节点的负载都较低，此时调度器会持续接受新的请求，直到Prefill节点的负载达到上限。

　　进入阶段2后，Rrefill节点处理的请求开始进入Decoding节点，导致其负载快速上升。当Decoding节点的负载超过阈值后调度器开始拒绝新的请求，但此时Prefill节点的负载仍然很高。

　　到了阶段3，由于调度器拒绝新请求，Prefill节点的负载开始下降。但此前积压的请求正在Decoding阶段处理，节点的负载仍然很高。

　　最后是阶段4，Decoding节点的负载开始下降，因为前面的请求都处理完成，而新的请求又被拒绝了。这时调度器再次开始接受新请求，Prefill节点的负载又开始上升。

　　之后，这个过程会周期性地重复，导致Prefill和Decoding节点的负载出现反相位的波动。

　　针对这一问题，月之暗面团队对这种简单的早期拒绝策略进行了修正，提出了基于预测的早期拒绝策略，从而降低节点负载的波动。

　　这种策略的核心思想是对一段时间后的Decoding节点负载进行预测，并基于预测结果决定是否拒绝请求。

　　预测可以在请求级别和系统级别两个层面进行，请求级别的预测比较困难，因为要预测单个请求的执行时间;系统级别的预测相对容易一些，只需要预测整体的负载情况。

　　Mooncake采用的是一种简化的系统级别预测方法，假设每个请求的执行时间服从某个固定分布，据此预测未来一段时间内的负载情况。

　　最终，端到端性能评估结果表明，Mooncake的架构设计和优化策略，有效提高了推理服务性能，尤其在长上下文和真实场景下优势更加显著。

　　在模拟数据集上，Mooncake的吞吐量最高可达525%，在真实数据集上也可以比vLLM多处理约75%的请求。

　　过载场景下的性能评估结果则显示，使用基于预测的早期拒绝策略时，拒绝的请求数量从baseline的4183个减少到了3589个，说明系统的请求处理能力得到了提高。

　　针对未来的发展，论文的另一位作者、清华大学计算机系助理教授章明星表示，从目前的趋势来看，大模型服务的负载会愈发的复杂和多元化，调度会越来越复杂，也会越来越重要。

　　而对于月之暗面的发展方向，则是由许欣然做了解答分布式策略的实施，也意味着未来月之暗面的整个系统，将往“算力/$”和“带宽/$”两个方向独立发展，从而对硬件优化更加友好。

　　据“常州发布”消息，6 月 9 日，常泰长江大桥以“毫米级”精度顺利合龙，实现全线贯通，这座世界最大跨度斜拉桥预计明年 4 月底前具备通车条件。

　　近日，中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相，以敢为精神勇闯技术无人区，斩获四项AWE 2024艾普兰大奖。

　　“以前都要去窗口办，一套流程下来都要半个月了，现在方便多了!”打开“重庆公积金”微信小程序，按照提示流程提交相关材料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

　　由世界人工智能大会组委会、上海市经信委半岛体育官方网站、徐汇区政府、临港新片区管委会共同指导，由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”，将于2024年3月23日至24日举办。深圳市电子公司地址电子信息企业百强

上一篇：安全、有效、免半岛bob·官方网站费！来“穗好办”领取您的专属电子印章

下一篇：全重庆首个！两江新区半岛bob·官方网站企业电子印章正式应用

电话：400-998-4567 地址：广东省广州市半岛,半岛体育,半岛官方网站,半岛体育官方网站,半岛·体育网页版入口,半岛·BOB官方网站,半岛·综合体育官网,半岛·综合体育官方网站,半岛·综合中国官方网站,半岛·综合体育(中国)官方网站,半岛·综合体育中国,半岛·体育BDSPORTS,半岛bob·官方网站,半岛bob·官方,半岛bobBoB半岛·体育中国官方网站,半岛bob·体育官方网站,半岛bob·(中国)官方网站-bandao sports,半岛·体育中国官方网站平台登陆

HTML地图 XML地图 txt地图

TOP