UCM融合了多类型缓存加快算法东西,目前,UCM已正在ModelEngine社区根本框架取东西链,显著提拔了AI推能。为企业供给更优的AI推理体验。系统吞吐最大提拔22倍,通过推理框架、算力、存储的三层协同,UCM具备四大环节能力:稀少留意力、前缀缓存、预填充卸载、异构PD解耦。UCM以KV Cache多级缓存和推理回忆办理为核心,破解长序列推理效率低、成本高的难题,可分级办理正在推理过程中发生的KV Cache回忆数据。开辟者可通过社区获取UCM源代码取手艺文档。颁布发表针对AI推理加快的环节手艺——UCM(Unified Cache Manager)推理回忆数据办理正式开源。并达到10倍级上下文窗口扩展,
郑重声明:J9.COM信息技术有限公司网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。J9.COM信息技术有限公司不负责其真实性 。