torch.compile
pip install
waxmsbnn1#
顺便说一下,在使用LMDeploy的Llama2-70B AWQ模型和4位kv缓存进行内部评估时,我基本上没有遇到性能下降的问题。他们这里有一些公开的评估数据:
这在KV缓存前缀缓存方面变得非常有利,因为您可以将两倍于并发聊天数的数据存储在VRAM中,这极大地提高了我的缓存命中率。总的来说,通过4位KV缓存和前缀缓存,我在现实世界中实现了约4倍的成本降低。在尝试之前,我没想到会达到这样的效果。想知道FP8 KV缓存和前缀缓存/重用是否有任何预期的时间表?也就是说,如果计划尽快实施,或者至少还有几个月的时间。
lb3vh1jj2#
这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。
2条答案
按热度按时间waxmsbnn1#
顺便说一下,在使用LMDeploy的Llama2-70B AWQ模型和4位kv缓存进行内部评估时,我基本上没有遇到性能下降的问题。他们这里有一些公开的评估数据:
这在KV缓存前缀缓存方面变得非常有利,因为您可以将两倍于并发聊天数的数据存储在VRAM中,这极大地提高了我的缓存命中率。
总的来说,通过4位KV缓存和前缀缓存,我在现实世界中实现了约4倍的成本降低。在尝试之前,我没想到会达到这样的效果。
想知道FP8 KV缓存和前缀缓存/重用是否有任何预期的时间表?也就是说,如果计划尽快实施,或者至少还有几个月的时间。
lb3vh1jj2#
这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。