为什么mlc-llm的上下文阶段性能如此糟糕?在AMD 7900 XTX上,上下文阶段需要大约0.54秒,而llama.cpp在同一任务上只需要65毫秒。尽管如此,解码性能还是优越的。
ecr0jaav1#
你好,出于好奇,你正在使用哪个版本的mlc-llm?上下文的长度是多少?以及它是什么模型?我记得旧版的mlc-llm在较长的提示上有一个问题,即我们的分词器需要花费异常长的时间。
1条答案
按热度按时间ecr0jaav1#
你好,出于好奇,你正在使用哪个版本的mlc-llm?上下文的长度是多少?以及它是什么模型?我记得旧版的mlc-llm在较长的提示上有一个问题,即我们的分词器需要花费异常长的时间。