我注意到API不支持处理批处理提示,GPU利用率较低,我想使用批处理模式来提高GPU利用率并加速推理过程,那么应该怎么做呢?
aij0ehis1#
#!/bin/bash [ -z "$1" ] && { echo "usage: $0 batch-file" ; exit 1 ; } export OLLAMA_HOST=${OLLAMA_HOST-localhost:11434} get_completion() { id="$(jq -r .custom_id <<< "$1")" url="$(jq -r .url <<< "$1")" body="$(jq -cr .body <<< "$1")" curl -s $OLLAMA_HOST$url -d "$body" | jq -c '{"custom_id":"'$id'"}+.' } export -f get_completion parallel --jobs ${OLLAMA_NUM_PARALLEL-1} get_completion < "$1"
1条答案
按热度按时间aij0ehis1#