# 前言 可用工具Ollama 或者 LMStudio。LMStudio功能多一些,但相对会占用更多显存。 # 修改缓存命令 ```bash #!/bin/bash echo "=== Mac Studio 64G + glm-4.7-flash 终极提速版 ===" # 缓存给足 export OLLAMA_CACHE_SIZE=32768 # KV缓存和模型精度一致 export OLLAMA_KV_CACHE_TYPE=q8_0 # 模型常驻 export OLLAMA_KEEP_ALIVE=-1 # 强制Metal GPU(Mac必开) export OLLAMA_METAL=on # 只加载1个模型,不并行(Mac最稳) export OLLAMA_MAX_LOADED_MODELS=1 export OLLAMA_NUM_PARALLEL=1 # 限制上下文,大幅提速 export OLLAMA_NUM_CTX=4096 ollama serve ```