llm-speed

LLM speed benchmarks: community-verified tok/s for every model + hardware combo

The benchmark suite for local + hosted LLM inference.
Run it. See your tok/s. Compare your rig.

$ pipx install llm-speed && llm-speed bench

Runs in about a minute. Auto-detects your hardware and backends. Open source.

See a signed 356 tok/s run

80 signed runs3 hosts30 (model × hardware) cellsApache-2.0

Fastest local signed run356tok/sstable-code-instruct-3bon RTX 5090

Latest LLM benchmarks

20 runs · suite-v1

Hardware	Model	decode tok/s	Submitted
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB	glm-4.7-flashollama	129.9tok/s	08 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB	qwen3.6ollama	44.18tok/s	03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7443 24-Core Processor (24c) + 252GB	gemma3ollama	46.95tok/s	03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7443 24-Core Processor (24c) + 252GB	gemma3ollama	92.65tok/s	03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7443 24-Core Processor (24c) + 252GB	gemma3ollama	195.0tok/s	03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB	deepseek-r1ollama	81.09tok/s	02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB	deepseek-r1ollama	133.8tok/s	02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB	deepseek-r1ollama	3.79tok/s	02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB	deepseek-r1ollama	132.4tok/s	02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7352 24-Core Processor (24c) + 252GB	qwen3-coderollama	179.9tok/s	02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7352 24-Core Processor (24c) + 252GB	gpt-ossollama	141.7tok/s	02 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB	qwen2.5-coderollama	89.45tok/s	02 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB	llama3.1ollama	154.4tok/s	02 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB	qwen2.5-coderollama	161.1tok/s	02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7702P 64-Core Processor (64c) + 252GB	deepseek-coder-v2ollama	189.5tok/s	02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7702P 64-Core Processor (64c) + 252GB	qwen2.5-coderollama	69.21tok/s	02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7663 56-Core Processor (56c) + 252GB	llama3.1ollama	136.2tok/s	02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7663 56-Core Processor (56c) + 252GB	qwen2.5-coderollama	139.2tok/s	02 Jul 2026
RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB	DeepSeek-Coder-V2-Lite-Instructllama.cpp	293.1tok/s	01 Jul 2026
RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB	gpt-oss-20bllama.cpp	318.4tok/s	01 Jul 2026

RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB
glm-4.7-flashollama
129.9tok/s 08 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB
qwen3.6ollama
44.18tok/s 03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7443 24-Core Processor (24c) + 252GB
gemma3ollama
46.95tok/s 03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7443 24-Core Processor (24c) + 252GB
gemma3ollama
92.65tok/s 03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7443 24-Core Processor (24c) + 252GB
gemma3ollama
195.0tok/s 03 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB
deepseek-r1ollama
81.09tok/s 02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB
deepseek-r1ollama
133.8tok/s 02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB
deepseek-r1ollama
3.79tok/s 02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 75F3 32-Core Processor (64c) + 504GB
deepseek-r1ollama
132.4tok/s 02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7352 24-Core Processor (24c) + 252GB
qwen3-coderollama
179.9tok/s 02 Jul 2026
RTX 4090 (24GB) + AMD EPYC 7352 24-Core Processor (24c) + 252GB
gpt-ossollama
141.7tok/s 02 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB
qwen2.5-coderollama
89.45tok/s 02 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB
llama3.1ollama
154.4tok/s 02 Jul 2026
RTX 4090 (48GB) + AMD EPYC 7763 64-Core Processor (128c) + 1008GB
qwen2.5-coderollama
161.1tok/s 02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7702P 64-Core Processor (64c) + 252GB
deepseek-coder-v2ollama
189.5tok/s 02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7702P 64-Core Processor (64c) + 252GB
qwen2.5-coderollama
69.21tok/s 02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7663 56-Core Processor (56c) + 252GB
llama3.1ollama
136.2tok/s 02 Jul 2026
RTX 3090 (24GB) + AMD EPYC 7663 56-Core Processor (56c) + 252GB
qwen2.5-coderollama
139.2tok/s 02 Jul 2026
RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB
DeepSeek-Coder-V2-Lite-Instructllama.cpp
293.1tok/s 01 Jul 2026
RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB
gpt-oss-20bllama.cpp
318.4tok/s 01 Jul 2026

Explore local-LLM speed

Will it run — and how fast?Check any model + quant against your GPU or Mac, with the real measured tok/s.Buying guidesBest GPU, Mac, or rig for local LLMs — ranked on signed runs, no affiliate picks.Head-to-headRTX 5090 vs 4090, Apple vs NVIDIA, model vs model — decode tok/s side by side.Speed cheatsheetDecode tok/s for every model × hardware cell we have data for.Community reports vs signed2,176 tok/s claims from r/LocalLLaMA & HN, next to our measured numbers.FAQHow fast is usable? Does quantization cost speed? Why is long context slow?BlogLong-form on local-LLM speed, grounded in signed benchmark runs.