x — LLM benchmarks

Name: x — community LLM benchmarks
Creator: llm-speed
License: https://www.apache.org/licenses/LICENSE-2.0
Keywords: x, LLM benchmark, tokens per second, decode tok/s, prefill, TTFT

56 workload results across 1 model.

Fastest known config on x

10.0 decode tok/s

m via llama.cpp (Q4) — see full run

m

Workload	Backend	Quant	decode tok/s	prefill tok/s	TTFT	Run
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_0_i4fok_cfg
chat-short	llama.cpp	Q4	10.00tok/s	no data	0.0ms	r_abgapkfvfla
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_g356kkzjf5c
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_3r1vcq0s4vo
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_dnvwv68uo3z
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_59h1mxy0mzj
chat-short	llama.cpp	Q4	10.00tok/s	no data	no data	r_w6ugvsylxe7

Models measured on x

m benchmarks

Common questions about x

Direct Q&A drawn from the runs above: fastest LLM, supported model classes, backend rankings, quantization guidance.

Read the x FAQ →