Qwen3.6-27B-Q4_K_M.gguf

Name: Qwen3.6-27B-Q4_K_M.gguf — community LLM benchmarks
Creator: llm-speed
License: https://creativecommons.org/licenses/by/4.0/
Keywords: Qwen3.6-27B-Q4_K_M.gguf, LLM benchmark, tokens per second, decode tok/s, prefill, TTFT

49 workload results across 1 hardware configuration.

Fastest local config

74.0 decode tok/s

on RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB via llama.cpp — see full run

Local runs (49 runs)

Runs from contributors' own machines via MLX, llama.cpp, vLLM, exllamav2, or ollama. Signed on the submitter's hardware.

RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB

Workload	Backend	Quant	decode tok/s	prefill tok/s	TTFT	Run
chat-short	llama.cpp	—	72.38tok/s	no data	167ms	r_yluotk909p8
chat-short	llama.cpp	—	72.48tok/s	no data	172ms	r_v2vrkr4uah1
chat-short	llama.cpp	—	69.56tok/s	no data	227ms	r_u4wa_y_y3vt
chat-short	llama.cpp	—	72.57tok/s	no data	172ms	r_l-wg5a6o-vg
chat-short	llama.cpp	—	69.56tok/s	no data	174ms	r_w482rf72v6z
chat-short	llama.cpp	—	72.32tok/s	no data	290ms	r_ercjdbdw2gi
chat-short	llama.cpp	—	69.60tok/s	no data	382ms	r_aj808r0dw53
chat-short	llama.cpp	—	72.31tok/s	no data	198ms	r_4upad7ubcpi
chat-short	llama.cpp	—	68.00tok/s	no data	241ms	r_qiq8q_cqfk5
chat-short	llama.cpp	—	72.49tok/s	no data	178ms	r_3un_x00tm0t
chat-short	llama.cpp	—	70.89tok/s	no data	185ms	r_ea1db-lhv0r
chat-short	llama.cpp	—	72.90tok/s	no data	165ms	r_7snxv0llk6f
chat-short	llama.cpp	—	72.79tok/s	no data	297ms	r_p307g-1cdkl
chat-short	llama.cpp	—	69.84tok/s	no data	398ms	r_bgylub2qqr-
chat-short	llama.cpp	—	69.70tok/s	no data	167ms	r_5b-e5ortgcv
chat-short	llama.cpp	—	72.68tok/s	no data	166ms	r_2g-h0epeovp
chat-short	llama.cpp	—	70.07tok/s	no data	173ms	r_es8a88t0ez0
chat-short	llama.cpp	—	72.63tok/s	no data	170ms	r_j0xki0x2kn2
chat-short	llama.cpp	—	69.68tok/s	no data	178ms	r_2673sv7x5m4
chat-short	llama.cpp	—	72.54tok/s	no data	171ms	r_7u98v6--uli
chat-short	llama.cpp	—	69.05tok/s	no data	191ms	r_4fxpo_ja16m
chat-short	llama.cpp	—	67.86tok/s	no data	185ms	r_qhp37dyi9n1
chat-short	llama.cpp	—	72.56tok/s	no data	215ms	r_5m7gbxjpw_c
chat-short	llama.cpp	—	73.20tok/s	no data	291ms	r_qlo6j6lnnh3
chat-short	llama.cpp	—	69.95tok/s	no data	291ms	r_q5xsw1p-7f8
chat-short	llama.cpp	—	70.37tok/s	no data	269ms	r_wowv__0b5s6
chat-short	llama.cpp	—	72.59tok/s	no data	314ms	r_8qwzo79cf0s
chat-short	llama.cpp	—	71.99tok/s	no data	317ms	r_fo83sbnxax4
chat-short	llama.cpp	—	73.96tok/s	no data	190ms	r_f7ulllqu4vk
chat-short	llama.cpp	—	72.79tok/s	no data	187ms	r_uhv-sxt4h97
chat-short	llama.cpp	—	71.50tok/s	no data	213ms	r_gipbd9a8wrn
chat-short	llama.cpp	—	73.31tok/s	no data	296ms	r_wax_x2ryqhk
chat-short	llama.cpp	—	69.65tok/s	no data	308ms	r_mqx-i-thqtq
chat-short	llama.cpp	—	69.90tok/s	no data	180ms	r_jrwk2oj1el-
chat-short	llama.cpp	—	72.27tok/s	no data	182ms	r_432qs45nio9
chat-short	llama.cpp	—	72.39tok/s	no data	225ms	r_p3m8a1lj4kg
chat-short	llama.cpp	—	69.56tok/s	no data	205ms	r_qrpvh5hd9km
chat-short	llama.cpp	—	69.62tok/s	no data	177ms	r_th_ounxmvpx
chat-short	llama.cpp	—	72.44tok/s	no data	172ms	r_jbit-ru039h
chat-short	llama.cpp	—	70.04tok/s	no data	194ms	r_wmexo75dt0o
chat-short	llama.cpp	—	71.26tok/s	no data	410ms	r_-1k-8qr_v8a
chat-short	llama.cpp	—	71.09tok/s	no data	241ms	r_mj85rtghwmg
chat-short	llama.cpp	—	68.97tok/s	no data	189ms	r_-cpk_tabogc
chat-short	llama.cpp	—	73.76tok/s	no data	346ms	r_j1cr6asrnn6
chat-short	llama.cpp	—	68.82tok/s	no data	413ms	r_v05axrj3dti
chat-short	llama.cpp	—	73.56tok/s	no data	167ms	r_az687c4xasr
chat-short	llama.cpp	—	68.61tok/s	no data	183ms	r_2o9kb8hy9uk
chat-short	llama.cpp	—	70.98tok/s	no data	200ms	r_carzhcoe-mi
chat-short	llama.cpp	—	72.36tok/s	no data	168ms	r_uvy0zplf-sh

Qwen3.6-27B-Q4_K_M.gguf on hardware

RTX 5090 (32GB) LLM benchmarks

RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GBRTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB

Qwen3.6-27B-Q4_K_M.gguf on hardware

RTX 5090 (32GB) + AMD Ryzen 7 9850X3D 8-Core Processor (8c) + 30GB