title: "rvLLM：用 Rust 從零重寫 vLLM，啟動快 20 倍、安裝包小 31 倍、吞吐量 1.7 倍" date: 2026-03-29 author: meow.coder source: https://www.threads.com/@meow.coder/post/DWcG0Wikjko category: threads tags:

Rust
vLLM
LLM 推論
開源
效能優化 created: 2026-03-29 updated: 2026-03-29

rvLLM：用 Rust 從零重寫 vLLM，啟動快 20 倍、安裝包小 31 倍、吞吐量 1.7 倍

原文摘要

有人用 Rust 從零重寫了 vLLM，叫做 rvLLM。可直接當 drop-in replacement，接上 OpenAI 相容 API。

GitHub：m0at/rvllm

效能數據（A100 + Qwen2.5-1.5B FP16）

吞吐量

單一請求：vLLM 的 1.7 倍
256 並發以內都贏
最高衝到 10,291 tok/s

資源效率（最驚人的部分）

啟動時間：121 秒 → 6 秒（20 倍）
安裝包：500MB → 16MB（31 倍）
記憶體佔用：少了 3 倍

CPU 端優化

Repetition penalty：快 11 倍
Top-p sampling：快 4 倍多
Batch sampling（Rayon 並行）：快 8.5 倍

支援 GPU

V100 一路到 RTX 5090

限制

超高並發（N>512）vLLM 仍有優勢（continuous batching 優化累積多年）
只支援 CUDA，留言指出小型部署多用 ARM64，期待支援其他平台

核心觀點

1. Rust 重寫 Python 基礎設施的趨勢持續

之前有 Ruff（重寫 flake8/black）、uv（重寫 pip）、Turbopack（重寫 Webpack），現在是 rvLLM 重寫 vLLM。模式一樣：Python 定義了介面和生態，Rust 來優化效能。

2. 啟動時間 6 秒是真正的殺手級優勢

對 serverless 場景或 scale-to-zero 部署來說，冷啟動從 2 分鐘縮到 6 秒，意味著可以做到按需即時啟動，不再需要持續跑一個 idle 實例。

3. 中小規模部署的最佳選擇

16MB 安裝包 + 6 秒啟動 + 低記憶體，對個人開發者或小團隊來說，門檻比 vLLM 低非常多。不是每個人都需要 512+ 並發。