rvLLM:用 Rust 從零重寫 vLLM,啟動快 20 倍、安裝包小 31 倍、吞吐量 1.7 倍
title: "rvLLM:用 Rust 從零重寫 vLLM,啟動快 20 倍、安裝包小 31 倍、吞吐量 1.7 倍" date: 2026-03-29 author: meow.coder source: https://www.threads.com/@meow.coder/post/DWcG0Wikjko category: threads tags:
- Rust
- vLLM
- LLM 推論
- 開源
- 效能優化 created: 2026-03-29 updated: 2026-03-29
rvLLM:用 Rust 從零重寫 vLLM,啟動快 20 倍、安裝包小 31 倍、吞吐量 1.7 倍
原文摘要
有人用 Rust 從零重寫了 vLLM,叫做 rvLLM。可直接當 drop-in replacement,接上 OpenAI 相容 API。
GitHub:m0at/rvllm
效能數據(A100 + Qwen2.5-1.5B FP16)
吞吐量
- 單一請求:vLLM 的 1.7 倍
- 256 並發以內都贏
- 最高衝到 10,291 tok/s
資源效率(最驚人的部分)
- 啟動時間:121 秒 → 6 秒(20 倍)
- 安裝包:500MB → 16MB(31 倍)
- 記憶體佔用:少了 3 倍
CPU 端優化
- Repetition penalty:快 11 倍
- Top-p sampling:快 4 倍多
- Batch sampling(Rayon 並行):快 8.5 倍
支援 GPU
V100 一路到 RTX 5090
限制
- 超高並發(N>512)vLLM 仍有優勢(continuous batching 優化累積多年)
- 只支援 CUDA,留言指出小型部署多用 ARM64,期待支援其他平台
核心觀點
1. Rust 重寫 Python 基礎設施的趨勢持續
之前有 Ruff(重寫 flake8/black)、uv(重寫 pip)、Turbopack(重寫 Webpack),現在是 rvLLM 重寫 vLLM。模式一樣:Python 定義了介面和生態,Rust 來優化效能。
2. 啟動時間 6 秒是真正的殺手級優勢
對 serverless 場景或 scale-to-zero 部署來說,冷啟動從 2 分鐘縮到 6 秒,意味著可以做到按需即時啟動,不再需要持續跑一個 idle 實例。
3. 中小規模部署的最佳選擇
16MB 安裝包 + 6 秒啟動 + 低記憶體,對個人開發者或小團隊來說,門檻比 vLLM 低非常多。不是每個人都需要 512+ 並發。