资源

探索面向不同模型架构、推理引擎、存储后端和部署环境的 LMCache 实践指南，同时了解项目路线图更新和开源社区贡献指南。

实践指南

实践指南提供面向具体部署场景的 LMCache 启动方案，涵盖支持的推理引擎、可使用的 LMCache 功能，以及已知限制和配置注意事项。

Qwen3 MoE

采用混合专家（MoE）架构，每个 token 仅激活部分模型参数，在提升模型规模的同时兼顾推理效率。

MiniMax-M2

面向长上下文、Agentic 工作流和高吞吐推理场景的大规模模型架构。

Gemma 4

Google 推出的开放模型架构，适用于高效指令遵循、多模态理解和 Agentic 工作流。

Mistral / Devstral

Mistral 系列模型，面向通用推理、代码任务和 Agentic 开发工作流。

GPT-OSS

开放权重的 GPT 风格模型，适用于指令遵循和通用推理场景

路线图

关注 LMCache 的季度路线图，了解当前重点、计划中的改进方向，以及即将推进的开发里程碑。

2026

2027

路线图

关注 LMCache 的季度路线图，了解当前重点、计划中的改进方向，以及即将推进的开发里程碑。

2026

2027

参与贡献 LMCache

无论是修复 bug、完善文档、支持新模型、编写测试，还是帮助其他用户，参与 LMCache 贡献都有很多方式。

贡献指南

了解如何提交 issue、发起 pull request、参与代码 review 流程，并贡献代码、文档、测试或新模型支持。

新手指南

刚开始了解 LMCache？可以从 good first issues、文档改进、小型 bug 修复或社区支持任务开始。

AI 使用指南

了解在参与 LMCache 贡献时，如何合理使用 AI 工具辅助开发、文档编写、测试和代码审查。

工具

.LMCache 可与 AI 生态中的主流推理引擎、存储后端和编排层集成。

KV Cache 内存计算器

估算不同模型架构和上下文长度下的 KV Cache 内存需求，帮助判断所需的硬件资源。

KV缓存可视化

可视化展示 KV Cache 内存如何随上下文长度和模型架构变化而增长，并进一步探索 GPU 内存压力、Cache 优化和 LLM 推理扩展等相关挑战。

可观测性工具 [即将推出]

可观测性套件目前正在开发中。

LMCache Leaderboard

查看 LMCache 贡献者排行榜，了解社区成员对项目的贡献。

如需查看详细的版本矩阵、配置选项和已知限制，请参考 LMCache 文档。

社区最新动态

来自 LMCache 团队和社区贡献者的最新基准测试、版本更新和技术深度文章。

lmcache

2026-06-23

vLLM+LMCache 零 GPU 开发指南

lmcache

2026-06-16

一文读懂 LMCache MP 模式下的数据传输路径：新手入门指南

Behind the Build

2026-06-02

LMCache 与 KV Cache 社区的新篇章

lmcache

2025-12-31

?? Claude Code ?????????????

快速开始

开始使用

阅读文档，几分钟内完成安装。

加入社区

通过 Slack、GitHub 和 Office Hours 与社区交流。

阅读博客

查看基准测试、教程和版本更新。

资源

实践指南

Qwen3 MoE

MiniMax-M2

Gemma 4

Mistral / Devstral

GPT-OSS

更多实践指南

路线图

2026

2027

路线图

2026

2027

参与贡献 LMCache

贡献指南

新手指南

AI 使用指南

工具

KV Cache 内存计算器

KV缓存可视化

可观测性工具 [即将推出]

LMCache Leaderboard

社区最新动态

lmcache

vLLM+LMCache 零 GPU 开发指南

lmcache

一文读懂 LMCache MP 模式下的数据传输路径：新手入门指南

Behind the Build

LMCache 与 KV Cache 社区的新篇章

lmcache

2025-12-31

?? Claude Code ?????????????

快速开始

开始使用

加入社区

阅读博客