vLLM v0.18.0已出!来自213个贡献者的445个提交(61个新)。🎉 新内容:gRPC服务,无GPU多模态渲染,GPU上的NGram规范解码,Elastic EP Milestone 2,FlashInfer 0.6.6,响应API流工具调用。

vLLM v0.18.0已出!来自213个贡献者的445个提交(61个新)。🎉 新内容:gRPC服务,无GPU多模态渲染,GPU上的NGram规范解码,Elastic EP Milestone 2,FlashInfer 0.6.6,响应API流工具调用。
