【[189星]prima.cpp:在普通家用设备上轻松运行700亿参数规模的超大语言模型。亮点:1. 低资源消耗,内存压力低于10%;2. 速度提升15倍,推理速度可达每秒1.5个token;3. 支持多种设备,包括电脑、手机和平板,无需GPU也能运行】
'prima.cpp: Speeding up 70B-scale LLM inference on low-resource everyday home clusters'
GitHub: github.com/Lizonghang/prima.cpp
分布式推理 低资源AI 高性能计算 AI创造营