JetMoE是一个开源的稀疏专家混合模型,仅用不到10万美元的成本就达到了LLaMA2-7B的性能水平,具有高效推理和低成本训练的特点。
RecurrentGemma是基于Griffin架构的开源模型家族,采用新颖的循环架构,能够更快地处理长序列数据。