Databricks MosaicML 推出的开源商业可用大模型系列，支持 65K 超长上下文，针对企业级训练与推理优化。

模型与定位

MPT（Mosaic Pretrained Transformer）由 Databricks MosaicML 团队研发，完全开源且商业可用。核心特性包括 Flash Attention 高效注意力、ALiBi 位置编码支持上下文长度外推，以及稳定性改进消除损失尖峰。MPT-30B 在多项基准上超越同规模模型。

参数速览

模型	参数量	上下文	开源权重	商业可用	适用场景
MPT-7B	7B	2K	✅	✅	轻量部署、实验
MPT-7B-8K	7B	8K	✅	✅	长文档理解
MPT-7B-StoryWriter	7B	65K	✅	✅	长文创作、小说
MPT-30B	30B	8K	✅	✅	通用对话、代码
MPT-30B-Instruct	30B	8K	✅	✅	指令遵循、Agent

平台接入

平台	说明
Databricks	企业级训练与部署
HuggingFace	模型权重下载
MosaicML	官方文档

选型建议

长文档/小说创作首选 StoryWriter-65K；通用场景选 MPT-30B；轻量部署选 MPT-7B-8K；企业用户可结合 Databricks 平台使用。