← 返回AI精选
大语言模型

MPT

Databricks MosaicML 推出的开源商业可用大模型系列,支持 65K 超长上下文,针对企业级训练与推理优化。

模型与定位

MPT(Mosaic Pretrained Transformer)由 Databricks MosaicML 团队研发,完全开源且商业可用。核心特性包括 Flash Attention 高效注意力、ALiBi 位置编码支持上下文长度外推,以及稳定性改进消除损失尖峰。MPT-30B 在多项基准上超越同规模模型。

参数速览

模型参数量上下文开源权重商业可用适用场景
MPT-7B7B2K轻量部署、实验
MPT-7B-8K7B8K长文档理解
MPT-7B-StoryWriter7B65K长文创作、小说
MPT-30B30B8K通用对话、代码
MPT-30B-Instruct30B8K指令遵循、Agent

平台接入

平台说明
Databricks企业级训练与部署
HuggingFace模型权重下载
MosaicML官方文档

选型建议

长文档/小说创作首选 StoryWriter-65K;通用场景选 MPT-30B;轻量部署选 MPT-7B-8K;企业用户可结合 Databricks 平台使用。