MTEB Leaderboard是目前AI嵌入(Embedding)模型领域最权威、最被广泛参考的公开排行榜之一。
什么是 MTEB?
全称:Massive Text Embedding Benchmark
中文常译为:海量文本嵌入基准测试
它是专门用来全面评估文本嵌入模型(Text Embedding Models)性能的标准化大规模基准测试框架,于2022年底首次发布(EACL 2023论文),后来经过多次大幅扩展。
核心特点(2025-2026 当前情况)
- 任务数量极多:覆盖 8大类任务,总计 56+ 个数据集(早期是56个,后来持续增加)
- Classification(分类)
- Clustering(聚类)
- Retrieval(检索/召回)← 最重要的一类
- Semantic Textual Similarity (STS)(语义文本相似度)
- Reranking(重排序)
- Pair Classification
- Summarization(摘要)
- Bitext Mining(平行语料挖掘)
- 多语言支持:包含大量英语任务,同时也有越来越多多语言和特定语言排行榜(如法语、中文、日语等)
- 最新版本:社区常说的 MTEB v2 / MMTEB(大规模多语言扩展版),任务和评估方式相比初版有明显升级
怎么算分?(最关键的点)
最终显示的平均分(Average Score)是以下方式计算的:
- 所有任务的指标统一归一化(主要是 NDCG@10、AP、cosine sim 等)
- 各类任务有不同的权重(Retrieval 权重最高)
- 最后加权平均得出 总平均分(目前顶级模型一般在 68~72 分左右浮动)
谁在用?主要用户群体
- RAG 系统开发者(最核心用户群)
- 语义搜索、向量数据库选型人员
- Embedding 模型研发团队(几乎所有新 embedding 模型发布都会第一时间刷 MTEB)
- 多语言/小语种应用开发者
- 对模型大小、速度、价格敏感的公司(会同时看分 + 维度 + 推理成本)