Embedding Leaderboard

AI嵌入(Embedding)模型领域最权威、最被广泛参考的公开排行榜之一

MTEB Leaderboard是目前AI嵌入(Embedding)模型领域最权威、最被广泛参考的公开排行榜之一。

什么是 MTEB?

全称:Massive Text Embedding Benchmark
中文常译为:海量文本嵌入基准测试

它是专门用来全面评估文本嵌入模型(Text Embedding Models)性能的标准化大规模基准测试框架,于2022年底首次发布(EACL 2023论文),后来经过多次大幅扩展。

核心特点(2025-2026 当前情况)

  • 任务数量极多:覆盖 8大类任务,总计 56+ 个数据集(早期是56个,后来持续增加)
    • Classification(分类)
    • Clustering(聚类)
    • Retrieval(检索/召回)← 最重要的一类
    • Semantic Textual Similarity (STS)(语义文本相似度)
    • Reranking(重排序)
    • Pair Classification
    • Summarization(摘要)
    • Bitext Mining(平行语料挖掘)
  • 多语言支持:包含大量英语任务,同时也有越来越多多语言特定语言排行榜(如法语、中文、日语等)
  • 最新版本:社区常说的 MTEB v2 / MMTEB(大规模多语言扩展版),任务和评估方式相比初版有明显升级

怎么算分?(最关键的点)

最终显示的平均分(Average Score)是以下方式计算的:

  • 所有任务的指标统一归一化(主要是 NDCG@10、AP、cosine sim 等)
  • 各类任务有不同的权重(Retrieval 权重最高)
  • 最后加权平均得出 总平均分(目前顶级模型一般在 68~72 分左右浮动)

谁在用?主要用户群体

  • RAG 系统开发者(最核心用户群)
  • 语义搜索、向量数据库选型人员
  • Embedding 模型研发团队(几乎所有新 embedding 模型发布都会第一时间刷 MTEB)
  • 多语言/小语种应用开发者
  • 对模型大小、速度、价格敏感的公司(会同时看分 + 维度 + 推理成本)