EvalLM

交互式在线工具,帮助提示工程师通过用户自定义标准快速评估和迭代优化大型语言模型(LLM)的提示词

EvalLM 是一个交互式系统,专为提示工程师设计,帮助他们在大型语言模型(LLM)提示词迭代过程中,根据用户自定义的标准评估和比较生成的输出。它利用另一个LLM作为评估助手,提供解释、突出关键部分,并支持用户逐步优化提示词和评估标准。

主要特点

  • 自定义评估标准:用户可以用自然语言描述评估准则(如“输出是否生动有趣”或“是否符合特定领域要求”),系统会自动评估多个提示词在这些准则上的表现。
  • 交互式界面:分为三个面板:
    • 生成面板:定义任务、输入提示词和样本数据。
    • 评估面板:定义准则、查看整体性能、验证结果。
    • 数据面板:并排显示输入、不同提示的输出、评估结果、解释和高亮关键文本。
  • 迭代优化:支持多次试验比较,帮助用户发现提示的优缺点,并快速改进。
  • LLM辅助:自动提供评估解释、建议准则的合并/拆分/优化。

背景与研究

该系统由韩国KAIST的KIXLAB(KAIST Interaction Lab,人机交互实验室)和NAVER AI Lab的研究者开发,主要开发者包括Tae Soo Kim、Yoonjoo Lee、Jamin Shin、Young-Ho Kim和Juho Kim。

它源于一项研究:开发者在优化LLM提示时,往往需要手动评估大量输出,尤其是主观或上下文特定的标准,非常耗时。EvalLM通过自动化和交互方式解决这个问题。

研究论文《EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria》发表于CHI 2024(人机交互顶级会议),实验显示,使用EvalLM的用户能制定更多样化的准则、检查两倍的输出,并以少59%的修订次数达到满意提示。

网站提供视频演示、论文引用、代码链接(GitHub: kixlab/EvalLM)和项目详情。如果你对LLM提示工程感兴趣,这是一个很有实用价值的开源工具!