EvalLM 是一个交互式系统,专为提示工程师设计,帮助他们在大型语言模型(LLM)提示词迭代过程中,根据用户自定义的标准评估和比较生成的输出。它利用另一个LLM作为评估助手,提供解释、突出关键部分,并支持用户逐步优化提示词和评估标准。
主要特点
- 自定义评估标准:用户可以用自然语言描述评估准则(如“输出是否生动有趣”或“是否符合特定领域要求”),系统会自动评估多个提示词在这些准则上的表现。
- 交互式界面:分为三个面板:
- 生成面板:定义任务、输入提示词和样本数据。
- 评估面板:定义准则、查看整体性能、验证结果。
- 数据面板:并排显示输入、不同提示的输出、评估结果、解释和高亮关键文本。
- 迭代优化:支持多次试验比较,帮助用户发现提示的优缺点,并快速改进。
- LLM辅助:自动提供评估解释、建议准则的合并/拆分/优化。
背景与研究
该系统由韩国KAIST的KIXLAB(KAIST Interaction Lab,人机交互实验室)和NAVER AI Lab的研究者开发,主要开发者包括Tae Soo Kim、Yoonjoo Lee、Jamin Shin、Young-Ho Kim和Juho Kim。
它源于一项研究:开发者在优化LLM提示时,往往需要手动评估大量输出,尤其是主观或上下文特定的标准,非常耗时。EvalLM通过自动化和交互方式解决这个问题。
研究论文《EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria》发表于CHI 2024(人机交互顶级会议),实验显示,使用EvalLM的用户能制定更多样化的准则、检查两倍的输出,并以少59%的修订次数达到满意提示。
网站提供视频演示、论文引用、代码链接(GitHub: kixlab/EvalLM)和项目详情。如果你对LLM提示工程感兴趣,这是一个很有实用价值的开源工具!