评估
HIRING.STUDIO
HIRING.STUDIO是一款基于AI技术的面试问题生成平台,专注于优化招聘流程。其核心功能包括智能生成职位相关问题、提供后续问题建议、生成评估标准以及支持多种答案评估模式(如STAR方法)。该工具不仅提升了面试准备的效率和一致性,还增强了面试官对候选人的评价客观性,适用于技术面试、行为面试及团队协作场景,尤其适合校园招聘和远程面试等多样化招聘需求。
LongReward
LongReward是一种由清华大学、中国科学院及智谱AI联合开发的AI工具,专注于通过多维度评估(有用性、逻辑性、忠实性和完整性)来优化长文本大型语言模型的表现。它利用现成的语言模型提供奖励信号,并结合强化学习算法改善模型性能,特别擅长处理复杂长文本任务,如文档理解、摘要生成及特定领域的数据分析,如法律、金融和医疗。
AndroidLab
AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。