评估

DataCamp

DataCamp 是一个在线学习平台,专注于数据科学、人工智能及编程技能的培养。它提供超过900门互动课程,支持浏览器内编程,具备技能评估与个性化学习路径推荐功能。通过该平台,用户可以提升职业技能并获取行业认证,广泛应用于企业培训、学术教育及个人职业转型等领域。

DialMe

DialMe,一个自动化面试平台。

壁⻁看看

为货主提供快手抖音达⼈历史带货数据,快手抖音主播带货能⼒评估

拜托了简历

拜托了简历是一款利用AI智能评估简历、根据用户的简历信息和应聘岗位,生成用户专属面试题的产品,帮助用户提前修改简历,生成个性化的简历评估、面试问题。

LalaEval

LalaEval是由香港中文大学与货拉拉数据科学团队联合开发的针对特定领域大语言模型的人类评估框架。它提供了一套完整的端到端评估流程,涵盖领域界定、能力指标构建、评测集生成、标准制定及结果分析。通过争议度与评分波动分析,有效减少主观误差,提升评估质量。该工具已在物流领域成功应用,并具备良好的跨领域扩展性,适用于企业内部模型优化与多场景评测。

HelloBench

HelloBench 是一款开源基准测试工具,专注于评估大型语言模型在长文本生成任务中的表现。它基于布鲁姆分类法设计了五个子任务,并采用 HelloEval 方法实现高效自动化评估。该工具支持多领域应用,包括模型开发、学术研究、产品测试等,同时揭示了现有模型在长文本生成中的局限性。

EmoxCare

EmoxCare是一款免费的AI心理咨询师,帮助用户进行心理健康管理。用户可以通过文字、语音等方式与EmoxCare交流,获取情感支持和指导。其功能包括情绪追踪与聊天、冥想与正念练习、心理健康评估以及情绪调节与应对。EmoxCare提供自我疗愈练习和心理健康报告,但信息仅供参考,不能替代专业医疗建议。

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试,专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题,涉及多个领域,并通过多模态输入输出和细粒度评估指标,全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域,助力提升人工智能系统的综合性能。

DET Practice

一个专注于多邻国英语测试的在线平台,提供丰富的题库、模拟考试及AI纠正服,帮助用户高效备考多邻国英语测试。

Self

Self-Taught Evaluators是一种无需人工标注数据的模型评估框架,通过自我训练方式增强大型语言模型(LLM)的评估能力。其核心在于利用LLM生成对比输出并进行迭代优化,显著提升了模型评估的准确性,达到了与顶级奖励模型相媲美的效果,广泛适用于语言模型开发、内容评估、教育科研以及技术支持等领域。