评估 - 智狐AI导航

VirSci

VirSci是一款基于大型语言模型（LLMs）的多智能体AI科学研究工具，通过模拟科学家团队合作加速科研创新。其主要功能包括合作者选择、主题讨论、创意生成、新颖性评估、摘要生成及自我审查等，支持从团队组建到科学发现的全流程。VirSci具备强大的自然语言处理能力、数字孪生技术和知识库支持，广泛应用于科学研究、团队协作、教育和项目管理等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 699 浏览

HIRING.STUDIO

HIRING.STUDIO是一款基于AI技术的面试问题生成平台，专注于优化招聘流程。其核心功能包括智能生成职位相关问题、提供后续问题建议、生成评估标准以及支持多种答案评估模式（如STAR方法）。该工具不仅提升了面试准备的效率和一致性，还增强了面试官对候选人的评价客观性，适用于技术面试、行为面试及团队协作场景，尤其适合校园招聘和远程面试等多样化招聘需求。

AI项目与工具 2025年06月12日 25 点赞 0 评论 742 浏览

LongReward

LongReward是一种由清华大学、中国科学院及智谱AI联合开发的AI工具，专注于通过多维度评估（有用性、逻辑性、忠实性和完整性）来优化长文本大型语言模型的表现。它利用现成的语言模型提供奖励信号，并结合强化学习算法改善模型性能，特别擅长处理复杂长文本任务，如文档理解、摘要生成及特定领域的数据分析，如法律、金融和医疗。

AI项目与工具 2025年06月12日 71 点赞 0 评论 740 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 638 浏览

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试，专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题，涉及多个领域，并通过多模态输入输出和细粒度评估指标，全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域，助力提升人工智能系统的综合性能。

AI项目与工具 2025年06月12日 20 点赞 0 评论 825 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 852 浏览

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 731 浏览

微点

Abit是一款基于生成式大语言模型的智能考试系统，可将文本内容转化为多样化考题，支持多种题型生成、即时评分、考试报告分析及个性化学习建议等功能，广泛应用于企业培训、知识考核等领域，助力提升学习效率与培训效果。

AI项目与工具 2025年06月12日 31 点赞 0 评论 877 浏览

Khroma

Khroma是一款基于人工智能技术的在线配色平台，允许用户通过输入偏好颜色生成定制化配色方案。它支持多种搜索与筛选功能，能够为设计师提供丰富的色彩灵感，并提供详细的色彩信息。Khroma广泛应用于网页设计、平面设计、UI/UX设计、品牌设计及艺术创作等领域，帮助提升设计效率与质量。

AI项目与工具 2025年06月12日 56 点赞 0 评论 524 浏览

Kimi学术搜索

Kimi学术搜索是一款基于人工智能技术的学术研究辅助工具，通过深度推理、信息整合及实时交互等功能，帮助用户高效地获取学术资源。其主要特点包括多语言支持、自我评估改进机制以及对复杂任务的精准响应能力，广泛应用于学术研究、市场分析、学习辅导和技术支持等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 638 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期