评估 - 智狐AI导航

WiS

WiS是一个基于“谁是卧底”游戏规则的在线AI竞赛平台，专为评估和分析大型语言模型（LLMs）在多智能体系统中的行为而设计。平台提供统一的模型评估接口、实时排行榜、全面的行为评估功能以及详尽的数据可视化支持，旨在为研究人员和开发者提供一个直观且高效的工具，用于测试和优化智能体在复杂交互环境中的表现。

AI项目与工具 2025年06月12日 20 点赞 0 评论 680 浏览

braintrust

Braintrust 是一个端到端的 AI 工具平台，专注于通过迭代式的工作流帮助公司快速构建高效的 AI 应用。它提供了强大的提示调整、评分器配置及数据集管理功能，支持从模型评估到质量控制的全流程优化。此外，Braintrust 的直观界面和代码库集成特性使其适用于各类用户群体，广泛应用于 AI 产品开发、模型评估、质量控制及数据集构建等领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 916 浏览

VE

VE-Bench是北京大学MMCAL团队研发的一款视频编辑质量评估工具，包含数据库（VE-Bench DB）和量化评估模块（VE-Bench QA）。它综合考虑了视觉质量、文本-视频一致性及源视频与编辑后视频的动态关联性，旨在实现与人类感知一致的精准评估。适用于电影制作、短视频优化、广告行业等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 741 浏览

VideoPhy

VideoPhy是一款由UCLA和谷歌研究院联合开发的基准测试工具，旨在评估视频生成模型的物理常识能力。它包含688条描述性字幕，通过人类和自动评估方式，衡量生成视频是否符合物理规则。VideoPhy不仅揭示了现有模型的不足，还推出了自动评估工具VideoCon-Physics，以推动模型性能的提升。其应用场景广泛，包括视频生成模型开发、计算机视觉研究、教育与培训以及娱乐产业等。

AI项目与工具 2025年06月12日 84 点赞 0 评论 694 浏览

TryOffAnyone

TryOffAnyone是一款基于Latent Diffusion Models技术的AI工具，专注于从人物照片中提取服装区域并生成平铺展示图。它具备在线图片处理、智能服装识别、背景去除和图像优化等功能，广泛应用于电商平台的商品展示、个性化推荐、库存管理和图像检索等领域，帮助提升用户体验和运营效率。

AI项目与工具 2025年06月12日 41 点赞 0 评论 885 浏览

ImBD

ImBD是一种用于检测机器修订文本的AI工具，采用风格偏好优化（SPO）和风格条件概率曲率（Style-CPC）技术，能有效区分人类写作与机器修订内容。该工具具备多场景适应能力，支持多种文本类型和领域，训练效率高、数据需求低，适用于学术、新闻、出版、教育等多个应用场景，提升文本检测的准确性与可靠性。

AI项目与工具 2025年06月12日 19 点赞 0 评论 526 浏览

SocraticLM

SocraticLM 是一款基于苏格拉底教学法的人工智能模型，由中科大与科大讯飞联合开发。它通过提问引导学生主动思考，具备多轮对话能力和个性化教学功能。模型在 SocraTeach 数据集上训练，教学性能优于 GPT-4，整体质量提升 12%。其综合评估系统涵盖五项教学维度，适用于数学教学、个性化辅导及在线教育平台，为教育技术发展提供了新思路。

AI项目与工具 2025年06月12日 47 点赞 0 评论 535 浏览

CodeElo

CodeElo 是一款基于 Elo 评级系统的编程能力评估工具，用于衡量大型语言模型在编程竞赛中的表现。它从 CodeForces 平台选取题目，按难度和算法分类，并通过直接提交代码进行测试，确保评估的准确性。该工具可比较模型与人类程序员的水平，适用于模型优化、教学辅助及开发应用，为 LLMs 编程能力研究提供可靠参考。

AI项目与工具 2025年06月12日 71 点赞 0 评论 508 浏览

Umax

Umax是一款基于AI的面部分析工具，通过上传自拍照提供颜值评分、面部特征分析及个性化改进建议。具备进度跟踪、虚拟化妆、滤镜等功能，帮助用户提升外貌与自信。适用于日常美容、自我提升及美学学习，适合关注形象管理的用户。

AI项目与工具 2025年06月12日 88 点赞 0 评论 592 浏览

North

North 是 Cohere 推出的企业级 AI 工作平台，提供安全、高效的 AI 解决方案，支持私有云或本地部署。内置 Compass 搜索系统，可处理多种数据类型并支持多语言，提升任务效率。平台集成了高性能语言模型和自动化工具，适用于金融、医疗等行业，可用于风险评估、客户支持、疾病诊断、药物研发等多个场景，增强企业智能化水平。

AI项目与工具 2025年06月12日 60 点赞 0 评论 746 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期

WiS