评估 - 智狐AI导航

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 659 浏览

Promptim

Promptim是一款实验性的AI提示优化工具，旨在通过自动化优化循环提升AI系统在特定任务中的表现。其主要功能包括自动化提示优化、自定义评估器集成、人工反馈循环及多轮优化。Promptim支持文本生成、对话系统、机器翻译、情感分析和教育等多个应用场景，通过数据驱动的优化方法和元提示策略，帮助用户快速生成更高效的提示，显著提升AI系统的性能。

AI项目与工具 2025年06月12日 19 点赞 0 评论 667 浏览

Agentar

Agentar是蚂蚁数科推出的智能体开发平台，面向金融机构提供一站式AI开发工具。平台基于大量金融数据与AI技术，支持零代码、低代码开发，具备高安全性与合规性。其核心功能涵盖可信智能体技术、高质量知识库、可视化编排及丰富服务组件，适用于智能投研、客服、风控、营销与合规管理等场景，助力金融机构提升决策效率与智能化水平。

AI项目与工具 2025年06月11日 90 点赞 0 评论 668 浏览

智能文档处理“百宝箱”

智能文档处理“百宝箱”是一款专注于文档解析的专业化工具，能够支持批量处理、多版式兼容，并具备高精度解析能力。其核心功能包括文档解析可视化、关键信息提取、解析效果评估等，广泛应用于企业文档管理、法律事务、金融数据分析、医疗记录处理及教育资源整合等领域，旨在优化各行业的文档处理流程，提升工作效率与准确性。

AI项目与工具 2025年06月12日 48 点赞 0 评论 671 浏览

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用，帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集，以及基于该数据集训练的模型。这些模型能够处理长文本内容，提供准确的问答服务，并附带可追溯的引用，增强信息的透明度和可靠性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 672 浏览

MMRole是一个由中国人民大学高瓴人工智能学院研究团队开发的多模态角色扮演智能体（MRPA）框架。该框架通过整合图像和文本，使智能体能够以特定角色进行更为自然和沉浸式的对话。MMRole框架包括一个大规模、高质量的多模态数据集和一个全面的评估方法，用于开发和评估MRPAs的性能。该框架为创建能够理解和生成与图像相关对话内容的智能体提供了新的可能，并扩展了其在教育、娱乐、客户服务、社交模拟和内容创

AI项目与工具 2025年06月12日 28 点赞 0 评论 672 浏览

TryOffDiff

TryOffDiff是一种基于扩散模型的虚拟试穿技术，通过高保真服装重建实现从单张穿着者照片生成标准化服装图像的功能。它能够精确捕捉服装的形状、纹理和复杂图案，并在生成模型评估和高保真重建领域具有广泛应用潜力，包括电子商务、个性化推荐、时尚设计展示及虚拟时尚秀等场景。

AI项目与工具 2025年06月12日 34 点赞 0 评论 672 浏览

ARCHITEChTURES

ARCHITEChTURES是一个基于AI的建筑设计平台，专注于自动化处理建筑设计中的重复性任务，如建模、测量和计算，以提高设计效率和质量。它支持多户型住宅建筑设计，提供CAD和BIM绘图功能，并具备测量、预算以及快速设计与共享能力。此外，平台还支持多种应用场景，包括可行性研究、场地规划、商业评估和概念迭代等。

AI项目与工具 2025年06月12日 34 点赞 0 评论 674 浏览

WiS

WiS是一个基于“谁是卧底”游戏规则的在线AI竞赛平台，专为评估和分析大型语言模型（LLMs）在多智能体系统中的行为而设计。平台提供统一的模型评估接口、实时排行榜、全面的行为评估功能以及详尽的数据可视化支持，旨在为研究人员和开发者提供一个直观且高效的工具，用于测试和优化智能体在复杂交互环境中的表现。

AI项目与工具 2025年06月12日 20 点赞 0 评论 680 浏览

MagicSchool AI

MagicSchool AI 是一款利用生成式AI的工具，旨在帮助教师在课堂中应用生成式AI。

教育学习 2025年06月05日 30 点赞 0 评论 680 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期