评估 - 智狐AI导航

MMRole

MMRole是一个由中国人民大学高瓴人工智能学院研究团队开发的多模态角色扮演智能体（MRPA）框架。该框架通过整合图像和文本，使智能体能够以特定角色进行更为自然和沉浸式的对话。MMRole框架包括一个大规模、高质量的多模态数据集和一个全面的评估方法，用于开发和评估MRPAs的性能。该框架为创建能够理解和生成与图像相关对话内容的智能体提供了新的可能，并扩展了其在教育、娱乐、客户服务、社交模拟和内容创

AI项目与工具 2025年06月12日 28 点赞 0 评论 672 浏览

TryOffDiff

TryOffDiff是一种基于扩散模型的虚拟试穿技术，通过高保真服装重建实现从单张穿着者照片生成标准化服装图像的功能。它能够精确捕捉服装的形状、纹理和复杂图案，并在生成模型评估和高保真重建领域具有广泛应用潜力，包括电子商务、个性化推荐、时尚设计展示及虚拟时尚秀等场景。

AI项目与工具 2025年06月12日 34 点赞 0 评论 671 浏览

智能文档处理“百宝箱”

智能文档处理“百宝箱”是一款专注于文档解析的专业化工具，能够支持批量处理、多版式兼容，并具备高精度解析能力。其核心功能包括文档解析可视化、关键信息提取、解析效果评估等，广泛应用于企业文档管理、法律事务、金融数据分析、医疗记录处理及教育资源整合等领域，旨在优化各行业的文档处理流程，提升工作效率与准确性。

AI项目与工具 2025年06月12日 48 点赞 0 评论 671 浏览

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用，帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集，以及基于该数据集训练的模型。这些模型能够处理长文本内容，提供准确的问答服务，并附带可追溯的引用，增强信息的透明度和可靠性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 670 浏览

Agentar

Agentar是蚂蚁数科推出的智能体开发平台，面向金融机构提供一站式AI开发工具。平台基于大量金融数据与AI技术，支持零代码、低代码开发，具备高安全性与合规性。其核心功能涵盖可信智能体技术、高质量知识库、可视化编排及丰富服务组件，适用于智能投研、客服、风控、营销与合规管理等场景，助力金融机构提升决策效率与智能化水平。

AI项目与工具 2025年06月11日 90 点赞 0 评论 668 浏览

Promptim

Promptim是一款实验性的AI提示优化工具，旨在通过自动化优化循环提升AI系统在特定任务中的表现。其主要功能包括自动化提示优化、自定义评估器集成、人工反馈循环及多轮优化。Promptim支持文本生成、对话系统、机器翻译、情感分析和教育等多个应用场景，通过数据驱动的优化方法和元提示策略，帮助用户快速生成更高效的提示，显著提升AI系统的性能。

AI项目与工具 2025年06月12日 19 点赞 0 评论 667 浏览

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 658 浏览

Sitespeak.ai

SiteSpeakAI可以通过使用您网站的内容、文档、知识自定义 AI 聊天机器人，训练一个可以回答你产品和服务的24/7 全天候实时提供服务的聊天机器人。

电商运营 2025年06月05日 11 点赞 0 评论 658 浏览

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型，具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成，适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据，并从美学角度进行图像评价，适合需要高效图像处理和智能交互的应用场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 653 浏览

VSI

VSI-Bench是一种用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准测试工具，包含超过5000个问题-答案对，覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务，可全面评估模型的空间认知、理解和记忆能力，并提供标准化的测试集用于模型性能对比。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 650 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期