FlagevalMM FlagEvalMM是一个由北京智源人工智能研究院开发的开源多模态模型评测框架,专注于评估处理文本、图像、视频等多模态任务的模型性能。它支持多种任务和指标,采用解耦评测与推理的设计,提供统一的评测流程,集成丰富模型库并兼容多种后端引擎。该工具适用于学术研究、工业应用、模型开发、教育领域及内容创作等多个场景。 AI项目与工具 2025年06月12日 89 点赞 0 评论 450 浏览
OmniBooth OmniBooth是一款由华为诺亚方舟实验室与香港科技大学联合开发的图像生成框架,支持基于文本或图像的多模态指令控制及实例级定制。它通过高维潜在控制信号实现对图像中对象位置和属性的精准操控,具备多模态嵌入提取、空间变形技术以及特征对齐网络等功能,广泛应用于数据集生成、内容创作、游戏开发、虚拟现实及广告营销等领域。 AI项目与工具 2025年06月12日 46 点赞 0 评论 449 浏览
II II-Agent 是一个开源的 Agent 框架,通过与大型语言模型(LLM)交互,简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口,适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。 AI项目与工具 2025年06月11日 67 点赞 0 评论 449 浏览
BioMedGPT BioMedGPT-R1是由清华大学AI产业研究院与北京水木分子生物科技联合开发的多模态生物医药开源大模型。基于DeepSeek R1技术,实现生物模态(如分子、蛋白质)与自然语言的统一融合,支持跨模态问答与深度推理。该模型在药物分子理解、靶点挖掘等领域表现优异,适用于药物设计、临床前研究及医学文本分析等多种场景,具备较高的文本推理能力和多模态处理能力。 AI项目与工具 2025年06月12日 95 点赞 0 评论 449 浏览
ImageBind ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。 AI项目与工具 2025年06月12日 16 点赞 0 评论 448 浏览
智谱API-免费领取 新用户免费领1亿tokens,基于领先的千亿级多语言、多模态预训练模型,打造高效率、通用化的“模型即服务”AI开发新范式。 GPTs应用 1970年01月01日 0 点赞 0 评论 448 浏览
XMusic XMusic是腾讯多媒体实验室开发的AI作曲框架,支持多模态输入(如图片、文字、视频等)生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化,具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景,有效降低音乐创作门槛,提升创作效率与个性化体验。 AI项目与工具 2025年06月12日 77 点赞 0 评论 446 浏览
PP PP-DocBee是百度飞桨推出的多模态文档理解模型,基于ViT+MLP+LLM架构,支持文字、表格、图表等多类型文档内容的精准识别与解析。具备高效的推理性能和高质量输出,适用于文档问答、信息提取等场景,支持灵活部署,为文档处理提供智能化解决方案。 AI项目与工具 2025年06月12日 56 点赞 0 评论 445 浏览
法唠AI 法唠AI是基于大语言模型开发的法律人工智能工具,专注于证券法与金融法律领域。提供法律问答、知识图谱构建、深度搜索、案件逻辑图绘制、股票信息查询、维权指导及文书生成等功能,支持个性化法律服务,助力用户高效获取法律解决方案。 AI项目与工具 2025年06月12日 87 点赞 0 评论 445 浏览