多模态 - 智狐AI导航

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试，专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题，涉及多个领域，并通过多模态输入输出和细粒度评估指标，全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域，助力提升人工智能系统的综合性能。

AI项目与工具 2025年06月12日 20 点赞 0 评论 659 浏览

西湖大模型

西湖大模型西湖心辰开发的多模态大模型，既具备通过跨领域的知识解决问题的超高智商，也具备通过情感感知、长期记忆形成的超高情商。

Ai平台模型 1970年01月01日 0 点赞 0 评论 659 浏览

探一下

探一下是一款依托于多模态大模型技术的AI视觉搜索工具，用户可通过其摄像头识别花草、宠物、潮玩等物体，获取旅游讲解、商品药品详情等信息，同时具备趣味解读图片的功能，支持文字翻译与场景触发滤镜，适用于多种生活场景。 ---

AI项目与工具 2025年06月12日 47 点赞 0 评论 659 浏览

谷觅AI

支持AI文章自动生成，谷觅AI提供自动写作和批量创作能力，AI写作生成器系统工具。

AI写作对话 2025年06月05日 87 点赞 0 评论 657 浏览

书生通用大模型

上海人工智能实验室发布的大型预训练模型。

Ai平台模型 2025年06月05日 68 点赞 0 评论 656 浏览

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 654 浏览

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台，基于 AI 技术提供高质量文字转语音服务，支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆，并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景，提升语音内容制作效率。

AI项目与工具 2025年06月11日 96 点赞 0 评论 654 浏览

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 651 浏览

基石智算

基石智算是青云科技推出的AI算力云服务平台，支持多种异构算力资源的统一调度与管理，具备弹性扩容、分布式任务调度、一站式AI开发及模型部署等功能。平台适用于AI模型训练、高性能计算、数据科学分析及模型推理等多种场景，提供灵活的服务模式和全面的资源监控与管理能力，助力用户高效开展人工智能相关工作。

AI项目与工具 2025年06月11日 49 点赞 0 评论 650 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 650 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期

GTA