多模态 - 智狐AI导航

书生

书生通用大模型体系是一套全面、高效的AI解决方案，涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

Ai平台模型 2026年06月22日 0 点赞 0 评论 723 浏览

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备，支持多模态感知与多维表达，提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音，接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域，提升服务效率与用户体验。

AI项目与工具 2025年06月12日 10 点赞 0 评论 722 浏览

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能AI模型，具备200万tokens的上下文窗口，支持复杂任务处理、多语言理解和代码生成。它能调用外部工具如Google搜索和代码执行环境，提升信息获取与问题解决能力。适用于编程辅助、数据分析、学术研究、教育及创意内容生成等多个领域，是当前Google系列模型中的佼佼者。

AI项目与工具 2025年06月12日 94 点赞 0 评论 721 浏览

HourVideo

HourVideo是一项由斯坦福大学研发的长视频理解基准数据集，包含500个第一人称视角视频，涵盖77种日常活动，支持多模态模型的评估。数据集通过总结、感知、视觉推理和导航等任务，测试模型对长时间视频内容的信息识别与综合能力，推动长视频理解技术的发展。其高质量的问题生成流程和多阶段优化机制，使其成为学术研究的重要工具。

AI项目与工具 2025年06月12日 77 点赞 0 评论 720 浏览

Janus

Janus是一种由DeepSeek AI开发的自回归框架，专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能，支持多种输入模态如图像、文本等，并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力，适用于图像创作、自动标注、视觉问答等多个领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 719 浏览

Dola

Dola是一款基于人工智能的日历助手，它允许用户通过多种方式（包括文字、语音和图片）与主要的即时通讯软件交互，以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能，能够自动识别并添加日程，支持跨平台同步，并在事件开始前发送提醒。此外，它还提供群组管理功能，适合团队和组织使用。Dola简化了日程管理流程，提升了个人和团队的工作效率。

AI项目与工具 2025年06月12日 93 点赞 0 评论 719 浏览

FlexRAG

FlexRAG 是一个高效的检索增强生成（RAG）框架，通过压缩编码器和选择性压缩机制优化长上下文处理，提升计算效率与生成质量。支持多模态数据、多种检索器和多数据类型，适用于开放域问答、对话系统、文档摘要等知识密集型任务，具备灵活配置和可扩展性。

AI项目与工具 2025年06月12日 69 点赞 0 评论 719 浏览

Matrix3D

Matrix3D 是一种由多所高校与科技企业联合开发的统一摄影测量模型，集姿态估计、深度预测、新视图合成与3D重建于一体。其核心技术为多模态扩散变换器，支持跨模态数据融合与灵活任务处理。通过掩码学习策略，提高数据利用效率并增强模型泛化能力。适用于VR/AR、游戏开发、影视制作等领域，具有高度交互性和灵活性。

AI项目与工具 2025年06月12日 49 点赞 0 评论 719 浏览

讯飞星火PC版

讯飞星火PC版是科大讯飞推出的一款桌面级AI工具，集成了强大的跨领域知识理解和语言处理能力。它支持自然对话方式，涵盖写作、搜索、问答、翻译、PPT生成、图像生成等功能，并新增了深度搜索与多模态交互能力，可广泛应用于办公、教育、内容创作和技术开发等领域，提供高效便捷的智能服务。

AI项目与工具 2024年10月29日 65 点赞 0 评论 718 浏览

Cradle

一个通用计算机控制的多模态AI框架，它可以使AI Agent能够像人类一样，能够直接控制键盘和鼠标，实现与任意开源代码或闭源代码软件的交互。

Ai开源项目 2025年06月05日 46 点赞 0 评论 717 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期

书生