多模态

华知大模型5.0

华知大模型5.0是一款由同方知网与华为云联合开发的多模态人工智能平台,支持文本、图像等多种数据类型的处理与生成。其核心功能包括AIGC检测、学术搜问、图表解读、论文选题、文献理解以及知识推荐等,广泛应用于科技创新、学术研究、科学决策及数据分析等领域,致力于提升工作效率并促进智能化发展。

Awesome GPT

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。

Embed3

Embed3是一款由Cohere研发的多模态AI搜索模型,支持从文本和图像生成嵌入向量,实现智能化的跨模态搜索。它能够处理多种语言,支持复杂数据集的快速检索,并提供一致的用户体验。主要功能包括多模态搜索能力、跨语言支持、增强型检索-生成系统以及简化数据管理。适用于商业智能、电子商务、设计创作、文档管理和客户服务等多个领域。

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架,可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性,显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点,适用于电影、游戏、虚拟现实等多个领域。

BEHAVIOR Robot Suite

BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队研发的机器人操作框架,专注于实现全身协调与复杂家务任务。它结合了低成本遥操作接口JoyLo和多模态学习算法WB-VIMA,提升机器人在真实环境中的适应性和操作精度。适用于家务自动化、垃圾处理、衣物整理等多个场景,具备高度灵活性和故障恢复能力。

MetaMorph

MetaMorph是一款基于多模态大模型的工具,通过Visual-Predictive Instruction Tuning(VPiT)技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异,能够克服其他生成模型的常见失败模式,同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势,支持多模态数据的高效处理,并在视觉生成与理解基准测试中取得竞争力表现。

Dola

Dola是一款基于人工智能的日历助手,它允许用户通过多种方式(包括文字、语音和图片)与主要的即时通讯软件交互,以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能,能够自动识别并添加日程,支持跨平台同步,并在事件开始前发送提醒。此外,它还提供群组管理功能,适合团队和组织使用。Dola简化了日程管理流程,提升了个人和团队的工作效率。

Ivy

Ivy-VL是一款专为移动端和边缘设备设计的轻量级多模态AI模型,具备约30亿参数,专注于视觉问答、图像描述及复杂推理等任务,能够有效降低计算资源需求,同时在多模态任务中表现出色,尤其适用于增强现实、智能家居及移动学习等领域。

异世界回响

异世界回响是一款基于人工智能的社交平台,用户可与虚拟角色进行沉浸式交流。平台支持自定义角色形象与声音,提供AIGC工具创建独一无二的角色,并具备数字分身功能。主要面向寻求创新社交体验、情感陪伴以及对AI技术感兴趣的人群。

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架,专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力,可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域,同时支持预训练模型微调和端到端开发流程,为企业提供高效灵活的解决方案。