多模态

Being

Being-M0是由北京大学、中国人民大学等机构联合研发的首个大规模人形机器人通用动作生成模型。基于百万级动作数据集 MotionLib 和 MotionBook 编码技术,实现动作序列的高效表示与生成。该模型支持文本驱动动作生成、动作迁移及多模态数据处理,可应用于人形机器人控制、动画制作、VR/AR、人机交互及运动康复等多个领域,显著提升动作生成的多样性和语义对齐精度。

星河易创AI

全功能一站式AI创作平台,集成了行业领先的ChatGPT4.0和ChatGPT3.5对话系统,Midjourney的绘画能力,DALL-E的文本到图像创造力,以及GPT4-ALL的多模态能力。

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型,专注于图形用户界面(GUI)的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力,可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色,尤其在GUI操作数据集上显著超越现有模型。

文心智能体平台

百度推出的一个基于文心大模型的AI智能体(Agent)平台,文心智能体平台旨在支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力。

TheoremExplainAgent

TheoremExplainAgent(TEA)是一款基于多模态技术的AI工具,可生成超过5分钟的数学与科学定理解释视频,涵盖多个STEM领域。它结合文本、动画和语音,提升抽象概念的理解效果,并具备自动错误诊断功能。通过TheoremExplainBench基准评估,TEA在准确性、逻辑性和视觉表现上均表现优异,适用于在线教育、课堂教学和学术研究等多种场景。

Seed Music

一个强大的音乐生成工具,它通过先进的技术手段,如自回归模型和扩散模型,为用户提供了从音乐创作到编辑再到声音转换的全方位服务。这套系统不仅能够生成高质量的音乐作品,还能...

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

龙猫LongCat

龙猫LongCat是美团自主研发的生成式AI大模型,具备多模态处理能力,可支持文本、图像等内容生成任务。其核心功能涵盖智能编程、会议记录、文档编辑、图形设计与视频脚本生成等,适用于多种办公场景。通过大规模预训练与混合训练策略,龙猫在实际应用中展现出高效、精准的特点,有效提升工作效率与创新能力。

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面(GUI)的智能代理模型,具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则,即可实现端到端的GUI任务自动化,适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术,支持高效的界面交互与精准的视觉定位。

GR00T N1

GR00T N1 是英伟达推出的开源人形机器人基础模型,支持多模态输入并具备复杂任务执行能力。采用双系统架构,结合视觉-语言模型与扩散变换器,实现精准动作控制。基于大规模数据训练,适应多种机器人形态和任务场景,广泛应用于物流、制造、医疗等领域,提升自动化水平与操作效率。