AI项目与工具

SpatialVLA

SpatialVLA是一款由多机构联合研发的空间具身通用操作模型,具备强大的3D空间理解能力与跨平台泛化控制能力。通过Ego3D位置编码和自适应动作网格技术,实现精准的环境感知与动作生成。支持零样本任务执行与快速微调,适用于工业、物流、医疗等多个领域,推动机器人技术的发展与应用。

瑞智病理大模型

瑞智病理大模型(RuiPath)是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统,覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据,实现高效、精准的辅助诊断,支持交互式审核流程,提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台,适用于临床诊断、基层医疗、医学教育等多个场景,推动病理诊断智能化发展。

SongR

SongR是一款基于AI技术的在线歌曲创作工具,支持用户输入关键词和选择音乐风格来自动生成歌词和旋律。它提供了歌词编辑、自动谱曲、AI演唱等功能,并兼容多平台,适合个人娱乐、教育学习、商业广告等多种应用场景。用户能够轻松生成高质量的歌曲,满足个性化需求。

Talkstack

TalkStack是一款基于AI代理的企业级工具,提供全天候客户服务与销售支持。它支持多语言处理、全渠道通信和自动化工作流,能够显著提升客户互动效率和销售业绩,广泛应用于客户服务、销售、日程安排及市场调研等多个领域。

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具,支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能,兼容U-Net和DiT架构,并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程,提升生成质量与可控性,适用于内容创作、电影制作、广告营销、教育培训等多个领域。

豆包视觉理解模型

豆包视觉理解模型是一款集视觉识别、理解推理和复杂逻辑计算于一体的先进AI工具。它具备强大的视觉定位能力,支持多目标、小目标和3D定位,并能识别物体的类别、形状、纹理等属性,理解物体间的关系和场景含义。此外,模型在视频理解方面表现出色,能够进行记忆、总结、速度感知和长视频分析。凭借其高效性和成本优势,该模型广泛应用于图片问答、医疗影像分析、教育科研、电商零售及内容审核等领域。

ChatUI

ChatUI 是阿里团队推出的开源智能对话 UI 组件库,支持快速构建高质量聊天应用。具备响应式设计、多语言支持、主题定制、无障碍功能及 TypeScript 开发优势,适用于客服、智能助手、社交平台等多种场景,提升开发效率与用户体验。

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集,支持文本、图像和点云等多种数据形式,旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务,该工具不仅能够评估模型性能,还能促进具身AI和3D场景理解领域的研究进展。同时,它为开发更强大的情境推理模型提供了丰富的预训练资源。

Samwell.ai

Samwell.ai是一款利用人工智能技术打造的写作平台,主要服务于学术界和专业人士。它提供了强大的抄袭检测功能、多种引用格式支持以及全球学术资源访问权限,同时具备扩展段落和应用批判性思维等高级编辑能力,以提升用户的写作质量和效率。无论是撰写学术论文、课程作业还是商业计划,Samwell.ai都能提供全面的支持。

Amurex

Amurex是一款基于AI技术的会议助手,支持实时建议、智能摘要生成、关键要点提取及会议记录功能。它通过自然语言处理、机器学习和语音识别等技术,实现会议内容的高效管理和总结。适用于企业会议、远程协作、教育培训及项目管理等多种场景,帮助企业提升会议效率并保障数据安全。