多模态

云从科技从容大模型

云从科技从容大模型是一个多功能、跨行业的AI大模型,它通过集成云从科技的核心技术,为用户提供个性化、智能化的服务和解决方案。

Movie Gen

Movie Gen是Meta开发的一款AI视频生成与编辑工具,支持根据文本提示生成高清视频并提供同步音频配制。该工具具备强大的视频生成能力,可创建长达16秒的高清视频,并支持照片定制化视频生成和精准编辑功能。此外,它还拥有先进的音频生成技术,能够生成高质量的环境音效和背景音乐。当前,Movie Gen主要服务于Meta内部团队及部分合作伙伴,未来有望推广至更广泛的用户群体。 ---

Talkie

Talkie是一款基于人工智能技术打造的虚拟伴侣应用,主打高度定制化虚拟角色和沉浸式互动体验。它支持用户通过文本、语音及图像与AI角色交流,并提供角色创建、卡牌收集、智能推荐等功能。自推出以来,Talkie迅速获得了全球用户的青睐,在个性化聊天、情感陪伴及沉浸式叙事方面展现出强大潜力。

觅果Migo

一款AI学习办公助手。为用户提供便捷、高效的文字处理、信息搜索、知识问答等支持,还能辅助论文阅读、润色学术写作,支持多模态交互。

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。

MVoT

MVoT是一种多模态推理框架,通过生成图像形式的推理痕迹,增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制,有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域,具有广泛的应用潜力。

Matrix3D

Matrix3D 是一种由多所高校与科技企业联合开发的统一摄影测量模型,集姿态估计、深度预测、新视图合成与3D重建于一体。其核心技术为多模态扩散变换器,支持跨模态数据融合与灵活任务处理。通过掩码学习策略,提高数据利用效率并增强模型泛化能力。适用于VR/AR、游戏开发、影视制作等领域,具有高度交互性和灵活性。

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开发的开源 Android 应用,支持多种大语言模型在本地运行。具备多模态交互能力,可处理文本、图像、音频等多种输入输出任务。应用经过 CPU 推理优化,运行效率高,支持离线使用,保障数据安全。内置 Qwen、Gemma、Llama 等主流模型,适用于内容创作、智能助手、语言学习及创意设计等多种场景。

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架,采用多智能体协作与动态迭代推理技术,提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合,支持精准检索与高质量生成,适用于教育、金融、医疗等多个领域,显著提升文档处理效率与准确性。