多模态 - 智狐AI导航

华为盘古AI大模型

华为的盘古ai大模型是华为云推出的一项人工智能技术。该大模型包含了多个领域的大型模型，包括自然语言处理（NLP）大模型、计算机视觉（CV）大模型、多模态大模型、预测大模型和科学计算大模型。

Ai平台模型 2025年06月05日 26 点赞 0 评论 727 浏览

KeySync

KeySync是一种高分辨率口型同步工具，由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架，结合掩码策略和视频分割模型，实现音频与唇部动作的精准对齐。支持高清视频生成，具备遮挡处理、减少表情泄露等功能，在视觉质量、时间连贯性和同步精度上优于现有方法，适用于自动配音、虚拟形象、视频会议等多场景应用。

AI项目与工具 2025年06月11日 32 点赞 0 评论 726 浏览

Motion Anything

Motion Anything 是一款由多所高校与企业联合研发的多模态运动生成框架，可基于文本、音乐或两者结合生成高质量人类运动。其核心在于基于注意力的掩码建模和跨模态对齐技术，实现对运动序列的精细控制与动态优先级调整。该工具支持影视动画、VR/AR、游戏开发、人机交互及教育等多个应用场景，并配套提供 Text-Music-Dance (TMD) 数据集，推动多模态运动生成技术的发展。

AI项目与工具 2025年06月12日 23 点赞 0 评论 726 浏览

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型，支持文本、图像、视频等多种输入形式，具备强大的逻辑推理与去幻觉能力，可辅助代码编写。相比前代产品，其速度更快、成本更低，适用于内容创作、智能客服、电商营销、教育及办公自动化等多个场景，已在文心一言平台上线。

AI项目与工具 2025年06月11日 19 点赞 0 评论 726 浏览

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具，可生成高质量、自然的说话人头部视频。支持多信号控制（如音频、表情），采用并行 Mamba 结构和门控机制，实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异，适用于虚拟主播、远程会议、在线教育等多种场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 724 浏览

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法，用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下，通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景，包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

AI项目与工具 2025年06月12日 61 点赞 0 评论 723 浏览

FakeShield

FakeShield是一款由北京大学研发的多模态大型语言模型框架，主要用于检测和定位图像篡改。它通过结合视觉与文本信息，生成篡改区域掩码并提供详细的判断依据。其核心模块包括领域标签引导的检测模块和多模态定位模块，支持多种篡改技术的分析，具有较高的准确性与可解释性。FakeShield广泛应用于社交媒体内容审核、法律取证、新闻媒体真实性验证以及版权保护等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 723 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 723 浏览

阿里妈妈·智造字

阿里妈妈·智造字，以研习古今造字的脉络，跨越历史长河，传承汉字基因，探寻中华深层审美规律。

字体字库 2025年06月05日 34 点赞 0 评论 723 浏览

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型，采用大规模稀疏MoE架构，具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式，适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主，性能优于GPT-4o和Claude 3.5 Sonnet等主流模型，且具备成本优势。

AI项目与工具 2025年06月12日 23 点赞 0 评论 723 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期