多模态

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备,支持多模态感知与多维表达,提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音,接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域,提升服务效率与用户体验。

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。

阿里妈妈·智造字

阿里妈妈·智造字,以研习古今造字的脉络,跨越历史长河,传承汉字基因,探寻中华深层审美规律。

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型,采用大规模稀疏MoE架构,具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式,适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主,性能优于GPT-4o和Claude 3.5 Sonnet等主流模型,且具备成本优势。

书生

书生通用大模型体系是一套全面、高效的AI解决方案,涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。

KeySync

KeySync是一种高分辨率口型同步工具,由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架,结合掩码策略和视频分割模型,实现音频与唇部动作的精准对齐。支持高清视频生成,具备遮挡处理、减少表情泄露等功能,在视觉质量、时间连贯性和同步精度上优于现有方法,适用于自动配音、虚拟形象、视频会议等多场景应用。

Motion Anything

Motion Anything 是一款由多所高校与企业联合研发的多模态运动生成框架,可基于文本、音乐或两者结合生成高质量人类运动。其核心在于基于注意力的掩码建模和跨模态对齐技术,实现对运动序列的精细控制与动态优先级调整。该工具支持影视动画、VR/AR、游戏开发、人机交互及教育等多个应用场景,并配套提供 Text-Music-Dance (TMD) 数据集,推动多模态运动生成技术的发展。

AI推理模型有哪些?13个支持深度思考的推理模型

本文介绍了13款支持深度思考的AI推理模型,涵盖数学、代码、自然语言推理等多个领域。这些模型通过强化学习和大数据分析,能够高效处理复杂问题,提供精准的决策支持。部分模型具备多模态处理能力、透明推理过程及开源特性,适用于不同应用场景,如教育、医疗和科研等。

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型,支持文本、图像、视频等多种输入形式,具备强大的逻辑推理与去幻觉能力,可辅助代码编写。相比前代产品,其速度更快、成本更低,适用于内容创作、智能客服、电商营销、教育及办公自动化等多个场景,已在文心一言平台上线。