人工智能
Gemini Live
Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。
MimicMotion
MimicMotion是一款由腾讯研究团队开发的高质量人类动作视频生成框架。该框架利用置信度感知的姿态引导技术,确保视频帧的高质量和时间上的平滑过渡。通过区域损失放大和手部区域增强,显著减少了图像失真,增强了手部动作的细节表现。该框架还支持长视频生成,通过渐进式潜在融合策略,确保视频生成时的时间连贯性和细节丰富度。
Outfit Anyone
Outfit Anyone是一款由阿里巴巴智能计算研究院开发的高质量服装虚拟试穿开源项目。它采用双流条件扩散模型处理模特、服装和文本提示,通过衣物图像作为控制因素,生成逼真的虚拟试穿效果。该工具支持低图片输入要求,高质量试衣输出,以及多种服装搭配和姿势调整,适用于普通消费者、服装设计师、模特及电商从业者等不同群体。