多模态 - 智狐AI导航

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 651 浏览

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 848 浏览

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI项目与工具 2024年01月01日 12 点赞 0 评论 768 浏览

SUPIR

SUPIR是一种创新的图像修复和画质增强方法，基于大规模生成模型StableDiffusion-XL（SDXL）和模型扩展技术。它通过深度学习和多模态方法实现低质量图像的高质量恢复，支持通过文本提示进行图像恢复的精细控制。SUPIR适用于多种应用场景，如老照片修复、模糊图像增强、噪点去除和色彩校正与增强。

AI项目与工具 2024年01月01日 88 点赞 0 评论 698 浏览

阶跃星辰推出移动端AI智能问答助手跃问APP

跃问是一款基于阶跃星辰Step系列通用大模型开发的移动应用，具备强大的文本和图像处理能力，能够高效完成内容创作、逻辑推理、数据分析等任务。该应用支持联网搜索、文档解析、推理速度优化，并具备拍照识图和语音输入功能。跃问还提供了高效阅读、智能问答、写作翻译和多端同步等功能，为用户提供便捷的信息获取和处理体验。

AI项目与工具 2024年01月01日 61 点赞 0 评论 588 浏览

Gen

Gen-3 Alpha是一款由Runway公司研发的AI视频生成模型，能够生成长达10秒的高清视频片段，支持文本到视频、图像到视频的转换，并具备精细的时间控制及多种高级控制模式。其特点在于生成逼真的人物角色、复杂的动作和表情，提供运动画笔、高级相机控制和导演模式等高级控制工具，确保内容的安全性和合规性。

AI项目与工具 2025年06月12日 93 点赞 0 评论 592 浏览

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理，能够通过稀疏控制信号（如手动轨迹、面部关键点序列或音频）实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习，能够将多种控制信号组合使用，生成复杂的动画效果，并能生成较长的视频片段。 ---

AI项目与工具 2025年06月12日 22 点赞 0 评论 593 浏览

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型，具备听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语，主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 851 浏览

EchoMimic

EchoMimic是一款由阿里蚂蚁集团开发的AI数字人开源项目，通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。该工具支持音频同步动画、面部特征融合、多模态学习和跨语言能力，适用于娱乐、教育和虚拟现实等领域。其独特的技术原理包括音频特征提取、面部标志点定位、面部动画生成和多模态学习，使用了卷积神经网络（CNN）、循环神经网络（RNN）和生成对抗网络（GAN）等深度学习模型，实现

AI项目与工具 2025年06月12日 79 点赞 0 评论 934 浏览

PixVerse V2

PixVerse V2是一款基于Diffusion+Transformer（DiT）架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频，单个片段最长可达8秒，且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频，适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。

AI项目与工具 2025年06月12日 47 点赞 0 评论 1085 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期