人工智能 - 智狐AI导航

OpusClip Thumbnail

OpusClip Thumbnail 是 OpusClip 团队推出的免费 AI 缩略图生成工具，专为 YouTube 创作者设计。用户只需粘贴视频链接，AI 会自动分析内容并生成多个高表现力的缩略图选项，无需手动输入提示词。该工具基于顶级创作者的成功模式训练，能理解视频上下文并生成相关缩略图，提供多种变体用于测试，提升点击率和视频表现。

AI项目与工具 2025年06月11日 80 点赞 0 评论 897 浏览

WonderPlay

WonderPlay 是斯坦福大学与犹他大学联合开发的新型框架，能够从单张图片和用户定义的动作生成动态3D场景。它结合物理模拟与视频生成技术，支持多种物理材质和动作类型，实现逼真的动态效果。用户可通过简单操作与场景互动，生成丰富的物理响应。该工具具备交互式查看器，适用于AR/VR、影视特效、教育、游戏开发等多个领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 654 浏览

SelectYet

SelectYet是一款基于AI技术和“记忆摘要”技术的文献分析工具，能够对海量文献进行结构化分析，快速提取关键信息并生成文献综述。用户可输入研究主题、上传PDF文献，并设置自定义分析选项，工具支持结果导出为Excel格式。它适用于高效学习、数据编码、行业研究、批改代工、市场调研和政策分析等场景，接入了deepseek-R1/V3模型，未来将融合更多模型提升分析效率与准确性。

AI项目与工具 2025年06月11日 61 点赞 0 评论 623 浏览

Largo

Largo是一个基于AI技术的影视内容开发平台，通过分析海量影视数据为制片人、发行方和工作室提供数据驱动的洞察和决策支持。其核心功能包括剧本分析、角色与选角建议、财务预测、品牌测试以及项目与融资匹配，帮助优化制作流程、降低风险并提升内容吸引力。

AI项目与工具 2025年06月11日 79 点赞 0 评论 702 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 628 浏览

Paper2Poster是由加拿大滑铁卢大学、新加坡国立大学等机构推出的学术框架，基于多模态自动化技术从科学论文生成海报。它通过Parser、Planner和Painter–Commenter系统实现内容压缩、布局优化和视觉质量提升，支持将长篇论文转化为结构化视觉海报。Paper2Poster引入PaperQuiz评估方法，确保海报有效传达核心内容，提高生成效率，适用于学术会议、报告、科研展示及教

AI项目与工具 2025年06月11日 34 点赞 0 评论 597 浏览

MagicTryOn

MagicTryOn是由浙江大学和vivo等机构开发的视频虚拟试穿框架，采用扩散Transformer（DiT）架构替代传统U-Net，结合全自注意力机制实现视频时空一致性建模。通过粗到细的服装保持策略，整合服装标记与多条件引导，有效保留服装细节。该工具在图像和视频试穿任务中表现优异，适用于在线购物、时尚设计、虚拟试衣间等多种场景。

AI项目与工具 2025年06月11日 81 点赞 0 评论 564 浏览

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent，具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库，筛选、分析最相关的文献，整合不同文献中的观点，为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略，实现高效的多步推理和信息检索能力，适用于学术研究、商业决策和日常生活等多种场景。

AI项目与工具 2025年06月11日 20 点赞 0 评论 717 浏览

OmniSync

OmniSync是由中国人民大学、快手科技和清华大学联合开发的通用对口型框架，基于扩散变换器实现视频中人物口型与语音的精准同步。它采用无掩码训练范式，直接编辑视频帧，支持无限时长推理，保持自然面部动态和身份一致性。通过渐进噪声初始化和动态时空分类器自由引导（DS-CFG）机制，提升音频条件下的口型同步效果。OmniSync适用于影视配音、虚拟现实、AI内容生成等多个场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 844 浏览

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 716 浏览

人工智能

首页

人工智能

列表

默认

浏览次数

发布日期