深度学习 - 智狐AI导航

面灵AI

面灵AI是一款基于DeepSeek大模型的智能面试辅助工具，支持实时问题解析、个性化面试策略生成、多场景模拟面试及面试反馈报告等功能。其覆盖200+行业高频场景，提供多语言支持，适用于求职者提升面试技巧、熟悉流程并优化表现。用户可通过官网注册并选择不同套餐进行使用。

AI项目与工具 2025年06月12日 29 点赞 0 评论 800 浏览

Motion Dreamer

Motion Dreamer是由香港科技大学（广州）研发的视频生成框架，采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制，支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能，已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 799 浏览

InternVideo2.5

InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型，具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务，适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。

AI项目与工具 2025年06月12日 50 点赞 0 评论 798 浏览

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统，融合视觉-语言-动作模型，支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力，适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练，结合真实操作与多模态信息，实现高效、灵活的机器人控制。

AI项目与工具 2025年06月12日 17 点赞 0 评论 793 浏览

Edicho

Edicho 是一种基于扩散模型的图像编辑工具，能够在多图像间实现一致性编辑，无需额外训练。其核心技术包括 Corr-Attention 注意力模块和 Corr-CFG 去噪策略，通过显式图像对应关系提升编辑质量与一致性。适用于图像修复、风格转换、内容创作、医学影像增强等场景，具备良好的兼容性与扩展性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 793 浏览

FlexiAct

FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型，可在空间结构差异较大的场景下实现精准动作迁移，并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取（FAE），有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域，具有良好的应用前景。

AI项目与工具 2025年06月11日 39 点赞 0 评论 788 浏览

DAM

DAM-3B是英伟达开发的多模态大语言模型，专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域，生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络，有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理，适用于动态场景。模型基于Transformer架构，支持多模态输入，广泛应用于内容创作、智能交互及无障碍工具等领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 787 浏览

飞桨 | AI Studio

飞桨（PaddlePaddle）以百度多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。

Ai平台模型 2025年06月05日 32 点赞 0 评论 784 浏览

SigStyle

SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架，能将单张风格图像的视觉特征（如几何结构、色彩和笔触）精准迁移到目标图像，同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型，结合超网络和时间感知注意力交换技术，实现高效且高质量的风格迁移。支持多种应用场景，如艺术创作、时尚设计、影视制作等，具备灵活性和广泛适用性。

AI项目与工具 2025年06月12日 63 点赞 0 评论 780 浏览

GPT-SoVITS

一个强大的语音合成工具，特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换，支持多种语言，并提供了易于使用的WebUI工具。

Ai平台模型 1970年01月01日 0 点赞 0 评论 778 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期