深度学习 - 智狐AI导航

Multi

Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具，支持将音频中不同说话人的语音精准分离至独立轨道，适用于广播级音频处理。它具备高保真音频处理能力，支持高采样率，能处理长达数小时的录音，在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域，提升音频编辑效率与质量。

AI项目与工具 2025年06月12日 55 点赞 0 评论 761 浏览

Optimus

Optimus-1是一款由哈尔滨工业大学（深圳）和鹏城实验室联合开发的智能体框架，专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验，通过混合多模态记忆模块（HDKG与AMEP）提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化，已在游戏、虚拟助理、工业自动化等领域得到验证。

AI项目与工具 2025年06月12日 98 点赞 0 评论 763 浏览

智谱AI绘画

智谱AI绘画可根据用户的描述创作出新的艺术作品，还能够模仿不同的艺术风格，提供个性化的图像编辑和创作服务

Ai绘画生成 1970年01月01日 0 点赞 0 评论 765 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 768 浏览

Dewatermark.AI

一款免费在线去水印工具。通过AI快速消除图片水印。Dewatermark不仅能处理简单的文字和标志水印，对于复杂的多层水印，甚至是与图片颜色融合、不易察觉的水印也可以处理。

图片处理 2025年06月05日 13 点赞 0 评论 768 浏览

COMET

COMET是字节跳动开发的Mixture-of-Experts（MoE）模型优化系统，通过细粒度计算-通信重叠技术和自适应负载分配机制，显著提升分布式训练效率。它在大规模模型中实现单层1.96倍、端到端1.71倍的加速，具备强鲁棒性与泛化能力，支持多种硬件环境和并行策略，核心代码已开源并可无缝集成至主流训练框架。

AI项目与工具 2025年06月12日 12 点赞 0 评论 770 浏览

陌言AI

陌言AI是一款免费的智能AI问答系统，可以快速、准确地解答您的问题，辅助您更高效的学习和工作，陌言Ai–让创作变得更加简单。

AI写作对话 2025年06月05日 39 点赞 0 评论 771 浏览

TripoSF是由VAST推出的新型3D基础模型，采用SparseFlex表示方法和稀疏体素结构，显著降低内存占用并提升高分辨率建模能力。其“视锥体感知的分区体素训练”策略优化了训练效率，使模型在细节捕捉、拓扑结构支持和实时渲染方面表现突出。实验数据显示，TripoSF在Chamfer Distance和F-score等关键指标上分别降低82%和提升88%。适用于视觉特效、游戏开发、具身智能及产品

AI项目与工具 2025年06月12日 71 点赞 0 评论 771 浏览

Goku

Goku是由香港大学与字节跳动联合开发的AI视频生成模型，支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本，专注于广告视频创作，具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构，适用于广告、教育、娱乐等多个领域，提升了内容创作效率与质量。

AI项目与工具 2025年02月11日 29 点赞 0 评论 772 浏览

MemFree

MemFree是一款开源的混合AI搜索引擎，集成了多种AI技术和搜索引擎功能，支持文本、图像、文件和网页等多种输入形式，可提供文本、思维导图、图片和视频等多格式搜索结果。其核心功能涵盖图像处理、文档总结与提问、学术问题解答、代码解释与生成等，特别适用于学术研究、工作办公和日常生活场景，旨在优化知识管理、提升生产力并降低使用成本。

AI项目与工具 2025年06月12日 42 点赞 0 评论 772 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期