DistriFusion DistriFusion是一个专为加速高分辨率扩散模型在多GPU环境中生成图像的分布式并行推理框架。通过将图像分割成多个小块并分配至不同设备上进行独立处理,它能够在不增加额外训练负担的情况下,将推理速度提升高达六倍,同时保持图像质量。其技术原理包括Patch Parallelism(分片并行)、异步通信、位移补丁并行性等,适用于多种现有的扩散模型。应用场景包括AI艺术创作、游戏和电影制作、VR/A AI项目与工具 2025年06月12日 50 点赞 0 评论 374 浏览
Anime gf 一个本地且开源的CharacterAI替代工具,提供了一个用户友好的界面,允许用户在桌面上与虚拟角色互动。你可以自定义创建各种角色,让每个虚拟角色都有自己的独特个性和语言风格。 AI写作对话 2025年06月05日 56 点赞 0 评论 375 浏览
谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效 DeepMind推出的V2A(Video-to-Audio)模型能够将视频内容与文本提示相结合,生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作,还能与其他视频生成模型,如Sora、可灵或Gen 3等,进行集成,从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模 AI项目与工具 2025年06月12日 21 点赞 0 评论 375 浏览
Dream Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型,支持文本、数学和代码生成,具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异,适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景,提供高效且高质量的生成服务。 AI项目与工具 2025年06月12日 26 点赞 0 评论 376 浏览
Aero Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型,拥有 1.5 亿参数,专注于长音频处理,支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色,具备高效的训练方法和多任务处理能力,适用于语音助手、实时转写、归档理解等场景。 AI项目与工具 2025年06月11日 43 点赞 0 评论 376 浏览
GameFactory GameFactory 是由香港大学与快手科技联合研发的AI框架,专注于解决游戏视频生成中的场景泛化问题。它基于预训练视频扩散模型,结合开放域数据与高质量游戏数据,通过多阶段训练实现动作可控的多样化场景生成。具备高精度动作控制、交互式视频生成及丰富场景支持,适用于游戏开发、自动驾驶模拟及具身智能研究等领域。 AI项目与工具 2025年06月12日 31 点赞 0 评论 376 浏览
Samsung Gauss2 Samsung Gauss2是一款由三星推出的第二代多模态生成式AI模型,具备处理文本、代码和图像等多类型数据的能力。它通过引入知识图谱技术和专家混合技术,实现了个性化服务和高效的任务执行。此外,该模型还支持多种语言及编程语言,并能在无网络环境下独立运行,广泛适用于智能手机、平板电脑、笔记本电脑以及企业级应用场景。 AI项目与工具 2025年06月12日 17 点赞 0 评论 377 浏览
LLMDet LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器,能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息,实现高精度的零样本检测,并支持图像描述生成与多模态任务优化,适用于多种实际应用场景。 AI项目与工具 2025年06月12日 68 点赞 0 评论 377 浏览
灰色AI | GreyAi 一键实现无缝AI换脸等操作,使用数字人虚拟人解放生产力。灰色AI基于多年人工智能经验,大幅简化ai换脸操作方式。 AI服务商 2025年06月05日 24 点赞 0 评论 377 浏览