深度学习 - 智狐AI导航

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具，支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能，兼容U-Net和DiT架构，并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程，提升生成质量与可控性，适用于内容创作、电影制作、广告营销、教育培训等多个领域。

AI项目与工具 2025年06月12日 30 点赞 0 评论 623 浏览

瑞智病理大模型

瑞智病理大模型（RuiPath）是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统，覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据，实现高效、精准的辅助诊断，支持交互式审核流程，提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台，适用于临床诊断、基层医疗、医学教育等多个场景，推动病理诊断智能化发展。

AI项目与工具 2025年06月12日 95 点赞 0 评论 624 浏览

HippoRAG 2

HippoRAG 2是俄亥俄州立大学开发的检索增强生成框架，旨在提升RAG系统在模拟人类长期记忆方面的表现。它通过个性化PageRank算法、深度段落整合和知识图谱构建，实现高效的多跳推理与上下文感知检索。系统具备持续学习能力，可实时吸收新知识，适用于智能问答、知识管理、教育、医疗及法律金融等领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 627 浏览

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具，通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块，确保生成的音频与视频帧或文本描述时间轴完全对应，适用于影视制作、游戏开发、虚拟现实等多种场景，极大提升了跨模态数据处理的能力和应用效率。

AI项目与工具 2025年06月12日 68 点赞 0 评论 628 浏览

CapsWriter

CapsWriter-Offline是一款基于PC端的离线语音输入与字幕转录工具，支持实时语音转文字功能，具备高准确率和无限时长录音能力。其核心技术依托于深度学习模型，可处理中英文混合语音，并提供热词自定义功能以提升特定术语的识别效果。此工具适用于会议记录、学术讲座、视频字幕生成等多种场景，同时确保用户数据的安全与隐私。 ---

AI项目与工具 2025年06月12日 38 点赞 0 评论 629 浏览

LogMeal Food AI

LogMeal Food AI是一家为食品识别、食品跟踪和快速餐厅结账提供人工智能和深度学习解决方案的公司。

生活创意 2025年06月05日 20 点赞 0 评论 629 浏览

Veo是Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容。Veo具备深入的自然语言理解能力，能够准确解析用户的文本提示，生成高质量、高分辨率的视频。其主要功能包括高分辨率视频输出、自然语言处理、风格适应性、创意控制与定制、遮罩编辑功能、参考图像与风格应用、视频片段的剪辑与扩展以及视觉连贯性。Veo技术目前仍处于实验阶段，但已在电影制作

AI项目与工具 2024年01月01日 34 点赞 0 评论 630 浏览

3DTown

3DTown是由哥伦比亚大学联合Cybever AI等机构开发的AI工具，能够从单张俯视图生成高精度的3D城镇场景。它采用区域化生成和空间感知3D修复技术，将输入图像分解为重叠区域，分别生成3D内容并修复缺失结构，确保几何和纹理一致性。支持多种风格的场景生成，适用于虚拟世界构建、游戏开发、机器人模拟等领域，优于现有方法。

AI项目与工具 2025年06月11日 17 点赞 0 评论 631 浏览

ConceptMaster

ConceptMaster是一款基于扩散Transformer模型的多概念视频生成框架，可在无需测试调优的情况下生成高质量、概念一致的视频。通过解耦多概念嵌入并独立注入模型，有效解决身份解耦问题，尤其擅长处理高度相似的视觉概念。该工具支持多概念视频定制、高质量数据收集和全面的基准测试，适用于视频创作、动画制作、游戏开发及产品展示等领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 632 浏览

文心大模型X1 Turbo

文心大模型X1 Turbo是百度推出的深度思考型AI模型，具备强大的逻辑推理和多模态处理能力，适用于内容创作、智能问答、任务规划等多个领域。相比前代产品，性能提升显著，价格更具竞争力，支持复杂场景下的高效应用。

AI项目与工具 2025年06月11日 39 点赞 0 评论 633 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期