深度学习 - 智狐AI导航

TMEStudio

腾讯音乐娱乐公司推出的一款在线音乐创作助手，包音乐分离、MIR计算、辅助写词、智能曲谱等创作工具。

Ai语音工具 2025年06月05日 68 点赞 0 评论 810 浏览

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型，专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述，结合对比学习方法，实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色，准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 807 浏览

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型，具备强大的文本与图像理解能力，包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法，实现了从1B到30B参数规模的性能提升，并推出了视频和移动UI专用版本，为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 806 浏览

DeepEP

DeepEP 是 DeepSeek 开发的开源 EP 通信库，专为混合专家模型（MoE）的训练和推理设计。它提供高吞吐、低延迟的 GPU 内核，支持 NVLink 和 RDMA 通信，优化了组限制门控算法，兼容 FP8 等低精度数据格式。适用于大规模模型训练、推理解码及高性能计算场景，具有良好的系统兼容性和网络优化能力。

AI项目与工具 2025年06月12日 43 点赞 0 评论 805 浏览

夸克灵知大模型

夸克灵知大模型是一款具备高阶推理能力的智能学习工具，专为不同阶段的学习者设计。它提供详尽的题目解析、启发式教学及实时互动功能，涵盖K12教育、高等教育及成人教育等多个领域，助力用户全面提升学习效率和理解力。

AI项目与工具 2025年06月12日 94 点赞 0 评论 805 浏览

Bocha Semantic Reranker

Bocha Semantic Reranker是一款基于语义的排序模型，用于提升搜索和问答系统的准确性。它通过二次优化初步排序结果，评估查询与文档的语义相关性，并为文档分配语义得分。该工具支持多种语言模型，适用于搜索引擎优化、问答系统、推荐系统和智能客服等领域，旨在改善用户体验并提高系统效率。

AI项目与工具 2025年06月12日 15 点赞 0 评论 805 浏览

Sonic

Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架，基于音频信号生成逼真面部表情和动作。它通过上下文增强音频学习和运动解耦控制器，提升唇部同步精度与运动多样性。Sonic在长视频生成中表现出色，具备高稳定性与自然连贯性，支持用户自定义参数。适用于虚拟现实、影视制作、在线教育、游戏开发和社交媒体等多个领域。

AI项目与工具 2025年06月12日 67 点赞 0 评论 804 浏览

SPAR3D

SPAR3D是一种基于两阶段设计的单图像3D重建工具，能从单张2D图像生成高质量的3D网格。它结合点扩散模型与三平面Transformer技术，实现快速、精确的几何与纹理重建，并支持用户交互式编辑。适用于增强现实、影视制作、工业设计等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 802 浏览

BEN2

BEN2是一款由Prama LLC开发的深度学习图像和视频处理工具，专注于高效、精准的背景移除与前景分割。采用置信度引导抠图技术，可处理复杂细节，如头发和边缘，确保高精度分割。支持4K图像处理，具备GPU加速功能，适用于图像编辑、视频剪辑及批量处理等多种应用场景。

AI项目与工具 2025年06月12日 60 点赞 0 评论 802 浏览

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型，基于大规模网络图像数据训练，无需语言监督即可学习有效视觉表示。其包含多个变体，参数规模从3亿到70亿不等，在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据，显著提升特定任务性能。模型具备良好的扩展性，适用于智能客服、文档处理、医疗影像分析等多个领域。

AI项目与工具 2025年06月11日 92 点赞 0 评论 802 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期