模型 - 智狐AI导航

VidSketch

VidSketch是由浙江大学研发的视频生成框架，支持通过手绘草图和文本提示生成高质量动画。它采用层级草图控制策略和时空注意力机制，提升视频连贯性和质量，适用于不同技能水平的用户。具备多样化风格支持和低门槛创作特点，广泛应用于创意设计、教学、广告及内容创作等领域。

AI项目与工具 2025年06月12日 48 点赞 0 评论 696 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 691 浏览

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型，能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出，可分别生成人声与伴奏，便于后期编辑。SongGen通过创新的音频标记化和训练策略，显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准，适用于音乐创作、视频配乐、教育辅助等多个领域。

AI项目与工具 2025年06月12日 78 点赞 0 评论 715 浏览

CorrDiff

CorrDiff是NVIDIA开发的生成式AI模型，用于将低分辨率天气数据提升至高分辨率，提升天气预测的精度和效率。采用UNet与扩散模型结合的两步法，显著提升计算速度并降低能耗。支持多变量预测和极端天气模拟，适用于灾害预警和高精度气象分析，具备良好的部署灵活性。

AI项目与工具 2025年06月12日 87 点赞 0 评论 802 浏览

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的高效AI模型，采用Hybrid-Mamba-Transformer架构，提升推理效率并降低计算成本。支持快速响应、多领域推理、内容创作及多模态生成，适用于对话、代码、逻辑推理等场景。兼具短思维链与长思维链能力，性能对标行业领先模型。

AI项目与工具 2025年06月12日 86 点赞 0 评论 818 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 689 浏览

Profiling Data

Profiling Data是DeepSeek开发的开源性能分析工具，基于PyTorch Profiler收集程序运行数据，用于优化深度学习模型的训练和推理效率。它支持可视化分析，可定位性能瓶颈、分析资源利用情况、优化通信策略，并适用于分布式系统调优。通过提供详细的运行指标，帮助开发者提升计算与通信效率，实现更高效的系统性能。

AI项目与工具 2025年06月12日 34 点赞 0 评论 979 浏览

EPLB

EPLB是DeepSeek推出的专家并行负载均衡工具，用于优化大规模模型训练中的资源分配。它通过冗余专家策略和分层/全局负载均衡机制，提升GPU利用率和训练效率。支持多层MoE模型，减少通信开销，适应不同场景需求。

AI项目与工具 2025年06月12日 10 点赞 0 评论 545 浏览

DualPipe

DualPipe是由DeepSeek开发的开源双向流水线并行技术，通过将前向和反向计算分离为独立管道并行执行，显著提升大规模深度学习模型的训练效率。该技术优化了计算与通信的重叠，降低内存峰值，提高资源利用率，并支持多模态处理、多任务学习等应用场景。适用于需要高效训练和推理的AI系统。

AI项目与工具 2025年06月12日 92 点赞 0 评论 776 浏览

olmOCR

olmOCR 是一款开源 PDF 文档处理工具，结合文档锚定技术和 Qwen2-VL-7B-Instruct 模型，可高效提取结构化文本并保留原始布局。支持多种文档类型，具备大规模批量处理能力和低成本优势，适用于学术研究、法律文件处理、企业文档管理及数字图书馆建设等多个场景。其开源特性与可扩展性也增强了用户的使用灵活性。

AI项目与工具 2025年06月12日 47 点赞 0 评论 624 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期