深度学习 - 智狐AI导航

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型，专注于长上下文多模态学习，具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B，但性能接近更大模型。采用信息优先采样和渐进式后训练策略，提升模型稳定性与适应性。支持多样任务，适用于视频分析、图像处理、内容创作及教育等多个领域。

AI项目与工具 2025年06月11日 59 点赞 0 评论 424 浏览

AnyCharV

AnyCharV是一款由多所高校联合研发的角色可控视频生成框架，能够将任意角色图像与目标场景结合，生成高质量视频。它采用两阶段训练策略，确保角色细节的高保真保留，并支持复杂的人-物交互和背景融合。该工具兼容多种文本生成模型，具备良好的泛化能力，适用于影视制作、艺术创作、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 424 浏览

CogVideoX是由智谱AI开发的开源AI视频生成模型，支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术，支持多阶段训练和自动及人工评估，适用于创意视频制作、教育材料、广告、游戏、电影编

AI项目与工具 2025年06月12日 55 点赞 0 评论 425 浏览

PDFMathTranslate

PDFMathTranslate是一款专注于科技文档翻译的开源工具，能够精准保留PDF文档的排版格式，包括公式、图表和目录结构。支持双语对照查看，兼容多种翻译服务，可实现全文或局部翻译，适用于学术研究、教育、技术文档、法律文件等多个领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 425 浏览

LongLLaVA

LongLLaVA是由香港中文大学（深圳）研究团队开发的多模态大型语言模型，结合Mamba和Transformer模块，利用2D池化技术压缩图像token，大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异，特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化，支持多种多模态输入处理，广泛应用于视频分析、医学影像诊断、环境监测等领域。

AI项目与工具 2025年06月12日 67 点赞 0 评论 426 浏览

触站AI | P站

触站AI（P站画师通）是国内专业的AI绘画网站平台，结合了Midjourney、Stable Diffusion、NovelAI、Dalle等主流AI插画绘图APP、软件模型技术，是专业的免费AI作图工具和AI作画自动生成器。

Ai绘画生成 2025年06月05日 88 点赞 0 评论 427 浏览

Hertz

Hertz-Dev是一款由Standard Intelligence开发的开源音频模型，专注于低延迟实时对话AI。它具备强大的音频生成与处理能力，能够处理和生成高质量的音频信号，并支持多任务微调，适用于语音识别、语音合成等多种应用场景。此外，Hertz-Dev还提供了音频自动编码、流式生成等功能，广泛应用于智能助手、客户服务、语音识别及合成等领域。

AI项目与工具 2025年06月12日 48 点赞 0 评论 428 浏览

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型，具备快速处理文本、音频和图像的能力，支持多语言输出和实时音视频流输入。通过Agent技术和工具调用，Gemini 2.0 能够自主理解任务并提供解决方案，已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用，计划逐步开放更多功能。

AI项目与工具 2025年06月12日 63 点赞 0 评论 428 浏览

CatchMe

一款为识别图片、视频和音频内容是否由人工智能生成而设计的AI内容检测器

Ai办公效率 2025年06月05日 91 点赞 0 评论 429 浏览

Deep Art Effects

Deep Art Effects 是一款利用深度学习技术的在线工具，能够将普通照片转换为具备多种艺术风格（如梵高、毕加索等）的作品。其主要功能包括艺术风格转换、高分辨率输出、丰富的艺术风格库以及 API 集成支持。该工具适用于个人娱乐、艺术创作、教育、广告及社交媒体内容创作等多个领域。

AI项目与工具 2025年06月12日 56 点赞 0 评论 430 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期