深度学习

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。

AnyCharV

AnyCharV是一款由多所高校联合研发的角色可控视频生成框架,能够将任意角色图像与目标场景结合,生成高质量视频。它采用两阶段训练策略,确保角色细节的高保真保留,并支持复杂的人-物交互和背景融合。该工具兼容多种文本生成模型,具备良好的泛化能力,适用于影视制作、艺术创作、虚拟现实等多个领域。

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型,支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术,支持多阶段训练和自动及人工评估,适用于创意视频制作、教育材料、广告、游戏、电影编

PDFMathTranslate

PDFMathTranslate是一款专注于科技文档翻译的开源工具,能够精准保留PDF文档的排版格式,包括公式、图表和目录结构。支持双语对照查看,兼容多种翻译服务,可实现全文或局部翻译,适用于学术研究、教育、技术文档、法律文件等多个领域。

LongLLaVA

LongLLaVA是由香港中文大学(深圳)研究团队开发的多模态大型语言模型,结合Mamba和Transformer模块,利用2D池化技术压缩图像token,大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异,特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化,支持多种多模态输入处理,广泛应用于视频分析、医学影像诊断、环境监测等领域。

触站AI | P站

触站AI(P站画师通)是国内专业的AI绘画网站平台,结合了Midjourney、Stable Diffusion、NovelAI、Dalle等主流AI插画绘图APP、软件模型技术,是专业的免费AI作图工具和AI作画自动生成器。

Hertz

Hertz-Dev是一款由Standard Intelligence开发的开源音频模型,专注于低延迟实时对话AI。它具备强大的音频生成与处理能力,能够处理和生成高质量的音频信号,并支持多任务微调,适用于语音识别、语音合成等多种应用场景。此外,Hertz-Dev还提供了音频自动编码、流式生成等功能,广泛应用于智能助手、客户服务、语音识别及合成等领域。

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型,具备快速处理文本、音频和图像的能力,支持多语言输出和实时音视频流输入。通过Agent技术和工具调用,Gemini 2.0 能够自主理解任务并提供解决方案,已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用,计划逐步开放更多功能。

CatchMe

一款为识别图片、视频和音频内容是否由人工智能生成而设计的AI内容检测器

Deep Art Effects

Deep Art Effects 是一款利用深度学习技术的在线工具,能够将普通照片转换为具备多种艺术风格(如梵高、毕加索等)的作品。其主要功能包括艺术风格转换、高分辨率输出、丰富的艺术风格库以及 API 集成支持。该工具适用于个人娱乐、艺术创作、教育、广告及社交媒体内容创作等多个领域。