深度学习

MobileVD

MobileVD是Qualcomm AI Research团队开发的首个面向移动端优化的视频扩散模型,基于Stable Video Diffusion架构,通过降低帧分辨率、多尺度时间表示和剪枝技术,显著提升模型效率。其具备高效的去噪能力和低资源消耗,适用于短视频生成、视频编辑、游戏动画及互动视频等多种应用场景,为移动设备上的视频生成提供了强大支持。

字体家

字体家是一款集字体下载、转换与AI生成于一体的综合性平台,主要功能包括基于深度学习技术的个性化字体生成、多种字体生成方式及字型修改服务。其核心优势在于通过AI技术将少量样本字扩展为完整的中文字体库,同时提供便捷的字体管理和版权保障,广泛适用于平面设计、品牌标识、出版物排版等多个领域。

VisionFM

VisionFM是一款专为眼科设计的多模态多任务视觉基础模型,通过大规模预训练支持多种眼科成像模态处理,涵盖疾病筛查、诊断、预后预测、表型细分及全身性生物标志物分析等功能。其在疾病诊断上的表现超越了大部分眼科医生,并具备强大的泛化能力和少样本学习能力。

OpenDeepSearch

OpenDeepSearch 是一款开源深度搜索工具,结合语义重排与多源信息整合技术,提升搜索精度与覆盖范围。支持与 Hugging Face SmolAgents 无缝集成,具备语义搜索、多模式处理及可扩展性强等特点,适用于复杂问题解答、实时信息检索及学术研究等场景。

RAGFlow

RAGFlow是一个开源的RAG(Retrieval-Augmented Generation)引擎,通过深度学习模型解析和理解文档内容,并增强生成能力。它提供了多种功能,包括自动化工作流、包管理、安全漏洞检测与修复、即时开发环境、AI辅助代码编写以及代码审查。RAGFlow的技术原理涵盖了文档理解、检索增强、生成模型、注意力机制、多模态处理、上下文融合和优化算法。该工具适用于内容创作辅助、数据摘

WebWalker

WebWalker是阿里巴巴研发的AI工具,用于评估和优化大型语言模型在网页浏览任务中的表现。它通过多智能体框架、垂直探索策略及WebWalkerQA数据集,提升模型处理长上下文和多源信息的能力。支持多语言、多领域和多难度任务,适用于信息检索、数据分析和内容监控等场景,具备良好的适应性和可扩展性。

Deep Art Effects

Deep Art Effects 是一款利用深度学习技术的在线工具,能够将普通照片转换为具备多种艺术风格(如梵高、毕加索等)的作品。其主要功能包括艺术风格转换、高分辨率输出、丰富的艺术风格库以及 API 集成支持。该工具适用于个人娱乐、艺术创作、教育、广告及社交媒体内容创作等多个领域。

CatchMe

一款为识别图片、视频和音频内容是否由人工智能生成而设计的AI内容检测器

Hertz

Hertz-Dev是一款由Standard Intelligence开发的开源音频模型,专注于低延迟实时对话AI。它具备强大的音频生成与处理能力,能够处理和生成高质量的音频信号,并支持多任务微调,适用于语音识别、语音合成等多种应用场景。此外,Hertz-Dev还提供了音频自动编码、流式生成等功能,广泛应用于智能助手、客户服务、语音识别及合成等领域。