模型

node

Node-DeepResearch 是一款基于 Gemini 语言模型和 Jina Reader 的开源 AI 智能体,支持持续搜索、多步推理和复杂问题处理。用户可通过 Web Server API 实时获取查询进度,适用于文献综述、市场调研、新闻报道等多种场景。项目具备灵活性和可扩展性,适合研究人员和开发者使用。

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型,通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练,支持电子商务、广告、游戏开发等领域,具备高精度背景移除、多模态数据处理及云服务器无关架构等特点,为用户提供了高效、灵活的解决方案。

DuoAttention

DuoAttention是由MIT韩松团队提出的新型框架,通过区分“检索头”和“流式头”两种注意力机制,显著提升了大型语言模型在处理长上下文时的推理效率。该框架有效减少了内存占用,加速了解码和预填充过程,并保持了模型的准确性。它适用于多轮对话、长文档处理、学术研究以及内容推荐等多个领域。

Large Action Models

Large Action Models(LAMs)是微软开发的一种智能系统框架,专注于执行真实世界任务。它通过整合数据收集、模型训练、环境交互和评估等阶段,将语言理解转化为具体行动,提升了AI在自动化和增强人类能力方面的影响力。LAMs具备动态规划、自主执行和专业化训练等特点,广泛应用于办公自动化、智能家居管理、客户服务、电子商务等领域。 ---

Draftaid

一款能够将3D模型快速转换为高质量的CAD设计图纸的自动化AI生成工具,DraftAid大大幅缩短制图时间,从数小时缩短到几分钟。

EfficientTAM

EfficientTAM是一款由Meta AI研发的轻量级视频对象分割与跟踪模型,基于非层次化Vision Transformer(ViT)构建,通过引入高效记忆模块显著降低了计算复杂度。它能够实现高质量的视频对象分割与多目标跟踪,同时保持较低的延迟和较小的模型尺寸,特别适用于移动设备上的实时视频处理。该模型已在多个视频分割基准测试中表现出色,并支持多种应用场景,包括移动视频编辑、视频监控、增强现

StableCode

StableCode,一个用于代码生成的大语言模型。StableCode 基于 GPT-NeoX 构建,该模型通过指令模型和具体应用示例进行改进,用于解决复杂的编程任务。

NVLM

NVLM是NVIDIA研发的多模态大型语言模型,涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构(NVLM-D、NVLM-X、NVLM-H),并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术,广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

Motionshop

Motionshop是一款由阿里巴巴智能计算研究院开发的AI角色动画框架,能够将视频中的角色转换为3D化身,同时保持视频中其他元素的完整性。该框架利用视频处理、角色检测与分割、姿态分析、模型提取及动画渲染等多项技术,实现了视频中角色从现实到虚拟的无缝转换。用户只需上传一段视频,Motionshop将自动识别视频中的主要人物,并将其转换为3D角色,同时精确复制原视频中人物的动作细节,确保3D角色的动

Project DIGITS

Project DIGITS 是 NVIDIA 推出的高性能 AI 计算设备,基于 Grace Blackwell 架构,配备 GB10 Superchip,提供高达 1 万万亿次的 AI 计算能力,支持运行 2000 亿参数的大模型。其具备 128GB 统一内存和 4TB NVMe 存储,支持本地开发与云端部署,适配多种 AI 应用场景,如研究、数据分析、教育及医疗等。