推理

Agent K v1.0

Agent K v1.0 是一款端到端自主数据科学智能体,由华为诺亚方舟实验室与伦敦大学学院团队联合开发。该工具能够自动化处理数据科学生命周期中的各个环节,支持多模态数据处理,具备动态多步骤问题解决能力,并通过结构化推理和动态记忆管理实现自我学习与优化。Agent K v1.0 在Kaggle多模态挑战赛中表现优异,广泛应用于金融、医疗、零售、制造及客户服务等领域。

SFR-RAG

先进的大型语言模型,它通过强化对上下文的理解,提高了机器在生成文本方面的准确性和可靠性。无论是在客户服务、知识问答、内容创作还是专业咨询领域,SFR-RAG都能提供高质量的文...

LEOPARD

LEOPARD是一款由腾讯AI Lab开发的视觉语言模型,专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,实现对复杂视觉语言任务的高效处理,包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

MiniCPM

MiniCPM-o 2.6 是一款高性能的多模态大模型,具备 8B 参数量,支持视觉、语音及多模态直播等多种功能。其在图像处理、语音识别和实时交互方面表现优异,采用高效的 token 技术提升推理速度,可在端侧设备上运行。支持多种语言和音色配置,适用于智能助手、内容创作、教育、客服和医疗等多个领域。

QwQ

QwQ-32B-Preview是一款由阿里巴巴开发的开源AI推理模型,具有325亿参数,擅长处理数学与编程领域的复杂任务。它能在多个基准测试中超越同类产品,并提供透明化的推理流程。然而,该模型在语言切换及跨领域应用上存在一定局限性。

Embodied Reasoner

Embodied Reasoner是由多家科研机构联合开发的具身交互推理模型,通过视觉搜索、推理与行动协同完成复杂任务。采用模仿学习、自我探索和自我修正三阶段训练方法,生成多样化思考过程,提升任务规划效率。在长时序任务中表现优异,减少重复搜索和逻辑错误。适用于智能家居、仓储物流、医疗辅助等多个场景,具备多模态交互和强推理能力。

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。

Genmoai

Genmoai-smol 是一款专为单 GPU 设备设计的开源视频生成模型,能够将文本描述转化为高质量视频内容。其核心优势在于高保真度运动表现、强大的文本提示遵循能力及显存优化技术,支持用户在资源受限条件下开展视频创作。该工具提供了 Gradio UI 和命令行界面两种操作方式,并广泛应用于视频内容创作、超现实效果视频制作和技术研究等领域。

MVoT

MVoT是一种多模态推理框架,通过生成图像形式的推理痕迹,增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制,有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域,具有广泛的应用潜力。