MSQA MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集,支持文本、图像和点云等多种数据形式,旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务,该工具不仅能够评估模型性能,还能促进具身AI和3D场景理解领域的研究进展。同时,它为开发更强大的情境推理模型提供了丰富的预训练资源。 AI项目与工具 2025年06月12日 80 点赞 0 评论 559 浏览
ViLAMP ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型,专为高效处理长视频设计。采用混合精度策略,支持在单张A100 GPU上处理长达3小时的视频,提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能,适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能,实现精准且高效的视频分析。 AI项目与工具 2025年06月11日 37 点赞 0 评论 559 浏览
MMBench MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台,旨在全面评估大型视觉语言模型(LVLMs)在视频理解方面的能力。平台包含约600个YouTube视频片段,覆盖16个类别,并配备高质量的人工标注问答对。通过自动化评估机制,MMBench-Video能够有效提升评估的精度和效率,为模型优化和学术研究提供重要支持。 AI项目与工具 2025年06月12日 52 点赞 0 评论 561 浏览
AstrBot AstrBot是一款多功能聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字、网页搜索等功能。它采用模块化设计,支持插件开发和多平台部署,适用于企业客服、个人助手、教育辅导等多个场景,提供高效的智能交互体验。 AI项目与工具 2025年06月12日 55 点赞 0 评论 561 浏览
SmolVLA SmolVLA是Hugging Face开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,可在CPU上运行,单个消费级GPU即可训练,适合在MacBook上部署。它能够处理多模态输入,生成动作序列,并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。 AI项目与工具 2025年06月11日 34 点赞 0 评论 561 浏览
AlphaEvolve AlphaEvolve是谷歌DeepMind开发的通用科学代理,结合大型语言模型与进化算法,用于设计和优化复杂算法。它在数据中心调度、硬件设计、AI训练和数学问题解决等领域取得显著成果,如优化矩阵乘法、提升系统效率等。系统采用自动化评估机制,支持跨领域应用,具备高效计算和持续优化能力。 AI项目与工具 2025年06月11日 98 点赞 0 评论 562 浏览
Fox Fox-1是一系列由TensorOpera开发的小型语言模型,基于大规模预训练和微调数据,具备强大的文本生成、指令遵循、多轮对话和长上下文处理能力。该模型在多个基准测试中表现出色,适用于聊天机器人、内容创作、语言翻译、教育辅助和信息检索等多种应用场景。 AI项目与工具 2025年06月12日 60 点赞 0 评论 562 浏览
Llama 3 Llama 3是Meta公司开发的一款最新大型语言模型,提供了8B和70B两种参数规模的模型。它通过增加参数规模、扩大训练数据集、优化模型架构和增强安全性等功能,显著提升了自然语言处理能力,适用于编程、问题解决、翻译和对话生成等多种应用场景。Llama 3在多个基准测试中表现出色,并且通过指令微调进一步增强了特定任务的表现。 AI项目与工具 2025年06月12日 40 点赞 0 评论 563 浏览
LangManus LangManus 是一款基于多智能体系统的 AI 自动化框架,支持多种语言模型和 API 接口,具备高效的网络与神经搜索能力。框架内含多种智能体协同工作,可完成任务分配、规划、执行与报告生成。支持代码编写与执行、任务可视化及实时监控,适用于人力资源、房产决策、旅行规划、内容创作和教育开发等多个领域。 AI项目与工具 2025年04月08日 15 点赞 0 评论 563 浏览