MME MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。 AI项目与工具 2025年06月12日 36 点赞 0 评论 475 浏览
EliGen EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架,采用区域注意力机制实现对图像中实体的精确控制,支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练,具备强大泛化能力,适用于虚拟场景、角色设计、数据合成及产品展示等场景。 AI项目与工具 2025年06月12日 97 点赞 0 评论 473 浏览
基石智算 基石智算是青云科技推出的AI算力云服务平台,支持多种异构算力资源的统一调度与管理,具备弹性扩容、分布式任务调度、一站式AI开发及模型部署等功能。平台适用于AI模型训练、高性能计算、数据科学分析及模型推理等多种场景,提供灵活的服务模式和全面的资源监控与管理能力,助力用户高效开展人工智能相关工作。 AI项目与工具 2025年06月11日 49 点赞 0 评论 459 浏览
明岐 明岐是上海交通大学LoCCS实验室开发的医学多模态大模型,专注于罕见病精准诊断。它整合影像、病历与化验数据,采用双引擎架构实现高精度、可解释的诊断,准确率超92%。通过模型优化技术,支持低成本本地化部署,适用于基层医疗、远程服务及科研教学,助力医疗资源均衡发展。 AI项目与工具 2025年06月11日 28 点赞 0 评论 454 浏览
TableGPT2 TableGPT2是一种由浙江大学开发的多模态人工智能模型,专注于结构化数据的处理与分析。它具备强大的表格数据理解能力,支持SQL查询执行、数据分析以及数据增删改查等功能。通过创新的表格编码器和双维注意力机制,TableGPT2在处理不规则表格和模糊查询方面表现优异。其应用场景广泛,涵盖商业智能、财务分析、市场研究及供应链管理等领域。 AI项目与工具 2025年06月12日 34 点赞 0 评论 453 浏览
NoteLLM NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架,支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术,提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制,增强视觉信息处理能力,适用于个性化推荐、冷启动优化及内容创作辅助等场景。 AI项目与工具 2025年06月11日 84 点赞 0 评论 444 浏览
Step1X Step1X-Edit 是由阶跃星辰团队推出的通用图像编辑框架,结合多模态大语言模型与扩散模型,支持多样化的图像编辑任务,如主体修改、背景更换、风格转换等。用户可通过自然语言指令进行操作,系统能精准理解并生成高质量图像。该工具基于大规模数据集训练,具备强大的真实场景适应能力,适用于创意设计、影视制作、社交媒体等多个领域。 AI项目与工具 2025年06月11日 81 点赞 0 评论 443 浏览
TinyVLA TinyVLA是一种轻量级的视觉-语言-动作(VLA)模型,专为机器人操控设计。它通过结合多模态模型和扩散策略解码器,实现了快速推理、数据高效和多任务学习的能力,并在泛化性能上表现优异。TinyVLA可应用于家庭、工业、服务等多个领域,具有广泛的实用价值。 AI项目与工具 2025年06月12日 91 点赞 0 评论 437 浏览
悦灵犀AI 悦灵犀AI是一款基于先进AI技术的创作平台,支持文生图、文生视频、背景替换、证件照生成及照片修复等多种功能。其智能助手和丰富工具使用户能够高效创作艺术作品,并广泛应用于艺术设计、广告营销、教育等领域。 AI项目与工具 2025年06月12日 51 点赞 0 评论 437 浏览
Veo 3 Veo 3是谷歌推出的新一代视频生成模型,在I/O开发者大会上发布。它是首个能生成视频背景音效的模型,可合成画面并匹配人物对话和口型,支持1080P高质量视频生成,具备物理模拟与口型同步能力,可生成超过60秒的视频片段,并支持多种视觉风格。Veo 3整合了多项先进技术,适用于影视制作、广告营销及教育领域。 AI项目与工具 2025年06月11日 90 点赞 0 评论 432 浏览