Pixtral Large Pixtral Large是一款由Mistral AI开源的超大规模多模态模型,具备1240亿参数,支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口,能在多语言环境中处理复杂文档和多图像场景,广泛应用于教育、医疗、客服和内容审核等领域。 AI项目与工具 2025年06月12日 39 点赞 0 评论 408 浏览
Comflowy Comflowy 是一个专注于将 ComfyUI 工作流转化为实用工具的平台,提供超过 100 个预安装的扩展,支持多种主流 AI 模型,包括一些闭源模型。它具备强大的云 GPU 支持,用户友好的界面设计以及灵活的节点系统,帮助用户高效管理和生成高质量的工作流,适用于多种应用场景,如室内设计、快速手绘生成、艺术风格转换及视频生成等。 AI项目与工具 2025年06月12日 70 点赞 0 评论 408 浏览
Agent Agent-S 是一款基于图形用户界面(GUI)的人机交互自动化框架,通过经验增强的分层规划和代理-计算机接口(ACI),实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型(MLLMs)进行推理和控制,并具备持续学习和跨操作系统通用性的特点,适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。 AI项目与工具 2025年06月12日 50 点赞 0 评论 409 浏览
文心大模型4.5 文心大模型4.5是百度推出的原生多模态大模型,具备强大的多模态理解、逻辑推理和文本生成能力。支持文字、图片、音频、视频等多种信息的综合处理,适用于教育、内容创作、智能客服及金融等领域。模型已上线百度智能云平台,企业与开发者可通过API调用,满足多样化业务需求。 AI项目与工具 2025年06月12日 32 点赞 0 评论 410 浏览
AtomThink AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架,通过构建长链思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略,旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持,广泛应用于教育辅助、自动化测试、学术研究等领域 AI项目与工具 2025年06月12日 62 点赞 0 评论 411 浏览
MagicQuill MagicQuill是一款基于AI的开源图像编辑工具,提供智能化的局部编辑功能。其核心功能包括AI驱动的智能建议、精确的像素级编辑(如添加、删除和颜色调整),以及多种定制化工具(如添加笔刷、减去笔刷和颜色笔刷)。此外,它还具备实时意图预测和参数调整能力,支持多模态大语言模型和扩散模型的协作,适用于个人娱乐、教育、专业设计及商业应用等多个领域。 AI项目与工具 2025年06月12日 85 点赞 0 评论 411 浏览
Pix2Gif Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型,能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成,并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制,确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。 AI项目与工具 2024年01月01日 30 点赞 0 评论 411 浏览
万相首尾帧模型 万相首尾帧模型(Wan2.1-FLF2V-14B)是一款开源视频生成工具,基于DiT架构和交叉注意力机制,可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效,适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能,且提供GitHub和HuggingFace开源资源供用户使用。 AI项目与工具 2025年06月11日 100 点赞 0 评论 411 浏览
PrimitiveAnything PrimitiveAnything是由腾讯AIPD与清华大学联合开发的3D形状生成框架,通过将复杂3D形状分解为基本基元并自回归生成,实现高质量、高保真度的3D模型重建。其支持从文本或图像生成内容,具备高效存储、模块化设计及良好的泛化能力,适用于3D建模、游戏开发、UGC创作及VR/AR应用等领域。 AI项目与工具 2025年06月11日 14 点赞 0 评论 411 浏览