Pixel Reasoner Pixel Reasoner是由多所高校联合开发的视觉语言模型,通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作,如放大区域或选择帧,以捕捉细节。采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,提升视觉推理性能。在多个基准测试中表现优异,适用于视觉问答、视频理解等任务,广泛应用于科研、教育、工业质检和内容创作等领域。 AI项目与工具 2025年06月11日 30 点赞 0 评论 272 浏览
Vid2World Vid2World是由清华大学和重庆大学联合开发的创新框架,能够将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。该模型基于视频扩散因果化和因果动作引导两大核心技术,解决了传统VDM在因果生成和动作条件化方面的不足。Vid2World支持高保真视频生成、动作条件化、自回归生成和因果推理,适用于机器人操作、游戏模拟等复杂环境,具有广泛的应用前景。 AI项目与工具 2025年06月11日 33 点赞 0 评论 508 浏览
SurfSense SurfSense是一款开源的AI研究工具,具备强大的搜索功能和自然语言交互能力。它支持多种外部数据源集成,如搜索引擎、Slack、Notion等,并允许用户上传多种格式的文件,整合到个人知识库中。SurfSense采用RAG技术,结合语义和全文搜索,提升检索效率和准确性。同时支持本地部署,保障数据隐私,适用于个人知识管理、学术研究、企业协作等多种场景。 AI项目与工具 2025年06月11日 23 点赞 0 评论 189 浏览
VibeNecto VibeNecto是一款AI营销视觉素材生成平台,能够根据用户输入的文本描述快速生成高质量的定制化图片,适用于社交媒体、广告等多种营销场景。用户无需专业设计技能,可在几秒钟内获得符合品牌风格的视觉素材。平台提供多种视觉风格选择,具备背景移除功能,可自动去除图片背景,适合产品照片和专业头像处理。所有生成的图片都会被安全地存储在云端,自动保存历史记录,方便用户随时访问、下载或重复使用。 AI项目与工具 2025年06月11日 46 点赞 0 评论 197 浏览
3DTown 3DTown是由哥伦比亚大学联合Cybever AI等机构开发的AI工具,能够从单张俯视图生成高精度的3D城镇场景。它采用区域化生成和空间感知3D修复技术,将输入图像分解为重叠区域,分别生成3D内容并修复缺失结构,确保几何和纹理一致性。支持多种风格的场景生成,适用于虚拟世界构建、游戏开发、机器人模拟等领域,优于现有方法。 AI项目与工具 2025年06月11日 17 点赞 0 评论 258 浏览
JoyAgent智能体平台 JoyAgent智能体平台是京东云推出的企业级一站式AI智能体搭建与发布平台,聚合大模型、知识库、插件和工作流等能力,支持低代码开发,用户可通过自然语言快速构建基于大语言模型的AI智能体。平台提供丰富的预置模板和工具,支持一键发布到微信、企业微信等主流IM和协同办公渠道,适用于智能客服、OA自动化、热点营销等场景,帮助企业提升业务效率和客户体验。 AI项目与工具 2025年06月11日 20 点赞 0 评论 348 浏览
Gemini Diffusion Gemini Diffusion是谷歌推出的实验性文本扩散模型,通过逐步细化噪声生成文本,具备快速响应、生成更连贯文本和迭代细化等能力。与传统自回归模型不同,它能并行生成文本,提高效率。在外部基准测试中表现优异,速度更快,适用于内容创作、代码生成、数学问题解答和文本编辑等场景。用户需加入等待名单获取访问权限。 AI项目与工具 2025年06月11日 48 点赞 0 评论 452 浏览
Macaly Macaly是一款创新的无代码应用开发工具,通过自然语言处理技术,让用户能够将想法转化为可运行的应用程序。用户可通过文字描述或语音指令参与应用创建和修改,并实时看到视觉效果反馈,提升开发效率和协作体验。Macaly与GitHub深度集成,支持代码管理和协作,适用于个人创业者、小型团队、市场营销人员和企业内部项目,支持多环境部署,增强现有项目或从零开始构建。 AI项目与工具 2025年06月11日 16 点赞 0 评论 476 浏览
DeepWiki MCP DeepWiki MCP是Cognition Labs推出的远程服务器,基于开放标准的Model Context Protocol(MCP),为AI应用提供访问和搜索GitHub代码库文档的能力。它包含三个主要工具:获取文档主题列表、查看文档内容以及针对仓库提问获得AI回答。支持SSE和Streamable HTTP传输协议,确保信息实时性和准确性,适用于快速查询文档、技术问题解答、代码库结构概览 AI项目与工具 2025年06月11日 90 点赞 0 评论 491 浏览
Google Beam Google Beam是谷歌推出的AI驱动的3D视频通信平台,能够将2D视频流转换为逼真的3D效果,提升远程通话的自然度和直观性。用户可实现眼神交流和细微表情识别,增强沟通效果。支持实时语音翻译,打破语言障碍,并基于Google Cloud提供企业级可靠性,适用于远程协作、教育、医疗、国际合作和个人社交等多种场景。 AI项目与工具 2025年06月11日 76 点赞 0 评论 140 浏览