人工智能 - 智狐AI导航

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent，具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库，筛选、分析最相关的文献，整合不同文献中的观点，为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略，实现高效的多步推理和信息检索能力，适用于学术研究、商业决策和日常生活等多种场景。

AI项目与工具 2025年06月11日 20 点赞 0 评论 717 浏览

MagicTryOn

MagicTryOn是由浙江大学和vivo等机构开发的视频虚拟试穿框架，采用扩散Transformer（DiT）架构替代传统U-Net，结合全自注意力机制实现视频时空一致性建模。通过粗到细的服装保持策略，整合服装标记与多条件引导，有效保留服装细节。该工具在图像和视频试穿任务中表现优异，适用于在线购物、时尚设计、虚拟试衣间等多种场景。

AI项目与工具 2025年06月11日 81 点赞 0 评论 564 浏览

Paper2Poster是由加拿大滑铁卢大学、新加坡国立大学等机构推出的学术框架，基于多模态自动化技术从科学论文生成海报。它通过Parser、Planner和Painter–Commenter系统实现内容压缩、布局优化和视觉质量提升，支持将长篇论文转化为结构化视觉海报。Paper2Poster引入PaperQuiz评估方法，确保海报有效传达核心内容，提高生成效率，适用于学术会议、报告、科研展示及教

AI项目与工具 2025年06月11日 34 点赞 0 评论 597 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 628 浏览

Largo

Largo是一个基于AI技术的影视内容开发平台，通过分析海量影视数据为制片人、发行方和工作室提供数据驱动的洞察和决策支持。其核心功能包括剧本分析、角色与选角建议、财务预测、品牌测试以及项目与融资匹配，帮助优化制作流程、降低风险并提升内容吸引力。

AI项目与工具 2025年06月11日 79 点赞 0 评论 702 浏览

SelectYet

SelectYet是一款基于AI技术和“记忆摘要”技术的文献分析工具，能够对海量文献进行结构化分析，快速提取关键信息并生成文献综述。用户可输入研究主题、上传PDF文献，并设置自定义分析选项，工具支持结果导出为Excel格式。它适用于高效学习、数据编码、行业研究、批改代工、市场调研和政策分析等场景，接入了deepseek-R1/V3模型，未来将融合更多模型提升分析效率与准确性。

AI项目与工具 2025年06月11日 61 点赞 0 评论 623 浏览

WonderPlay

WonderPlay 是斯坦福大学与犹他大学联合开发的新型框架，能够从单张图片和用户定义的动作生成动态3D场景。它结合物理模拟与视频生成技术，支持多种物理材质和动作类型，实现逼真的动态效果。用户可通过简单操作与场景互动，生成丰富的物理响应。该工具具备交互式查看器，适用于AR/VR、影视特效、教育、游戏开发等多个领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 654 浏览

OpusClip Thumbnail

OpusClip Thumbnail 是 OpusClip 团队推出的免费 AI 缩略图生成工具，专为 YouTube 创作者设计。用户只需粘贴视频链接，AI 会自动分析内容并生成多个高表现力的缩略图选项，无需手动输入提示词。该工具基于顶级创作者的成功模式训练，能理解视频上下文并生成相关缩略图，提供多种变体用于测试，提升点击率和视频表现。

AI项目与工具 2025年06月11日 80 点赞 0 评论 897 浏览

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型，基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异，平均准确率达70.7%，超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现，适用于法律、金融、科研等多个领域。

AI项目与工具 2025年06月11日 24 点赞 0 评论 777 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 613 浏览

人工智能

首页

人工智能

列表

默认

浏览次数

发布日期