增强 - 智狐AI导航

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集，包含4300万条样本，涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量，并采用合成数据生成技术扩展数据集规模。基于此数据集，智源研究院训练出了20亿参数的Aquila-VL-2B模型，在多项基准测试中表现出色，推动了多模态AI领域的研究与发展。

AI项目与工具 2025年06月12日 87 点赞 0 评论 670 浏览

Wonder Animation是一款基于AI的视频到3D场景转换工具，由Autodesk的Wonder Dynamics研发。它能够将视频序列转化为包含摄像机设置和角色动画的3D动画场景，支持多剪辑和多种镜头处理。通过深度学习和计算机视觉技术，Wonder Animation在3D空间中重建场景，并确保动作和场景的高度同步与一致。此工具特别适合动画电影制作、视频游戏开发、虚拟制作以及增强现实和虚

AI项目与工具 2025年06月12日 43 点赞 0 评论 669 浏览

Azure AI

Azure AI 语音服务为用户提供了一套全面的语音处理解决方案，支持多种语言，具备高度的自定义能力，适用于各种规模的公司和多样化的应用场景。

创作工具 2026年06月21日 0 点赞 0 评论 664 浏览

libcom

libcom是一款由上海交通大学BCMI实验室开发的图像合成工具箱，支持图像融合、和谐化、阴影生成、对象放置及生成式合成等功能，采用传统图像处理与深度学习技术相结合的方式，提供高质量的合成图像解决方案。适用于增强现实、艺术创作、电子商务、影视制作及游戏开发等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 664 浏览

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具，专为多模态眼科图像生成设计。通过自然语言提示，EyeDiff能够捕捉常见及罕见眼病的关键特征，显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制，结合潜在扩散模型（LDM），生成高质量、与文本高度一致的图像，适用于数据增强、疾病筛查、数据共享及医学教育等场景。

AI项目与工具 2025年06月12日 89 点赞 0 评论 662 浏览

World Labs 空间智能模型

World Labs 空间智能模型是一款基于人工智能技术的工具，能够通过单张图片生成逼真的3D世界，并支持实时渲染与交互操作。其核心功能包括3D几何估算、场景补全、内容生成及相机效果模拟，广泛应用于电影、游戏、虚拟现实、教育以及建筑设计等多个领域，大幅提升了创作效率与视觉表现力。

AI项目与工具 2025年06月12日 60 点赞 0 评论 661 浏览

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架，可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性，显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点，适用于电影、游戏、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 84 点赞 0 评论 661 浏览

文心大模型

文心大模型是一种知识增强的自然语言处理（NLP）模型，由百度开发。它在技术开放日上首次亮相，展示了其在AI领域的最新技术突破和产业应用实践。

Ai平台模型 2026年06月21日 0 点赞 0 评论 660 浏览

RAG Logger

RAG Logger 是一款专为检索增强生成（RAG）应用设计的开源日志记录工具，支持查询跟踪、检索结果记录、LLM 交互记录及性能监控等功能。其核心特性包括结构化 JSON 日志存储、每日日志组织、事件驱动架构和灵活配置选项。RAG Logger 能够帮助开发者有效监控和优化 RAG 管道的运行效率，广泛适用于搜索引擎优化、智能问答系统、内容推荐系统、NLP 研究及教育辅助工具等领域。

AI项目与工具 2025年06月12日 24 点赞 0 评论 659 浏览

Wavy

Wavy是一款利用AI技术的照片编辑工具，可将普通照片转换为具有艺术风格的作品。它提供多种功能，包括AI艺术生成、图像放大、照片优化以及对象移除等，适用于个人摄影、社交媒体内容创作、艺术设计等多个场景，帮助用户实现创意表达与个性化展示。

AI项目与工具 2025年06月12日 73 点赞 0 评论 658 浏览

增强

首页

增强

列表

默认

浏览次数

发布日期