AI项目与工具

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

WiseDiag

WiseDiag是杭州智诊科技开发的医疗AI模型,基于海量医学数据训练,具备深度推理能力和个性化服务功能。支持多场景健康咨询,包括医学报告解读、长期健康记录管理及专家级建议。提供多种版本以适应不同需求,适用于健康管理、医疗辅助和远程医疗等应用。

M2UGen

M2UGen是由腾讯PCG ARC实验室与新加坡国立大学共同研发的一款多模态音乐理解和生成框架,支持从文本、图像、视频等多种模态输入生成相应音乐。它具有强大的音乐理解能力、灵活的音乐编辑功能以及多样化的应用场景,适用于音乐制作、影视配乐、音乐教育等多个领域。凭借其创新的技术架构和卓越的表现力,M2UGen已成为当前最优秀的多模态音乐生成工具之一。

VideoRAG

VideoRAG是一种基于检索增强生成(RAG)技术的工具,旨在提升长视频的理解能力。它通过提取视频中的多模态信息(如OCR、ASR和对象检测),并将其与视频帧和用户查询结合,增强大型视频语言模型的处理效果。该技术轻量高效,易于集成,适用于视频问答、内容分析、教育、媒体创作及企业知识管理等多个领域。

Batch Tools

Batch Tools 是一个便捷的在线 AI 抠图工具,提供批量背景移除服务,支持多种图片格式,如 JPG、PNG 和 WebP。它允许用户批量上传和处理图片,无需专业知识即可轻松上手,所有功能免费且无需下载安装。适用于电子商务、营销和广告、社交媒体管理和设计创意等场景。

Klee

Klee是一款本地运行的AI桌面应用,专注于数据安全与隐私保护,所有操作均在用户设备上完成。它集成了RAG技术、开源AI模型,并支持笔记管理、文件分析、团队协作等功能。适用于个人知识管理、软件测试、数据分析及自然语言处理等多种场景,尤其适合注重隐私和高效工作的用户。

OLMoE

OLMoE是一款基于混合专家(MoE)架构的开源大型语言模型,具有高效的稀疏激活机制和快速训练能力。它支持自然语言理解、文本生成、多任务处理等功能,并广泛应用于聊天机器人、内容创作、情感分析和问答系统等领域,通过预训练和微调实现高精度任务执行。 ---

DynamicFace

DynamicFace是由小红书团队开发的视频换脸技术,结合扩散模型与时间注意力机制,基于3D面部先验知识实现高质量、一致性的换脸效果。通过四种精细的面部条件分解和身份注入模块,确保换脸后的人脸在不同表情和姿态下保持一致性。该技术适用于视频与图像换脸,广泛应用于影视制作、虚拟现实、社交媒体等内容创作领域,具备高分辨率生成能力和良好的时间连贯性。

xAR

xAR是由字节跳动与约翰·霍普金斯大学联合研发的自回归视觉生成框架,采用“下一个X预测”和“噪声上下文学习”技术,提升视觉生成的准确性和效率。其支持多种预测单元,具备高性能生成能力,在ImageNet数据集上表现优异,适用于艺术创作、虚拟场景生成、老照片修复、视频内容生成及数据增强等多种应用场景。

SuperCraft

SuperCraft是一款基于生成式AI技术的无限协作画布设计平台,能够将手绘草图或文本描述转化为高质量的2D图像和3D渲染。平台提供3D模型导出功能,支持团队协作,具备3D渲染和可视化能力,简化复杂项目的节点式流程设计,旨在提升设计师的工作效率和设计质量。