WorldScore WorldScore是由斯坦福大学推出的统一世界生成模型评估基准,支持3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种模态。它从可控性、质量和动态性三个维度进行评估,涵盖3000个测试样本,包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能,适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用,为研究 AI项目与工具 2025年06月12日 87 点赞 0 评论 489 浏览
MacWhisper MacWhisper是一款基于OpenAI Whisper技术的AI音频转文字工具。它能够在本地设备上将音频文件快速转录成文本,并支持多种语言。该工具具有多种音频和视频格式兼容性,提供不同的转录模型选择,支持字幕导出,且具备视频播放功能。最新版本增加了基于Apple芯片的硬件加速,提升了实时语音识别效率,并集成了OpenAI语言模型以提高转录和翻译的准确性。MacWhisper适用于记者、媒体工作 AI项目与工具 2025年06月12日 15 点赞 0 评论 489 浏览
FaceSwap FaceSwap是一款开源AI换脸软件,利用深度学习技术实现人脸检测、提取及替换。它支持跨平台操作,包括Windows、macOS和Linux,并可借助GPU加速提升处理效率。FaceSwap还允许用户自定义模型训练以优化换脸效果,广泛应用于影视制作、教育、游戏开发以及虚拟现实等领域。 AI项目与工具 2025年06月12日 45 点赞 0 评论 488 浏览
云知声山海大模型 云知声山海大模型是一个多功能、跨领域的智能大模型,它通过集成丰富的知识库和先进的自然语言处理技术,为用户提供了一个强大的信息和知识服务平台。 Ai平台模型 1970年01月01日 0 点赞 0 评论 488 浏览
Shakker AI 一个专注于AI图像生成和编辑的在线平台,Shakker AI汇集了数千个高质量的Stable Diffusion模型,利用稳定扩散模型为用户提供高质量的图像和视频生成服务。 Ai绘画生成 2025年06月05日 94 点赞 0 评论 488 浏览
OpenELM OpenELM是苹果公司推出的一系列高效开源语言模型,涵盖从2.7亿到30亿参数规模的不同版本。该模型基于Transformer架构,采用层间缩放策略优化参数分配,使用分组查询注意力(GQA)和SwiGLU激活函数等技术。OpenELM在公共数据集上预训练,并在多项自然语言处理任务中展现出色性能。模型代码和预训练权重已公开,旨在促进开放研究和社区发展。 AI项目与工具 2024年01月01日 99 点赞 0 评论 488 浏览
Playmate Playmate是由广州趣丸科技开发的人脸动画生成框架,基于3D隐式空间引导扩散模型和双阶段训练框架,能够根据音频和指令精准控制人物表情和头部姿态,生成高质量动态肖像视频。其支持情感控制、姿态控制和独立控制,可生成多种风格的动态肖像,适用于影视制作、游戏开发、虚拟现实、互动媒体及教育等多个领域。 AI项目与工具 2025年06月11日 88 点赞 0 评论 488 浏览
HumanOmni HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。 AI项目与工具 2025年06月12日 92 点赞 0 评论 488 浏览
浦语灵笔 浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型,具备7B规模的大型语言模型后端,能够处理长上下文、超高分辨率图像和细粒度视频理解,支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容,在多模态基准测试中表现出色,性能可与OpenAI的GPT-4V相媲美。 AI项目与工具 2025年06月12日 62 点赞 0 评论 487 浏览