PartCrafter PartCrafter是一款先进的3D生成模型,能够从单张RGB图像中生成多个语义明确且几何形态各异的3D网格。通过组合潜在空间表示每个3D部件,并利用层次化注意力机制确保全局一致性。该模型基于预训练的3D网格扩散变换器(DiT),支持多部件联合生成、端到端生成和部件级编辑,适用于游戏开发、建筑设计、影视制作等多个领域。 AI项目与工具 2025年06月11日 66 点赞 0 评论 474 浏览
SmolVLA SmolVLA是Hugging Face开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,可在CPU上运行,单个消费级GPU即可训练,适合在MacBook上部署。它能够处理多模态输入,生成动作序列,并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。 AI项目与工具 2025年06月11日 34 点赞 0 评论 276 浏览
MultiTalk MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题,并采用部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及 AI项目与工具 2025年06月11日 11 点赞 0 评论 179 浏览
Playmate Playmate是由广州趣丸科技开发的人脸动画生成框架,基于3D隐式空间引导扩散模型和双阶段训练框架,能够根据音频和指令精准控制人物表情和头部姿态,生成高质量动态肖像视频。其支持情感控制、姿态控制和独立控制,可生成多种风格的动态肖像,适用于影视制作、游戏开发、虚拟现实、互动媒体及教育等多个领域。 AI项目与工具 2025年06月11日 88 点赞 0 评论 489 浏览
dots.llm1 dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,拥有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上预训练,采用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,提升训练效率。该模型支持多语言文本生成、复杂指令遵循、知识问答、数学与代码推理以及多轮 AI项目与工具 2025年06月11日 78 点赞 0 评论 309 浏览
MiniCPM 4.0 MiniCPM 4.0是面壁智能推出的高效端侧大模型,包含8B和0.5B两种参数规模。其采用创新稀疏架构和三值量化技术,实现模型体积缩小90%并保持高性能。自研CPM.cu推理框架在极限场景下可提升220倍速度,支持多种开源框架部署,并适配主流芯片。具备高效双频换挡机制、多平台适配和多种版本选择,适用于智能辅导、医疗辅助、客服、游戏剧情生成等场景。 AI项目与工具 2025年06月11日 59 点赞 0 评论 437 浏览
Qwen3 Reranker Qwen3 Reranker是阿里巴巴通义千问团队推出的文本重排序模型,属于Qwen3模型家族。它采用单塔交叉编码器架构,能够对文本对进行相关性评估并输出得分,支持超过100种语言。通过多阶段训练范式和高质量数据训练,模型在MTEB排行榜上表现优异。Qwen3 Reranker可用于语义检索、文本分类、情感分析和代码搜索等场景,提升信息检索效率和准确性。 AI项目与工具 2025年06月11日 22 点赞 0 评论 198 浏览
Qwen3 Embedding Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型,支持 119 种语言,参数规模从 0.6B 到 8B。它能够精准捕捉文本语义,支持多语言处理、高效检索和语义相关性排序,并可通过个性化优化提升用户体验。在 MTEB 等任务中表现优异,适用于智能搜索、推荐系统、问答系统和教育领域等场景。 AI项目与工具 2025年06月11日 37 点赞 0 评论 277 浏览
OpenAudio S1 OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足 AI项目与工具 2025年06月11日 28 点赞 0 评论 286 浏览
Auto Think Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型,针对深度思考大模型的“过度思考”问题,提出了一种全新的训练范式。模型融合“思考”和“非思考”能力,能根据问题难度自动切换模式,提升复杂任务表现。在代码和数学类任务中,性能提升可达20分。其技术原理包括最小提示干预和多阶段强化学习,适用于视频生成、文案创作、智能客服等多个场景。 AI项目与工具 2025年06月11日 26 点赞 0 评论 221 浏览