Hummingbird Hummingbird-0 是一款基于深度学习的 AI 口型同步工具,支持零样本学习,无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式,支持最长 5 分钟视频处理,1 分钟内生成 10 秒视频,适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术,实现音频与视频的精准匹配,提升内容表现力。 AI项目与工具 2025年06月11日 42 点赞 0 评论 553 浏览
办公小浣熊2.0 办公小浣熊2.0是一款由商汤科技开发的AI办公助手,其核心功能围绕“浣熊三步法”展开,涵盖规划、分析与写作三大模块。该工具支持个人知识库建设、信息检索、文档编辑及对话转文档等功能,尤其擅长无编程数据分析与文档解析,同时提供内容生成、校对、创意辅助等服务,广泛应用于办公、学习、研究及项目管理等领域。 AI项目与工具 2025年06月12日 68 点赞 0 评论 550 浏览
LHM LHM是由阿里巴巴通义实验室推出的3D人体模型重建系统,能从单张图像快速生成高质量、可动画化的3D人体模型。基于多模态Transformer架构,融合3D几何与2D图像信息,保留服装与面部细节,并采用3D高斯点云表示方式,支持实时渲染和姿态控制。适用于AR/VR、游戏开发、影视制作及教育等多个领域,具备高保真、强泛化和低延迟等优势。 AI项目与工具 2025年06月12日 93 点赞 0 评论 549 浏览
PixVerse AI PixVerse是一个强大的生成式AI模型,仅需几分钟时间,就可以轻松地将多模态输入转化为令人惊叹的视频。 Ai视频生成 2025年06月05日 58 点赞 0 评论 548 浏览
ChatWise ChatWise 是一款支持多种语言模型的 AI 聊天工具,提供多模态交互功能,支持音频、PDF、图片和文本文件处理。其桌面优化设计提升体验,数据本地存储保障隐私。内置网页搜索功能,支持连接 Notion、Google Sheets 等外部工具,适用于学习、办公、内容创作等场景。 AI项目与工具 2025年06月11日 100 点赞 0 评论 547 浏览
LeRobot LeRobot是一个由HuggingFace开发的开源AI聊天机器人项目,旨在简化机器人技术的学习过程。它提供了预训练模型、数据集和模拟环境,支持模仿学习和强化学习,适用于多种机器人硬件。该项目具有多用途、可扩展的特点,通过提供预训练模型、数据集共享、模拟环境和多功能库等功能,帮助用户加速机器人项目的开发进程。 AI项目与工具 2025年06月12日 57 点赞 0 评论 546 浏览
Pipecat Pipecat是一款开源Python框架,用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能,支持与主流AI平台集成,采用模块化管道架构,提升开发效率。基于帧的实时处理机制确保流畅交互,适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。 AI项目与工具 2025年06月12日 78 点赞 0 评论 545 浏览
理想同学 理想同学是一款基于AI技术打造的智能助手,集成了知识问答、视觉识别、绘画创作和播客等多种功能。它支持多领域的信息查询、语言翻译、文本生成及视觉分析,通过跨平台协作实现数据同步与连续对话。此外,用户可根据需求选择不同模型以优化推理能力,广泛适用于日常生活、学习和工作场景。 AI项目与工具 2025年06月12日 96 点赞 0 评论 545 浏览
AtomThink AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架,通过构建长链思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略,旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持,广泛应用于教育辅助、自动化测试、学术研究等领域 AI项目与工具 2025年06月12日 62 点赞 0 评论 544 浏览
Gemini 2.5 Pro Gemini 2.5 Pro 是谷歌推出的高性能 AI 模型,具备深度推理能力,可在多模态输入下进行复杂任务处理。支持文本、图像、音频、视频及代码等多种输入形式,拥有 100 万 token 的上下文窗口。在推理、代码生成和多模态任务中表现优异,适用于学术研究、软件开发、创意工作和企业应用等多个领域。 AI项目与工具 2025年06月12日 75 点赞 0 评论 543 浏览