PengChengStarling 鹏城实验室开源的一款多语言语音识别系统开发工具包,PengChengStarling可以在统一的框架内处理多种语言语音输入,支持实时语音识别,边说边识别。 Ai语音工具 2025年06月05日 66 点赞 0 评论 409 浏览
Hulu AI 一个GPT、文心一言、Midjourney和Dall-E对话作图可以永久、不限次数使用的工具,Hulu AI会根据用户的需求,不断更新上线新的功能,比如图片解析、图片融合等等常用功能。 AI写作对话 2025年06月05日 75 点赞 0 评论 410 浏览
Magma Magma是微软研究院开发的多模态AI基础模型,具备理解与执行多模态任务的能力,覆盖数字与物理环境。它融合语言、空间与时间智能,支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练,Magma在零样本和微调设置下表现优异,适用于网页操作、机器人控制、视频理解及智能助手等多个领域。 AI项目与工具 2025年06月12日 100 点赞 0 评论 410 浏览
FluxSR FluxSR是一种基于单步扩散模型的图像超分辨率工具,由多所高校与研究机构联合开发。它通过流轨迹蒸馏技术,将多步模型压缩为单步模型,实现高效且高质量的图像增强。采用TV-LPIPS感知损失和注意力多样化损失,有效提升图像细节并减少伪影。适用于老照片修复、影视制作、医学影像增强等多个领域,具备高性能与低计算成本优势。 AI项目与工具 2025年06月12日 24 点赞 0 评论 410 浏览
InternVL3 InternVL3是上海人工智能实验室推出的多模态大型语言模型,具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法,提升语言与视觉理解效率,并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署,适用于智能交互、图像识别、视频分析及客服系统等多种场景。 AI项目与工具 2025年06月11日 68 点赞 0 评论 410 浏览
Awesome Chinese LLM 整理了开源的中文大语言模型(LLM),主要关注规模较小、可私有化部署且训练成本较低的模型,目前已收录了100多个相关资源。 Ai学习资源 2025年06月05日 44 点赞 0 评论 410 浏览
Transfusion Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成 AI项目与工具 2025年06月12日 26 点赞 0 评论 410 浏览
WorldSense WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。 AI项目与工具 2025年06月12日 61 点赞 0 评论 411 浏览
Video Diffusion Models Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力,通过创新的梯度条件方法和自回归扩展技术,生成了具有高度时间连贯性和质量的视频样本。 Ai绘画生成 1970年01月01日 0 点赞 0 评论 411 浏览
Mooncake Mooncake是一个以KVCache为中心的分布式大模型推理架构,由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段,有效利用GPU集群的其他资源,显著提升推理吞吐量,降低算力消耗,同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理,适用于多种应用场景,包括自然语言处理、语音识别、搜索引擎优化等,推动大模型技术的高效应用。 AI项目与工具 2025年06月12日 57 点赞 0 评论 411 浏览