Vidu Q1 Vidu Q1是清华大学朱军教授团队研发的高可控视频生成模型,支持1080p高清视频生成,具备精准音效控制、多主体一致性调节、局部超分重建等功能。在多项国际评测中表现优异,包括VBench和SuperCLUE榜单均获第一。模型基于扩散模型与U-ViT架构,融合文本、图像和视频信息,适用于影视制作、广告宣传及动画创作等领域。 AI项目与工具 2025年06月12日 96 点赞 0 评论 561 浏览
SmolVLA SmolVLA是Hugging Face开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,可在CPU上运行,单个消费级GPU即可训练,适合在MacBook上部署。它能够处理多模态输入,生成动作序列,并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。 AI项目与工具 2025年06月11日 34 点赞 0 评论 561 浏览
VideoPoet VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应 AI项目与工具 2024年01月01日 98 点赞 0 评论 561 浏览
天翼AI开放平台 天翼AI开放平台是中国电信推出的AI技术服务平台,基于自研星辰大模型,提供问答、表格分析、文生图、多方言识别等功能,同时为企业提供大模型开发、AI中台等工具,覆盖政务、金融、工业等领域,支持多场景数字化创新。 AI项目与工具 2025年06月11日 71 点赞 0 评论 559 浏览
MSQA MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集,支持文本、图像和点云等多种数据形式,旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务,该工具不仅能够评估模型性能,还能促进具身AI和3D场景理解领域的研究进展。同时,它为开发更强大的情境推理模型提供了丰富的预训练资源。 AI项目与工具 2025年06月12日 80 点赞 0 评论 559 浏览
食神 食神是老板电器研发的烹饪领域AI大模型,基于46年烹饪数据与DeepSeek技术,可精准理解用户需求。支持语音、文字交互,提供个性化菜谱推荐、健康膳食规划,并能与智能厨电联动,实现烹饪全流程自动化。同时具备文化讲解与情感陪伴功能,提升用户体验。适用于家庭烹饪、健康管理及文化体验等多个场景。 AI项目与工具 2025年06月12日 48 点赞 0 评论 559 浏览
LongVU LongVU是一款由Meta AI团队研发的长视频理解工具,其核心在于时空自适应压缩机制,可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析,实现了对冗余帧的剔除及帧特征的选择性降低,并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频,适用于视频内容分析、搜索索引、生成描述等多种应用场景。 AI项目与工具 2025年06月12日 65 点赞 0 评论 557 浏览
CoGenAV CoGenAV是一种先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能,适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。 AI项目与工具 2025年06月11日 80 点赞 0 评论 557 浏览
LibreChat 一个开源多模态AI对话平台,它支持与多种AI模型服务的集成,包括OpenAI、Azure、Anthropic和Google等。 AI写作对话 2025年06月05日 92 点赞 0 评论 553 浏览