OmniCam OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。 AI项目与工具 2025年06月12日 18 点赞 0 评论 748 浏览
Ev Ev-DeblurVSR是一款由多所高校联合开发的视频增强模型,利用事件相机数据提升视频去模糊和超分辨率效果。通过互惠特征去模糊模块和混合可变形对齐模块,实现高精度视频恢复。适用于监控、体育、自动驾驶等多个领域,支持快速部署与研究。 AI项目与工具 2025年06月11日 52 点赞 0 评论 748 浏览
混元图生视频 混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。 AI项目与工具 2025年06月12日 43 点赞 0 评论 748 浏览
ChatMLX ChatMLX是一款基于大型语言模型(LLM)的MacOS聊天应用,利用自然语言处理技术实现对文本、PDF及视频等内容的对话式交互。支持多语言环境,具备本地化运行特性,旨在为用户提供高效、安全的数据分析与对话体验,广泛适用于客户服务、个人助理、语言学习、数据分析及教育辅导等多个领域。 AI项目与工具 2025年06月12日 32 点赞 0 评论 748 浏览
Phi Phi-3是由微软研究院开发的一系列小型语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个版本。这些模型通过优化的数据集和算法,在保持较小参数规模的同时,展现出与大型模型相当的语言理解和推理能力。phi-3-mini模型仅有3.8亿参数,但在多项基准测试中表现优异,甚至能在智能手机上运行。Phi-3系列模型的研发体现了在数据工程和模型优化领域的最新进展,为未来 AI项目与工具 2024年01月01日 42 点赞 0 评论 748 浏览
SynthLight SynthLight是由耶鲁大学与Adobe Research联合开发的基于扩散模型的人像重照明工具,通过物理渲染引擎生成合成数据并结合多任务训练策略,实现高质量的光照效果生成。它能够根据环境光照图重新渲染人像,生成自然的高光、阴影和漫反射效果,并适用于摄影后期、虚拟场景、游戏开发及广告设计等多个领域,具备良好的泛化能力和实用性。 AI项目与工具 2025年06月12日 73 点赞 0 评论 748 浏览
Snipo Snipo是一款基于AI的浏览器扩展工具,专为视频学习和笔记管理设计。它支持用户在观看视频时添加时间戳笔记、截取关键画面,并通过AI生成闪卡,同时具备与Notion无缝集成的功能。Snipo适用于在线学习、视频内容分析、语言学习、会议记录及教育培训等多种场景,显著提升学习和工作的效率。 AI项目与工具 2025年06月12日 28 点赞 0 评论 748 浏览
huntr Huntr是一个基于人工智能技术的求职辅助平台,提供简历优化、求职信生成、职位匹配分析及自动化申请工具等功能。它通过AI算法提取职位关键词,生成个性化的求职材料,同时具备工作追踪、简历检查等实用特性,帮助求职者在竞争激烈的就业市场中脱颖而出。平台提供免费和付费版本,满足不同用户需求。 AI项目与工具 2025年06月12日 57 点赞 0 评论 748 浏览
Talkie Talkie是一款基于人工智能技术打造的虚拟伴侣应用,主打高度定制化虚拟角色和沉浸式互动体验。它支持用户通过文本、语音及图像与AI角色交流,并提供角色创建、卡牌收集、智能推荐等功能。自推出以来,Talkie迅速获得了全球用户的青睐,在个性化聊天、情感陪伴及沉浸式叙事方面展现出强大潜力。 AI项目与工具 2025年06月12日 17 点赞 0 评论 748 浏览
ENEL ENEL是一种无编码器架构的3D大型多模态模型,通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略,在3D对象分类、字幕生成和视觉问答等任务中表现出色,性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。 AI项目与工具 2025年06月12日 53 点赞 0 评论 748 浏览