场景

灵动AI

灵动 AI 商品图是新一代人工智能生图工具。利用 AI 生成技术,快速创造高质量商品场景图。

Boow

Boow-VTON是一种基于先进图像生成技术和数据增强方法的虚拟试衣技术,无需精确遮罩即可实现高质量试穿效果。该工具通过试穿定位损失和注意力机制,精准识别试穿区域并确保服装自然贴合人体,支持多服装试穿且操作简便。其应用场景包括在线购物、时尚零售、个性化推荐、社交媒体互动及服装设计等多个领域,具有广泛的商业应用价值。

AwesomeGPTs

AwesomeGPTs是一个OpenAI GPTs的目录和搜索引擎,提供了9000多个自定义GPT模型,并不断增长。

AI得贤招聘官

替代人类面试官对候选人的核心价值观,通用素质,潜在领导力和专业素质进行基于视频面试的判断。

AgiBot World

AgiBot World是一个由智元机器人开发的百万真机数据集,专注于具身智能技术的研究。它涵盖了80多种日常生活技能,涉及家居、餐饮、工业、商超及办公五大场景,数据规模和质量均领先于谷歌的Open X-Embodiment。数据采集利用了智元自建的工厂和实验基地,通过8个摄像头和6自由度灵巧手等先进硬件,确保了全域真实场景下的高质量数据获取。项目还计划开源仿真数据、发布具身基座大模型及配套工具链

Klap

Klap是一款利用AI技术的视频编辑工具,主要功能包括将长视频快速转换为适合社交媒体平台的短视频、智能场景分析、自动裁剪与布局优化、多语言字幕生成等。它支持一键分享至各大社交平台,帮助用户提高内容传播效率。适用于个人、品牌及教育机构等多种场景。

k1 视觉思考模型

K1视觉思考模型是一款基于强化学习的AI工具,支持端到端图像理解和思维链技术,适用于数学、物理、化学等基础科学领域。该模型可直接处理图像信息并生成推理思维链,具有优秀的字符识别能力和跨学科问题解决能力,广泛应用于教育、科研、艺术等领域。

VideoLLaMB

VideoLLaMB 是一个创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析过程中不会丢失关键的视觉信息。该模型专为理解长时间视频内容而设计,能够保持语义上的连续性,并在多种任务中表现出色,例如视频问答、自我中心规划和流式字幕生成。VideoLLaMB 能够有效处理视频长度的增加,同时保持高性能和成本效益,适用于学术研究和实际应用。 ---

GPT应用程序

GPT应用程序按星级、拉取请求、问题排列的此集合中回购的每月排名

Sana

SANA是一个由NVIDIA、麻省理工学院和清华大学共同研发的文本到图像生成框架,支持生成高达4096×4096分辨率的高清图像。它采用了深度压缩自编码器、线性扩散变换器(Linear DiT)和小型语言模型作为文本编码器,并通过优化的训练和采样策略提升了生成效率。SANA在模型大小和运行速度上具备显著优势,适合多种应用场景,包括艺术创作、游戏开发、广告设计和科学研究等。