模型

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架,旨在提升模型对未知视觉内容的理解能力。它通过网络检索,使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色,支持图像描述生成、网络知识搜索、协作生成等功能,可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

FancyTech

一家专注于人工智能内容生成的公司,提供创新的AI平台,能够将产品图片转换成吸引人的、具有传播性的视频,从而将静态的视觉内容转变为动态且富有吸引力的形式。

EnerVerse

EnerVerse是由智元机器人团队开发的首个机器人4D世界模型,基于自回归扩散模型与稀疏记忆机制,实现未来具身空间的高效生成与动作规划。其核心技术包括逐块生成、时空注意力UNet结构、自由锚定视角(FAV)及Diffusion策略头,显著提升机器人在复杂任务中的表现。该模型已在自动驾驶、工业装配、医疗辅助等多个领域展现出广泛应用潜力。

Voiceflow

Voiceflow 是一款面向非技术用户的无代码对话式 AI 平台,具备直观的拖放界面和强大的自然语言处理能力。它支持复杂对话流程的设计、多渠道部署及团队协作,适用于客户服务自动化、虚拟助手开发、语音交互系统构建等多个领域,为企业和个人提供灵活且高效的解决方案。

Aiuni Ai

一个基于 Unique3D 开源技术的在线 AI 图片转 3D 模型生成建模工具,从一张照片生成3D模型只需30秒!

SkyCode

奇点智源发布的多语言开源编程大模型,采用GPT3模型结构,支持Java, JavaScript, C, C++, Python, Go, shell等多种主流编程语言,并能理解中文注释。模型可以对代码进行补全,进行解题等操作。

京东言犀

京东言犀是一个集成了多种智能服务和AI技术的交互平台,旨在通过情感机器人、智能语音服务、知识库管理等功能,为企业提供一个全面的数智化服务解决方案。

SigStyle

SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架,能将单张风格图像的视觉特征(如几何结构、色彩和笔触)精准迁移到目标图像,同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型,结合超网络和时间感知注意力交换技术,实现高效且高质量的风格迁移。支持多种应用场景,如艺术创作、时尚设计、影视制作等,具备灵活性和广泛适用性。

TinyVLA

TinyVLA是一种轻量级的视觉-语言-动作(VLA)模型,专为机器人操控设计。它通过结合多模态模型和扩散策略解码器,实现了快速推理、数据高效和多任务学习的能力,并在泛化性能上表现优异。TinyVLA可应用于家庭、工业、服务等多个领域,具有广泛的实用价值。

SmolLM2

SmolLLM2是一款由Hugging Face研发的紧凑型大型语言模型,支持设备端运行,具有1.7B、360M、135M三种参数规模。它通过监督微调与超反馈优化提升指令理解能力,在文本重写、摘要生成、函数调用等方面表现突出,适用于智能助手、聊天机器人等需要自然语言处理的场景,尤其适合延迟敏感、隐私保护和硬件资源受限的应用。