模型

FlexTok

FlexTok 是由EPFL与苹果联合开发的图像处理技术,通过将图像转为离散标记序列实现高效压缩与生成。支持8K视频实时渲染,压缩率提升300%,功耗降低45%。具备无损超分辨率重建和灵活图像生成能力,适用于智能家居、安防监控及移动设备等场景。

GPT智库

一款强大的人工智能大模型综合应用,提供智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能。

怪兽智能AI知识库

怪兽智能AI知识库是一个集成了企业知识管理和智能问答功能的系统,它通过AI技术帮助企业提升服务效率和客户体验。

靠谱AI

一个AI智能体平台,为你聚合业内领先的多种通用大模型,让你可以按需向多个或某个AI机器人进行多轮提问对话,获取即时满意的答案,或是得到你满意的作品。

Playwright MCP

Playwright MCP是微软推出的轻量级浏览器自动化工具,基于Model Context Protocol(MCP)协议,通过Playwright的可访问性树实现与网页的交互,无需依赖视觉模型或截图。支持多种浏览器,提供丰富的交互功能,如点击、拖动、输入文本等,适用于与大语言模型结合使用。具备结构化数据交互、网络请求管理、测试脚本生成等功能,支持无头和有头模式运行,适用于自动化测试、网页操作

NarratoAI

NarratoAI是一款基于AI技术的影视解说和编辑工具,它利用大型语言模型(LLM)、计算机视觉和自然语言处理技术来理解视频内容,自动生成解说文案,并将文案转化为配音,同时进行视频剪辑和字幕生成。该工具支持个性化定制,可以满足不同用户的视频制作需求,简化视频制作流程,帮助非专业人士快速制作出专业水准的视频内容。

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。

Colingo

一款AI程序开发的全方位平台,面向全栈开发者提供了一系列强大的工具集

SpatialLM

SpatialLM 是一款由群核科技推出的开源空间理解多模态模型,能通过分析普通手机拍摄的视频生成详细的 3D 场景布局,涵盖房间结构、家具摆放等信息。它结合大语言模型与点云重建技术,实现空间认知与语义标注,并支持低成本数据采集。该模型适用于具身智能训练、AR/VR、建筑设计等多个领域,具备物理规则嵌入和结构化场景生成能力。

FigureToCartoon

FigureToCartoon是一个可以将您喜爱的照片即时转换为漫画、3D、素描、艺术或自由手绘风格卡通图片的在线工具。