AI项目与工具

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架,旨在提升模型对未知视觉内容的理解能力。它通过网络检索,使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色,支持图像描述生成、网络知识搜索、协作生成等功能,可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

LearnCoach

LearnCoach 是一款面向 K12 学生的 AI 学习平台,提供个性化课程、智能辅导和多种学习模式,如辅导课程与视频播放列表。平台包含丰富的视频教程和考试题库,帮助学生掌握重点知识,提升学习效率。支持语音输入与全天候访问,适用于日常学习、考前复习及课堂教学辅助,助力学生高效学习与成绩提升。

Dawn AI

Dawn AI是一款基于AI技术的图像生成工具,支持文本转图像、多种绘画风格选择以及头像生成等功能。用户可通过输入文字或上传图片,快速生成艺术作品。界面简洁易用,适合各类用户,适用于社交媒体、创意内容制作及角色定制等多种场景,提升创作效率与个性化表达。

Open NotebookLM

Open NotebookLM是一个开源工具,能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型,生成自然流畅的对话式音频,并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件,适用于教育、科研、商业分析等多个领域。

GRUtopia 2.0

GRUtopia 2.0是上海人工智能实验室推出的通用具身智能仿真平台,提供模块化框架、场景自动生成与高效数据采集功能。用户可使用“三行代码”快速定义任务,平台内置百万级标准化物体资产,支持复杂场景的一键生成。同时具备大规模3D场景数据集、AI驱动的NPC系统及基准测试平台,适用于机器人训练、社交互动、导航与操作等任务,推动具身智能从仿真走向现实。

TripoSF

TripoSF是由VAST推出的新型3D基础模型,采用SparseFlex表示方法和稀疏体素结构,显著降低内存占用并提升高分辨率建模能力。其“视锥体感知的分区体素训练”策略优化了训练效率,使模型在细节捕捉、拓扑结构支持和实时渲染方面表现突出。实验数据显示,TripoSF在Chamfer Distance和F-score等关键指标上分别降低82%和提升88%。适用于视觉特效、游戏开发、具身智能及产品

MyMap.AI

MyMap.AI是一款基于AI技术的智能图表制作平台,支持用户通过自然语言交互快速生成思维导图、流程图、矩阵图和演示文稿。其核心功能包括AI驱动的图表生成、多格式文件支持、实时网络搜索、信息提取以及多人实时协作。适用于教育、商业、创意和个人生产力等多个场景,帮助用户高效完成图表制作并提升工作效率。

PDF2Audio

PDF2Audio 是一款开源工具,支持将 PDF 文档转换为音频内容,适用于播客制作、教育、业务演示等多个场景。其核心功能包括 PDF 转文本、生成播客脚本、文本转语音转换、多语言支持及高级编辑功能。用户可通过自定义选项调整文本生成模型、语音风格等,支持批量处理和多种模板适配,方便用户根据需求生成高质量音频。

StealthGPT

StealthGPT是一款生成“不可检测”AI文本的工具,主要面向学生和内容创作者。它通过“人类化”处理,使AI生成的内容更接近人类写作,从而绕过AI检测工具。支持多语言写作、自动化引用、格式化、图片转答案、SEO写作以及PDF辅助阅读等功能。用户可选择不同版本以满足学习、创作和商业需求。

Sora

Sora是一款由OpenAI开发的AI视频生成工具,支持文本、图像和视频输入,生成高质量的1080p分辨率视频,最长可达20秒。该工具基于DALL·E和GPT模型,具有强大的创意表达能力,并配备剪辑和社区功能,适合内容创作者、营销人员、教育工作者以及影视制作人使用。