模型

SeedEdit

SeedEdit是一款基于自然语言指令的通用图像编辑工具,能够实现修图、换装、风格转换等多种编辑功能。它在图像重建与生成之间找到最佳平衡,支持零样本学习和多轮编辑操作,确保高质量输出。SeedEdit适用于社交媒体、广告、电商、艺术创作等多个领域,提供从简单调整到复杂创意的全面解决方案。

Step-1V

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

TRELLIS

TRELLIS是一款由清华大学、中国科学技术大学及微软研究院共同开发的3D生成模型,利用Structured LATent(SLAT)表示法,通过文本或图像提示生成高质量、多样化的3D资产。它融合了稀疏的3D网格结构与密集视觉特征,支持多格式输出及局部编辑,无需拟合训练即可生成细节丰富的模型。此外,TRELLIS具备两阶段生成流程,可灵活适应不同需求。

Cerebellum

Cerebellum是一款结合Claude 3.5 Sonnet与Selenium WebDriver的智能化浏览器助手,通过构建网页浏览的有向图模型,利用LLM技术分析页面内容和交互元素,智能规划操作路径并动态调整策略。它支持多浏览器操作,可精确模拟用户行为,广泛应用于网页自动化测试、数据抓取、内容管理及电子商务等多个领域。

AssemblyAI

一个提供将音频文件、视频文件和实时语音转录为文字的平台,提供了一个简单的API,允许用户访问用于转录和语音理解的即可用的AI模型。

DrivingDojo

DrivingDojo是一个由中国科学院自动化研究所与美团无人车团队合作研发的数据集,包含18,000个视频片段,涵盖全面的驾驶操作、多智能体交互及开放世界驾驶知识。它定义了动作指令跟随(AIF)基准,用于评估世界模型的预测能力,并支持自动驾驶算法开发、世界模型训练、多智能体交互模拟及罕见事件处理等多个应用场景。

通义万相

通义万相,一个不断进化的人工智能艺术创作大模型,擅长将奇思妙想转化为图画。

Natural Language Playlist

Natural Language Playlist 探索语言和音乐之间丰富而复杂的关系,并使用 Transformer 语言模型构建播放列表。由于没有更好的术语,音乐推荐是一种“闭门造车”的东西。