AI项目与工具

狸谱

狸谱是一款集AI图像处理与互动创作于一体的多功能工具,提供“灵魂提取器”功能用于生成物体相关人设形象,同时拥有AI壁纸漫画创作、跑团剧情互动及自定义画风等功能。狸谱凭借其多模态大模型技术和丰富的应用场景,满足用户在娱乐、创意、教育等多个领域的多样化需求。

Gemini Embedding

Gemini Embedding 是 Google 推出的文本嵌入模型,能将文本转化为高维向量以捕捉语义和上下文信息。支持超过 100 种语言,具备高效的检索、分类、聚类和相似性检测能力。其支持长文本输入和灵活的维度调整,适用于多场景应用,如智能搜索、数据分析和自然语言处理。模型基于 Gemini 训练,具有优秀的语言理解能力。

ClipZap AI

ClipZap AI 是一款基于人工智能的视频创作与编辑工具,提供视频剪辑、多语言翻译、AI 换脸、视频生成与增强等多种功能,帮助用户高效制作高质量视频内容,适用于社交媒体推广、产品营销、教育及多语言内容制作等多个场景。

TimeSuite

TimeSuite是一种由上海AI Lab开发的框架,专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务,提升了模型对视频内容的时间感知能力,减少了幻觉风险,并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

DreaMoving

DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团研究团队开发。该框架通过视频控制网络(Video ControlNet)和内容引导器(Content Guider)实现对人物动作和外观的精确控制,允许用户通过文本或图像提示生成个性化视频内容。其主要功能包括定制化视频生成、高度可控性、身份保持、多样化的输入方式以及易于使用的架构设计。DreaMoving广泛应用于影视制作、游

CLaMP 3

CLaMP 3是由清华大学朱文武教授团队开发的多模态、多语言音乐信息检索框架,支持文本、图像、音频和乐谱等多种模态之间的跨模态检索。其基于对比学习技术,将不同模态数据与多语言文本对齐至统一语义空间,适用于文本到音乐、图像到音乐检索、零样本分类及音乐推荐等任务。支持27种语言,可扩展至100种,广泛应用于音乐创作、教育、分析及多媒体内容制作。

Promptic

Promptic 是一款基于 Python 的轻量级 LLM 应用开发框架,提供类型安全的输出验证、流式响应支持、对话记忆管理及错误处理等特性。它通过集成 LiteLLM 和装饰器模式,帮助开发者快速构建稳定高效的 LLM 应用,同时支持多种主流 LLM 服务提供商的无缝切换。主要功能包括动态提示生成、响应验证、状态管理和工具函数代理构建,广泛应用于聊天机器人、内容生成、语言翻译、情感分析和数据摘

EasySlide

EasySlide是一款基于AI的演示文稿生成工具,支持通过自然语言处理技术快速生成专业PPT。具备智能幻灯片生成、内容优化、多语言支持、模板选择等功能,还支持实时预览、编辑及多种格式导出。适用于企业演示、教育培训、学术研究、培训工作坊等多个领域,旨在提升演示文稿制作效率与质量。

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型,能够处理文本、语音和动作数据,生成对应的输出模态。该模型在共同语音手势生成任务上表现出色,且支持情感预测等创新任务。它采用编码器-解码器架构,并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域,推动了虚拟角色自

Brainstorm

Brainstorm是一款结合AI搜索与多Agent协作技术的创新型搜索引擎,支持多个Agent角色协同工作,提供多样化的答案视角。用户可通过Agent商店管理团队,享受个性化搜索体验。Brainstorm具备自然语言处理能力,可快速理解需求并推荐创意,广泛应用于产品开发、市场研究、学术研究等多个领域。 ---