AI

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

Noisee AI

Noisee AI 是一款非常有趣的工具,它通过人工智能技术将音乐与视觉艺术相结合,为用户提供了一种全新的音乐体验和创作方式。

llama

这个存储库旨在作为一个最小...

硅语AI知识创业平台

硅语AI知识创业平台是一款基于人工智能技术的数字人解决方案,主要功能涵盖AI数字人克隆、语音合成、智能提词、字幕生成及美颜滤镜等。它支持多种应用场景,如教育、营销、内容创作和个人品牌建设,为用户提供便捷高效的数字人创建体验。

ObjectMover

ObjectMover是由香港大学与Adobe Research联合开发的图像编辑模型,专注于解决物体移动、插入和移除过程中的光影协调问题。通过视频先验迁移和序列到序列建模技术,实现对光照、阴影和遮挡关系的精准控制。支持多任务学习,提升模型在真实场景中的适应性。广泛应用于特效制作、虚拟场景编辑、游戏开发等领域,具备高效、真实的图像编辑能力。

卡内基梅隆大学

卡内基梅隆大学(Carnegie Mellon University),简称CMU,是坐落于美国宾夕法尼亚州的匹兹堡的私立大学,“新常春藤”,全球大学校长论坛成员。拥有14,800名在校学生和1,483名教职...

TxGemma

TxGemma 是由谷歌开发的药物发现人工智能模型,基于 Gemma 框架构建,支持化学结构解析、药物特性预测及多任务处理。具备对话功能,可解释预测逻辑,并支持多种参数版本以适配不同需求。适用于靶点识别、药物设计、治疗优化等多个场景,助力药物研发效率提升。

Bard PDF

一个用于汇总和分析 PDF 文档的终极 AI 驱动工具,AI Bard PDF允许用户通过自然对话上传PDF文档并与之交互。

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型,支持零样本语音克隆和高质量语音合成,具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度,适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本,满足不同性能需求。

ImBD

ImBD是一种用于检测机器修订文本的AI工具,采用风格偏好优化(SPO)和风格条件概率曲率(Style-CPC)技术,能有效区分人类写作与机器修订内容。该工具具备多场景适应能力,支持多种文本类型和领域,训练效率高、数据需求低,适用于学术、新闻、出版、教育等多个应用场景,提升文本检测的准确性与可靠性。