模型

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是一个开源 AI 工具,用于在 WhatsApp 上构建智能代理。支持多代理架构、多模态交互及持久化对话状态,集成多种语言模型,提供安全可靠的通信环境。适用于客户服务、信息推送、教育辅导等多个场景,便于开发者快速构建和部署高效的 WhatsApp 机器人。

混元图像2.0

混元图像2.0是腾讯开发的AI图像生成工具,支持文本、语音、草图等多种输入方式,具备实时生成能力。其采用单双流DiT架构和多模态大语言模型,生成图像写实性强、细节丰富,且响应速度快,适用于创意设计、广告营销、教育、游戏等多个领域。用户可通过网页端直接操作,实现高效的图像创作体验。

DDColor图像上色

一个为黑白图像上色的魔搭模型,通过双解码器实现逼真的图像着色,输入一张黑白图像,实现端到端的全图上色,返回上色处理后的彩色图像。

Open

Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供

VMix

VMix是一款提升文本到图像生成美学质量的工具,通过解耦文本内容与美学描述,并引入细粒度美学标签,增强图像在色彩、光线、构图等方面的视觉表现。其核心技术为交叉注意力混合控制模块,可在不改变原有模型结构的情况下注入美学条件,保持图文一致性。VMix兼容多种扩散模型及社区模块,支持多源输入、高质量视频处理、实时直播与远程协作,广泛应用于电视直播、网络直播、现场活动及虚拟演播室等场景。

Audio2Photoreal

从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

Chromox AI

一个由AlkaidVision开发的文生视频、图生视频的AI工具,专注于将创意转化为视觉故事,适用于各种动态内容生成。

SearchAgent

SearchAgent-X是由南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员开发的高效推理框架,旨在提升基于大型语言模型(LLM)的搜索Agent效率。通过高召回率的近似检索、优先级感知调度和无停顿检索等技术,显著提高系统吞吐量(1.3至3.4倍),降低延迟(降至原来的1/1.7至1/5),同时保持生成质量。该框架优化资源利用率,适用于智能客服、搜索引擎、企业知识管理等多种场景,为复杂A

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器,能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息,实现高精度的零样本检测,并支持图像描述生成与多模态任务优化,适用于多种实际应用场景。

幻方AI

成立于2019年12月,专注于人工智能(AI)领域的算法与基础应用研究。公司致力于通过前沿科技的研发,激发创造力和想象力,推动人类梦想的实现。