训练

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型,能够处理文本、语音和动作数据,生成对应的输出模态。该模型在共同语音手势生成任务上表现出色,且支持情感预测等创新任务。它采用编码器-解码器架构,并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域,推动了虚拟角色自

SynClub

SynClub是一款基于AI技术的社交应用,允许用户创建并定制个性化的AI角色,实现情感陪伴与互动交流。该工具支持文字和语音对话,具备自然语言处理能力,能根据用户行为进行学习与适应,提供更精准的互动体验。适用于情感支持、社交训练、兴趣交流及语言学习等多场景,注重用户隐私与安全感。

AIEasyPic

利用了如Stable Diffusion、ControlNet和LoRAs等模型,根据您的文本输入生成视觉效果。

LaTRO

LaTRO(Latent Reasoning Optimization)是一种用于提升大型语言模型推理能力的框架,通过将推理过程视为潜在分布采样并采用变分推断方法进行优化,无需外部反馈即可增强模型生成高质量推理路径的能力。该框架支持自奖励机制、联合学习及梯度估计等技术,广泛应用于数学问题求解、科学问题解答、编程任务、逻辑推理以及自然语言理解等领域,有助于构建更智能、更自主的问题解决系统。

Talkme练口语

TalkMe是一款革命性的跨语言学习产品,告别社恐,建立自信,AI练口语轻松又有趣,代替真人AI口语练习无负担。

幻方AI

成立于2019年12月,专注于人工智能(AI)领域的算法与基础应用研究。公司致力于通过前沿科技的研发,激发创造力和想象力,推动人类梦想的实现。

InfiniteYou

InfiniteYou 是由字节跳动推出的基于扩散变换器的身份保持图像生成框架,通过 InfuseNet 注入身份特征,确保生成图像与输入图像的高度相似。结合多阶段训练策略,提升文本与图像对齐、图像质量和美学效果。支持插件化设计,兼容多种工具,适用于社交媒体、影视制作、广告营销等多个领域。

Video Diffusion Models

Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力,通过创新的梯度条件方法和自回归扩展技术,生成了具有高度时间连贯性和质量的视频样本。