训练

InfiMM

InfiMM-WebMath-40B是由字节跳动与中国科学院联合推出的大规模多模态数据集,涵盖大量数学和科学内容,包括文本、公式、符号及图像。该数据集通过筛选、清洗和标注优化,可显著提升多模态模型的数学推理能力。它适用于数学题库生成、学习工具开发、论文理解及科学研究等多个应用场景。 ---

ELLA

ELLA(Efficient Large Language Model Adapter)是一种由腾讯研究人员开发的方法,旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器(TSC),动态提取预训练大型语言模型(LLM)中的时序依赖条件,从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练,可以直接应用于预训练的LLM和U-Net模型,且能与现有模型和工具无缝集成,显著提升

SynClub

SynClub是一款基于AI技术的社交应用,允许用户创建并定制个性化的AI角色,实现情感陪伴与互动交流。该工具支持文字和语音对话,具备自然语言处理能力,能根据用户行为进行学习与适应,提供更精准的互动体验。适用于情感支持、社交训练、兴趣交流及语言学习等多场景,注重用户隐私与安全感。

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型,拥有 1.5 亿参数,专注于长音频处理,支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色,具备高效的训练方法和多任务处理能力,适用于语音助手、实时转写、归档理解等场景。

GameFactory

GameFactory 是由香港大学与快手科技联合研发的AI框架,专注于解决游戏视频生成中的场景泛化问题。它基于预训练视频扩散模型,结合开放域数据与高质量游戏数据,通过多阶段训练实现动作可控的多样化场景生成。具备高精度动作控制、交互式视频生成及丰富场景支持,适用于游戏开发、自动驾驶模拟及具身智能研究等领域。

岩芯数智大模型

岩芯数智大模型是一个多功能的企业级AI解决方案,它通过提供高效的推理、快速的训练和高准确率,帮助企业提升知识管理能力、优化业务流程,并实现智能化升级。

PUMA

PUMA是一款先进的多模态大型语言模型,专注于通过整合多粒度视觉特征提升视觉生成与理解能力。它支持文本到图像生成、图像编辑、条件图像生成及多粒度视觉解码等功能,适用于艺术创作、媒体娱乐、广告营销等多个领域,凭借其强大的多模态预训练和微调技术,成为多模态AI领域的前沿探索。

AIEasyPic

利用了如Stable Diffusion、ControlNet和LoRAs等模型,根据您的文本输入生成视觉效果。

Skywork o1

Skywork o1是一款具备中文逻辑推理能力的大规模预训练模型,其核心优势在于内嵌思考、规划和反思能力,显著提升了复杂任务的推理性能。该模型基于开源Llama架构,同时提供增强版以满足更高要求的应用场景。它适用于技术开发者、企业决策者、教育工作者、内容创作者及客户服务等多个领域,助力创新应用开发和高效决策支持。 ---