模型

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

RuoYi AI

RuoYi AI 是一个集成了本地 RAG 方案和多模型支持的全栈式 AI 开发平台,提供高效的代码管理、数据隐私保护和丰富的多媒体功能。支持多种大语言模型接入,具备微信扩展、插件系统和支付接口,适用于企业及个人开发者构建智能应用。

Cerebellum

Cerebellum是一款结合Claude 3.5 Sonnet与Selenium WebDriver的智能化浏览器助手,通过构建网页浏览的有向图模型,利用LLM技术分析页面内容和交互元素,智能规划操作路径并动态调整策略。它支持多浏览器操作,可精确模拟用户行为,广泛应用于网页自动化测试、数据抓取、内容管理及电子商务等多个领域。

DreamO

DreamO是由字节跳动与北京大学联合开发的图像定制生成框架,基于扩散变换器(DiT)模型实现多条件图像生成。支持身份、风格、背景等条件的灵活集成,具备高质量生成、条件解耦和精准控制能力。适用于虚拟试穿、风格迁移、主体驱动生成等多种场景,具备广泛的适用性和技术先进性。

悟道·天鹰(Aquila)

悟道·天鹰(Aquila)是智源研究院开源的中英双语语言大模型,具备强大的语言理解和生成能力。模型在设计上注重商用和数据合规性,同时提供持续的开源更新和技术支持。

Mistral Small 3.1

Mistral Small 3.1 是一款由 Mistral AI 开发的开源多模态 AI 模型,拥有 240 亿参数,支持文本与图像处理,具备长达 128k tokens 的上下文窗口和每秒 150 token 的推理速度。采用 Transformer 架构与 MoE 技术,提升计算效率,支持多语言和本地部署。适用于文档处理、图像分析、质量检测、虚拟助手等多种场景。

Diffusion Self

Diffusion Self-Distillation (DSD) 是一种基于预训练文本到图像扩散模型的零样本定制图像生成技术,通过自动生成数据集并微调模型,支持文本条件下的图像到图像转换任务。其核心在于利用生成图像网格与视觉语言模型筛选高质量配对数据集,实现无需人工干预的身份保持定制化图像生成。该技术广泛应用于艺术创作、游戏开发、影视制作、广告营销及个性化商品等领域。

百度文心歌词生成器

百度文心歌词生成器是百度公司开发的一款基于人工智能技术的创新工具,它利用百度的文心大模型为用户提供快速生成歌词的服务。

Haiper AI

一家专注于视觉内容创作的生成式AI解决方案的人工知智能公司, Haiper AI的使命就是开发将文本和图片转换为动态视频或3D的模型。

SepLLM

SepLLM是由香港大学与华为诺亚方舟实验室等机构联合开发的高效大语言模型框架,通过压缩段落信息和优化注意力机制,显著提升推理速度与计算效率。其支持处理超长序列(达400万标记),具备低KV缓存占用、高推理速度及多节点分布式训练能力。适用于长文本处理、流式应用、资源受限环境及多语言研究等多个场景,具有良好的部署灵活性和扩展性。