微调

K2

地球科学的开源大预言模型,首先在收集和清理过的地球科学文献(包括地球科学开放存取论文和维基百科页面)上对 LLaMA 进行进一步预训练,然后使用知识密集型指令调整数据(GeoSig...

MiniMax 大语言模型

它基于海量中文数据训练而成,拥有超过1000亿个参数,能够处理上百TB的文本数据。

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

ComfyGen

ComfyGen是一款基于大型语言模型(LLM)的文本到图像生成系统,能够根据用户提供的文本提示自动生成高质量图像。它通过结合多种专业组件如微调基础模型、LoRAs、嵌入技术和超分辨率处理等构建复杂工作流,并采用两种基于LLM的方法优化图像生成质量,适用于艺术创作、游戏开发、广告设计、电影制作等多个领域。

AIGC电商解决方案 | @未来力场

生成式 AI 在跨境电商业务流程里能转化为生产力的环节和对应的解决方案有几种分类:按对人力的替换分类,按通用工具分类,按电商场景,按生成对象。

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型,采用Transformer架构替代传统的UNet,优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像,支持多种分辨率,并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中,并提供API服务,适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

FunASR

FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包,涵盖语音识别(ASR)、语音活动检测(VAD)、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调,并提供预训练模型和易用接口,便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能,广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。

MoviiGen 1.1

MoviiGen 1.1是由ZulutionAI推出的专注于生成电影级画质视频的AI模型,基于Wan2.1微调而成。它在氛围营造、镜头运动和物体细节保留方面表现优异,支持720P和1080P分辨率,适用于高保真场景和专业电影应用。模型具备提示扩展功能,可优化生成效果,并采用序列并行与环形注意力等技术提升性能。其应用场景包括电影制作、广告、游戏开发、VR/AR及教育等领域。

炉米Lumi

炉米Lumi是一款由字节跳动开发的AIGC图像创作平台,主要功能包括模型上传与展示、工作流搭建以及LoRA微调。它为AI爱好者、研究人员和开发者提供了一个协作环境,用于分享和优化AI模型。炉米Lumi支持多种应用场景,如科研、教育、艺术创作、商业应用开发等,具有开放性和高灵活性。 ---

米啫喱AI绘画

米啫喱AI是一款专为国内设计师打造的高质量可免费使用的AI绘画平台,其提供强大的微调功能,能够针对性地调整画作的构图与局部细节,从而生成让创作者满意的作品。