AI

VITA

VITA-Audio 是一款开源的端到端多模态语音大模型,具备低延迟、高推理效率和多模态交互能力。其核心创新包括轻量级 MCTP 模块和四阶段渐进式训练策略,使模型在语音识别、文本转语音和口语问答等任务中表现优异。支持实时对话、智能客服、教育辅助、医疗辅助及内容创作等多种应用场景,适用于各类语音交互系统。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

makeAd

makeAd是一款基于AI技术的广告创意平台,提供智能场景生成、产品模型图创建、虚拟模特试穿等功能,帮助品牌和营销人员快速生成高质量广告素材。平台支持品牌风格适配、文案生成及多平台适配,适用于电商广告制作、广告策略探索及个性化内容生成,提升广告效率与转化效果。

FunGPT

FunGPT 是一款基于 InternLM2.5 大模型开发的开源工具,专注于情感互动与情绪调节。它包含“甜言蜜语模式”和“犀利怼语模式”,分别用于提升用户情绪和释放压力。项目采用轻量化模型与 AWQ 量化技术,兼顾性能与效率。适用于创意启发、娱乐互动等多种场景,适合对情感交互感兴趣的开发者和用户。

OpenEvidence

OpenEvidence 是一款基于AI的医学知识辅助平台,通过多模型集成架构提供精准的临床问题解答、症状分析、治疗建议及医学知识更新。平台数据来源权威,确保信息准确性与可靠性,适用于临床诊断支持、治疗方案制定、医学学习和医疗文书处理等多种场景,旨在提升医疗效率与质量。

SuperEdit

SuperEdit是由字节跳动与佛罗里达中央大学联合开发的图像编辑工具,基于扩散模型和优化监督信号,实现高精度的自然语言指令图像编辑。其特点包括高效训练、保留图像质量以及支持多种编辑类型。该工具适用于内容创作、影视、游戏、教育和医疗等多个领域,提供灵活且高效的图像处理方案。

FlowGram

FlowGram是字节跳动推出的可视化工作流搭建引擎,支持固定与自由布局,适用于流程管理、算法设计、教学演示等多种场景。具备智能建议、风险预测、文档生成等AI功能,支持导出图片或代码。技术上采用ECS架构、Web Worker优化与智能缓存,确保高效稳定运行,适合开发者进行流程构建与扩展。

Mogao

Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。

Scenethesis

Scenethesis是NVIDIA推出的AI框架,可通过文本生成高质量的3D场景。它结合LLM与视觉技术,经过布局规划、视觉细化、物理优化和场景验证四个阶段,确保生成结果具备物理合理性和空间连贯性。支持用户交互与多样化场景构建,广泛应用于VR/AR、游戏开发、具身智能及虚拟内容创作等领域。

Poify

Poify是一款由快手推出的AI图像生成工具,支持AI模特试衣、背景更换、局部重绘等功能,帮助商家和创作者高效生成高质量商品展示图及创意内容。用户可通过文字或图片输入,快速生成符合需求的视觉作品,适用于电商营销、海报设计、社交媒体等内容创作场景,提升视觉吸引力和传播效果。