机器学习

Mistral Small 3

Mistral Small 3 是一款由 Mistral AI 推出的开源大语言模型,具备 240 亿参数,支持多语言处理,适用于低延迟场景。模型基于 Transformer 架构,支持长文本输入,具备高性能和本地部署能力。其可定制性强,适用于虚拟助手、客服系统、自动化任务及专业领域应用,如医疗和法律咨询。

Sonic

Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架,基于音频信号生成逼真面部表情和动作。它通过上下文增强音频学习和运动解耦控制器,提升唇部同步精度与运动多样性。Sonic在长视频生成中表现出色,具备高稳定性与自然连贯性,支持用户自定义参数。适用于虚拟现实、影视制作、在线教育、游戏开发和社交媒体等多个领域。

ViTPose

ViTPose 是一种基于 Transformer 架构的人体姿态估计模型,通过图像块处理和特征提取实现关键点定位。提供多种版本,适用于不同任务需求。模型结构简洁,支持灵活扩展和参数调整,具备知识迁移能力。ViTPose+ 拓展至动物姿态估计,提升适用范围。在多个数据集上达到 SOTA 性能,广泛应用于运动分析、虚拟现实等领域。

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架,通过强化学习技术提升搜索能力,无需依赖真实搜索引擎。它能动态生成相关或噪声文档,显著降低训练成本(超80%),并支持多种模型和算法,适用于问答、内容创作、教育等多个场景。

SPAR3D

SPAR3D是一种基于两阶段设计的单图像3D重建工具,能从单张2D图像生成高质量的3D网格。它结合点扩散模型与三平面Transformer技术,实现快速、精确的几何与纹理重建,并支持用户交互式编辑。适用于增强现实、影视制作、工业设计等多个领域。

MiniCPM

MiniCPM-o 2.6 是一款高性能的多模态大模型,具备 8B 参数量,支持视觉、语音及多模态直播等多种功能。其在图像处理、语音识别和实时交互方面表现优异,采用高效的 token 技术提升推理速度,可在端侧设备上运行。支持多种语言和音色配置,适用于智能助手、内容创作、教育、客服和医疗等多个领域。

Liner.ai

Liner.ai 是一款面向非专业程序员和数据科学家的机器学习工具,通过简单的点击操作即可训练模型,无需编写代码。该工具提供多种项目模板,涵盖图像、文本、音频和视频分类,以及对象检测和图像分割等任务。Liner.ai 支持在 CPU 上快速训练模型,并可在本地完成训练以保护数据隐私。此外,该工具还允许用户轻松地将模型导出到多个平台,适合初学者和专业人士使用。

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架,采用多智能体协作与动态迭代推理技术,提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合,支持精准检索与高质量生成,适用于教育、金融、医疗等多个领域,显著提升文档处理效率与准确性。

FunGPT

FunGPT 是一款基于 InternLM2.5 大模型开发的开源工具,专注于情感互动与情绪调节。它包含“甜言蜜语模式”和“犀利怼语模式”,分别用于提升用户情绪和释放压力。项目采用轻量化模型与 AWQ 量化技术,兼顾性能与效率。适用于创意启发、娱乐互动等多种场景,适合对情感交互感兴趣的开发者和用户。

PPTAgent

PPTAgent是由中国科学院软件研究所研发的AI驱动演示文稿生成工具,采用两阶段编辑方法,从文档自动生成结构清晰、内容一致的PPT。它结合大型语言模型与幻灯片分析技术,支持大纲生成、内容编辑与质量评估,适用于教育、企业、市场等多个场景,显著提升演示文稿制作效率与质量。