学习

LIMO

LIMO是由上海交通大学研发的一种高效推理方法,通过少量高质量训练样本激活大语言模型的复杂推理能力。其核心假设是“少即是多推理假设”,即在预训练阶段已具备丰富知识的模型中,复杂推理能力可通过精心设计的样本被有效激发。LIMO在多个数学推理基准测试中表现优异,且数据使用效率极高,仅需1%的数据即可达到显著效果。适用于教育、科研、工业和医疗等多个领域。

EMAGE

EMAGE是一款基于音频输入生成全身手势的AI框架,可同步生成面部表情、肢体动作及整体运动。通过掩蔽音频手势变换器和多模块VQ-VAE建模,实现高质量、多样化的手势生成。适用于虚拟现实、动画制作、数字人交互等领域,提升虚拟角色表现力与交互自然度。

JoyGen

JoyGen是由京东科技与香港大学联合开发的音频驱动型3D说话人脸视频生成框架,能够实现唇部动作与音频信号的精准同步,并提供高质量的视觉效果。该工具采用单步UNet架构进行高效视频编辑,基于130小时中文视频数据集训练,在唇音同步和视觉质量方面表现优异。适用于虚拟主播、动画制作、在线教育及多语言视频生成等多个领域,为视频内容创作提供了创新解决方案。

MatAnyone

MatAnyone是一款由南洋理工大学S-Lab实验室与商汤科技联合开发的视频抠图框架,专注于复杂背景下人像视频的精准分割。采用一致内存传播和区域自适应内存融合技术,确保视频中目标的语义稳定性和边界细节精度。结合大规模分割数据和优化的训练策略,提升了模型在真实场景下的性能。适用于影视制作、直播、广告、游戏开发等多个领域,具备高精度、强适应性和良好的交互性。

Le Chat APP

Le Chat APP是一款由Mistral AI推出的AI对话工具,支持自然语言交互、实时搜索、文档分析与图像生成。提供免费基础版和付费Pro版,支持多语言及移动端使用,适用于学习、旅行规划、创意激发等多种场景。

SynCD

SynCD是由卡内基梅隆大学与Meta联合开发的高质量合成训练数据集,用于提升文本到图像模型的定制化能力。它通过生成同一对象在不同视角、光照和背景下的图像,结合共享注意力机制和3D资产引导,确保对象一致性。该数据集支持无调优模型训练,提升图像质量和身份保持能力,广泛应用于个性化内容生成、创意设计、虚拟场景构建等领域。

LipRead Pro

LipRead Pro 是一款基于AI技术的视频唇读工具,可将视频中的唇部动作转换为文字,支持多语言和口音识别。其高精度算法确保了文字输出的准确性,适用于内容创作、无障碍辅助、安全监控、历史档案修复等多种场景。操作简便,处理高效,注重用户数据隐私保护,适合专业用户和普通用户使用。

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能AI模型,具备200万tokens的上下文窗口,支持复杂任务处理、多语言理解和代码生成。它能调用外部工具如Google搜索和代码执行环境,提升信息获取与问题解决能力。适用于编程辅助、数据分析、学术研究、教育及创意内容生成等多个领域,是当前Google系列模型中的佼佼者。

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开发的开源 Android 应用,支持多种大语言模型在本地运行。具备多模态交互能力,可处理文本、图像、音频等多种输入输出任务。应用经过 CPU 推理优化,运行效率高,支持离线使用,保障数据安全。内置 Qwen、Gemma、Llama 等主流模型,适用于内容创作、智能助手、语言学习及创意设计等多种场景。

BitsAI

BitsAI-CR是字节跳动推出的基于大型语言模型的自动化代码审查工具,采用两阶段处理流程提升审查精度。通过219条规则检测潜在问题,并结合“过时率”指标动态优化规则。支持多语言审查,可无缝集成到现有流程中,自动识别问题、生成评论并跟踪修改情况,提升代码质量与开发效率。