模型

PartGen

PartGen是一款基于多视图扩散模型的3D对象生成与重建工具,可从文本、图像或现有3D模型生成由意义明确部分组成的三维对象。它具备自动部分分割、3D重建及基于文本指令的部分编辑等功能,广泛应用于3D打印、游戏开发、影视制作等领域,显著提升工作效率并优化用户体验。

PeterCat

PeterCat是一款基于开源技术的智能问答机器人,能够通过自动构建的知识库与GitHub相关功能交互,提供对话式答疑服务。它支持多模型适配、多集成方式,并具备强大的自然语言处理能力和自动化工具支持。主要应用场景涵盖开源项目支持、企业内部论坛、在线教育平台以及客户服务等领域,旨在提升技术交流与问题解决效率。

启元重症大模型

启元重症大模型是一款面向ICU环境的医疗人工智能系统,依托于腾讯的混元大模型架构,集成了庞大的医学知识库和先进的自然语言处理技术,能够快速生成病历、总结病情、提供诊疗建议等,大幅提升了重症医疗的服务质量和工作效率。其核心技术包括医学知识图谱构建、数据处理与分析、模型压缩优化以及临床逻辑推理能力,适用于多种应用场景如ICU监护、智能辅助诊疗、病历自动化生成等。

MNN

MNN是一个由阿里巴巴开源的轻量级深度学习推理框架,支持多种模型格式和网络结构,具备高性能、低内存占用及跨平台特性。它通过模型量化、计算图优化和异构计算等技术,在移动设备和嵌入式系统中实现高效推理。主要功能涵盖模型转换、硬件加速、内存优化及多模型支持,广泛应用于图像识别、语音处理、智能家居及工业检测等领域。

braintrust

Braintrust 是一个端到端的 AI 工具平台,专注于通过迭代式的工作流帮助公司快速构建高效的 AI 应用。它提供了强大的提示调整、评分器配置及数据集管理功能,支持从模型评估到质量控制的全流程优化。此外,Braintrust 的直观界面和代码库集成特性使其适用于各类用户群体,广泛应用于 AI 产品开发、模型评估、质量控制及数据集构建等领域。

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具,能够利用多个文本提示生成连贯且高质量的视频内容,无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡,同时在MPVBench基准上表现出色,适用于电影、游戏、广告及新闻等多个领域。

联通元景

联通元景(UniT2IXL)是一款基于国产昇腾AI平台开发的中文原生文生图模型,具备卓越的中文语义理解和高质量图像生成能力。它通过复合语言编码模块优化中文长文本处理,并利用大量中文图文数据进行预训练,确保信息完整性和生成质量。该模型支持国产化算力环境,适配多种应用场景,包括文物数字化、个性化服装定制、智能家居设计、广告创意生成及在线教育等,为企业提供高效解决方案。

Valley

Valley是一款由字节跳动开发的多模态大语言模型,擅长处理文本、图像和视频数据,广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能,支持灵活调整令牌数量,实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色,尤其在参数规模较小的情况下依然保持优异的成绩。

ModernBERT

ModernBERT是一种基于Transformer架构的新型编码器-only模型,是对经典BERT模型的深度优化版本。它通过在大规模数据集上的训练,提升了对长上下文的理解能力,并在信息检索、文本分类、实体识别等多个自然语言处理任务中展现出卓越性能。此外,ModernBERT在速度和资源效率方面均有显著改进,适合应用于多个领域。

VidTok

VidTok(Video Tokenizer)是一款由微软开发的开源视频处理工具,通过高效的算法将视频内容转化为“视频词”,支持连续与离散分词化,具有灵活的压缩率和多样的隐空间,适用于视频生成、内容建模及数据压缩等场景。其混合模型架构结合卷积与采样模块,辅以有限标量量化技术,实现了高质量视频重建与高效数据处理。