深度学习

Vocalist.ai

一款可以使用定制的声乐模型将人声录音转换为专业品质的歌唱和说唱表演的录音室级AI声音转换工具,在几秒钟内将您的声音转变为世界一流的歌手和说唱歌手。

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型,专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述,结合对比学习方法,实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色,准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

MangaNinja

MangaNinja是一款基于参考图像的线稿上色工具,采用Reference U-Net和Denoising U-Net架构,结合补丁重排模块与点驱动控制方案,实现高精度、细粒度的上色效果。其可处理复杂场景、多参考图像协调及极端姿势等问题,广泛应用于漫画创作、插画设计、平面设计和数字艺术等领域。

clone

Clone-Voice是一款基于深度学习的声音克隆工具,支持16种语言的文本转语音及声音风格转换,具有友好的操作界面和较低的硬件要求。它被广泛应用于视频制作、语言学习、有声出版物创作、广告宣传及游戏开发等领域,为用户提供多样化的个性化声音解决方案。

Plask

​Plask,一种基于 Web 的 AI 解决方案,用于生成 生成具有定制姿势和角度的3D 图像。 而无需花费数小时在绘图、摆姿势和渲染上。

Gemini 2.5 Pro

Gemini 2.5 Pro 是谷歌推出的高性能 AI 模型,具备深度推理能力,可在多模态输入下进行复杂任务处理。支持文本、图像、音频、视频及代码等多种输入形式,拥有 100 万 token 的上下文窗口。在推理、代码生成和多模态任务中表现优异,适用于学术研究、软件开发、创意工作和企业应用等多个领域。

SHMT

SHMT是一种基于自监督学习的高级化妆转移技术,由阿里巴巴达摩院与武汉理工大学联合研发。该技术无需成对训练数据,可将多种化妆风格自然迁移到目标面部图像上,通过“解耦-重建”策略和迭代双重对齐模块,实现高精度的纹理控制与对齐校正。适用于图像处理、虚拟试妆、影视设计等多个领域,具有高效、灵活、高质量的特点。

Devstral

Devstral是由Mistral AI和All Hands AI推出的编程专用AI模型,专为软件工程任务设计。它在SWE-Bench Verified基准测试中表现优异,能处理复杂代码库、识别组件关系并修复细微错误。该工具轻量级,支持本地部署和企业级应用,具备代码生成与优化、集成开发工具、持续学习等能力,适用于本地开发、企业开发、IDE集成等多种场景。

PGTFormer

PGTFormer是一款先进的视频人脸修复框架,通过解析引导的时间一致性变换器恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,通过语义解析选择最佳人脸先验,并结合时空Transformer模块和时序保真度调节器,实现了高效且自然的修复效果。其主要功能包括盲视频人脸修复、语义解析引导、时间一致性增强、时空特征提取、端到端修复和时序保真度调节。PGTFormer适用于电影和视频制作、视频

Bocha Semantic Reranker

Bocha Semantic Reranker是一款基于语义的排序模型,用于提升搜索和问答系统的准确性。它通过二次优化初步排序结果,评估查询与文档的语义相关性,并为文档分配语义得分。该工具支持多种语言模型,适用于搜索引擎优化、问答系统、推荐系统和智能客服等领域,旨在改善用户体验并提高系统效率。