AI项目与工具

万相2.1

通义万相2.1是一款基于自研VAE和DiT架构的AI视频生成工具,支持高精度视频编解码与中文文字生成,具备复杂动作展现、物理规律还原、中英文特效生成及艺术风格转换等功能。同时支持图像生成,适用于影视制作、广告视频、教学辅助、文化创作等多个领域,提供高效的创作体验与高质量输出。

Fineshare FineVoice

Fineshare FineVoice 是一款多功能 AI 配音生成工具,支持文本转语音、语音转文本、AI 变声、声音克隆和音频生成等功能。提供超过 1500 种声音和 149 种语言选项,适用于视频制作、播客、教育、营销等多种场景,助力用户高效创作高质量的多语言内容。具备强大的自定义能力和便捷操作,适合个人与企业用户使用。

SignLLM

SignLLM是一款支持多语言手语生成的AI模型,能将文本转换为自然流畅的手语视频,覆盖包括ASL、GSL、LSA、KSL在内的八种手语。其核心技术包括离散化与层次化表示、自监督学习、符号-文本对齐等。该工具可用于教育、医疗、法律、媒体等多个场景,提升听障人群的沟通便利性与信息获取能力。

爱扒谱

爱扒谱是一款基于人工智能技术的在线音乐处理平台,提供一键扒谱、音轨分离、AI音乐生成及MP3转MIDI等功能。它适用于音乐创作者、教师、学生及爱好者,能够显著提升音乐创作效率和学习体验。其主要特点包括高效便捷、智能精准、多平台支持及用户友好性。

AgentSquare

AgentSquare是一款由清华大学团队研发的模块化设计工具,专注于在大型语言模型代理的设计空间内实现高效搜索。其核心功能包括模块化设计、模块重组与进化、性能预测及自动化搜索等,通过标准化接口支持模块间无缝集成,广泛应用于客户服务、个人助理、教育、医疗及金融等多个领域,旨在提升智能体性能并降低推理成本。

MedRAG

MedRAG是由南洋理工大学研发的医学诊断模型,结合知识图谱与大语言模型(LLM),提升医学诊断的精准度与效率。该模型构建了四层细粒度知识图谱,支持多模态输入,具备主动补问机制,能有效补充患者信息,提升诊断准确性。在真实数据集上,其诊断准确率提升了11.32%。MedRAG可应用于急诊、慢病管理、医学教育等多个领域,为医疗决策提供科学依据。

Recap

Recap是一款基于大型语言模型的智能工具,支持文本、网页、PDF和视频等内容的快速总结与分析,提供分段摘要、可视化图表及多语言支持。适用于学术研究、教学、市场分析、内容创作和知识管理等多个场景,提升信息处理效率与理解深度。

URM

URM是由阿里妈妈开发的通用推荐模型,结合大语言模型与电商领域知识,提升推荐效果。其采用多模态融合与Sequence-In-Set-Out生成方式,支持多场景、多目标、长尾及发现性推荐。具备高效率、零样本学习能力,适用于工业级推荐系统,已应用于阿里妈妈展示广告场景,优化用户体验与商家投放效果。

InvSR

InvSR是一款基于扩散模型逆过程开发的图像超分辨率工具,通过深度噪声预测器和灵活采样机制,从低分辨率图像恢复高质量高分辨率图像。它支持多种应用场景,包括文化遗产保护、视频监控、医疗成像及卫星影像分析,同时兼顾计算效率与性能表现。

AnimateAnything

AnimateAnything是一项由浙江大学与北京航空航天大学联合研发的统一可控视频生成技术。它能够根据相机轨迹、文本提示及用户动作注释等多样化控制信号生成高质量视频,并通过多尺度特征融合网络将这些信号转化为逐帧光流进行精准引导。此外,为解决大范围运动带来的视频闪烁问题,该技术采用了基于频率的稳定模块,显著增强了视频的时间稳定性。主要应用于影视制作、虚拟现实、游戏开发以及教育培训等多个领域。