深度学习

Veo

Veo是Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容。Veo具备深入的自然语言理解能力,能够准确解析用户的文本提示,生成高质量、高分辨率的视频。其主要功能包括高分辨率视频输出、自然语言处理、风格适应性、创意控制与定制、遮罩编辑功能、参考图像与风格应用、视频片段的剪辑与扩展以及视觉连贯性。Veo技术目前仍处于实验阶段,但已在电影制作

CapsWriter

CapsWriter-Offline是一款基于PC端的离线语音输入与字幕转录工具,支持实时语音转文字功能,具备高准确率和无限时长录音能力。其核心技术依托于深度学习模型,可处理中英文混合语音,并提供热词自定义功能以提升特定术语的识别效果。此工具适用于会议记录、学术讲座、视频字幕生成等多种场景,同时确保用户数据的安全与隐私。 ---

LogMeal Food AI

LogMeal Food AI是一家为食品识别、食品跟踪和快速餐厅结账提供人工智能和深度学习解决方案的公司。

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具,通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块,确保生成的音频与视频帧或文本描述时间轴完全对应,适用于影视制作、游戏开发、虚拟现实等多种场景,极大提升了跨模态数据处理的能力和应用效率。

HippoRAG 2

HippoRAG 2是俄亥俄州立大学开发的检索增强生成框架,旨在提升RAG系统在模拟人类长期记忆方面的表现。它通过个性化PageRank算法、深度段落整合和知识图谱构建,实现高效的多跳推理与上下文感知检索。系统具备持续学习能力,可实时吸收新知识,适用于智能问答、知识管理、教育、医疗及法律金融等领域。

瑞智病理大模型

瑞智病理大模型(RuiPath)是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统,覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据,实现高效、精准的辅助诊断,支持交互式审核流程,提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台,适用于临床诊断、基层医疗、医学教育等多个场景,推动病理诊断智能化发展。

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具,支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能,兼容U-Net和DiT架构,并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程,提升生成质量与可控性,适用于内容创作、电影制作、广告营销、教育培训等多个领域。

ReCamMaster

ReCamMaster 是由浙江大学与快手科技联合开发的视频重渲染框架,支持根据用户指定的相机轨迹生成新视角视频。采用预训练模型与帧维度条件机制,实现视频视角、运动轨迹的灵活调整。具备视频稳定化、超分辨率、外扩等功能,适用于视频创作、后期制作、自动驾驶和虚拟现实等领域,提升视频内容的表现力与质量。

UltraMem

UltraMem是字节跳动推出的超稀疏模型架构,通过优化内存访问和计算效率,显著降低推理成本并提升速度。其核心技术包括多层结构改进、TDQKR和IVE,使模型在保持性能的同时具备更强的扩展性。适用于实时推理、大规模模型部署及多个行业场景。

VideoGrain

VideoGrain是由悉尼科技大学与浙江大学联合研发的零样本多粒度视频编辑框架,支持类别级、实例级和部件级的精细化视频修改。它通过调节时空交叉注意力和自注意力机制,提升文本提示对目标区域的控制能力,确保时间一致性与特征分离,显著优于现有T2I和T2V方法。该工具无需额外参数调整,具备高效计算性能,适用于影视制作、广告营销、内容创作等多个领域。