深度学习
VideoGrain
VideoGrain是由悉尼科技大学与浙江大学联合研发的零样本多粒度视频编辑框架,支持类别级、实例级和部件级的精细化视频修改。它通过调节时空交叉注意力和自注意力机制,提升文本提示对目标区域的控制能力,确保时间一致性与特征分离,显著优于现有T2I和T2V方法。该工具无需额外参数调整,具备高效计算性能,适用于影视制作、广告营销、内容创作等多个领域。
Midjourney V7
Midjourney V7 是一款基于深度学习的 AI 图像生成工具,具备草稿模式、语音交互、实时编辑等功能,显著提升生成速度与图像质量。其支持个性化配置,可根据用户偏好优化输出结果,适用于艺术、设计、娱乐等多个领域。系统采用先进神经网络技术,实现文本到图像的精准转换,并提供多种运行模式以满足不同需求。
Pixel Reasoner
Pixel Reasoner是由多所高校联合开发的视觉语言模型,通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作,如放大区域或选择帧,以捕捉细节。采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,提升视觉推理性能。在多个基准测试中表现优异,适用于视觉问答、视频理解等任务,广泛应用于科研、教育、工业质检和内容创作等领域。
AlphaQubit
AlphaQubit是一款由谷歌推出的基于人工智能的量子错误解码工具,主要功能包括错误识别与纠正、基于AI的解码、性能优化以及泛化能力提升。它采用量子纠错码(如表面码)、神经网络架构(Transformer)及软读出技术,通过一致性检查与实验数据微调,实现对量子比特状态的高精度预测与校正。AlphaQubit可广泛应用于量子计算机开发、药物发现、材料设计、密码学及优化问题解决等场景。
DreamClear
DreamClear是一款由中国科学院自动化研究所与字节跳动团队联合开发的高性能图像修复工具,利用深度学习技术将低质量图像恢复为高质量图像,同时注重隐私保护。其核心技术包括深度扩散先验、方差保持采样和自适应调制器混合模块,广泛应用于图像质量提升、细节恢复、隐私保护及商业项目开发等领域。
Manga Image Translator
Manga Image Translator 是一个开源的漫画图片文字翻译工具,基于 OCR 和机器翻译技术,实现对漫画和图片中文字的自动识别与翻译。它支持多语言翻译,包括日文、中文、英文和韩文,并具备图像合成能力,保持原图风格。工具提供批量处理和在线/离线翻译功能,适用于漫画爱好者、语言学习者以及出版商等用户群体。
