R

DeepL Voice

DeepL Voice是一款由DeepL推出的即时语音翻译服务,分为DeepL Voice for Meetings和DeepL Voice for Conversations两大模块。前者针对虚拟会议设计,支持实时字幕生成和跨语言协作,兼容超过30种语言并集成Microsoft Teams;后者专注于移动设备上的面对面语音翻译。凭借其低延迟、高性能和高安全性(ISO 27001认证),DeepL

Markdown

Markdown-to-Image 是一个基于 React 的开源工具,可将 Markdown 文本转换为图像,支持多种输出格式和自定义样式。其应用场景包括社交媒体内容创作、技术文档可视化、博客标题设计以及教育和营销材料制作,具备强大的灵活性和易用性。

ARTROOM

ARTROOM是一款集成了AI技术的图像生成与编辑平台,支持用户通过图层控制、Loras集成及ControlNets技术生成原创艺术作品或参考图片。平台具备丰富的功能,涵盖个性化定制、灵感获取等,并适用于个人艺术创作、企业营销、教育研究等多个领域,助力用户高效完成高质量视觉内容。

Buysmart.AI

Buysmart.AI,基于大模型的智能电商购物ai助手,百度“文心杯”创业大赛一等奖。

AndroidGen

AndroidGen 是一个基于大语言模型(LLM)的智能代理框架,专注于提升 Agent 在数据稀缺环境下的任务执行能力。它通过无监督方式收集用户操作轨迹并进行训练,结合 ExpSearch、ReflectPlan、AutoCheck 和 StepCritic 四个核心模块,增强任务规划、执行和评估能力。该框架在 AndroidWorld 和 AitW 基准测试中表现出色,适用于自动化任务处理、

Droidrun

Droidrun是一款基于AI的Android设备自动化工具,结合视觉识别、UI解析与LLM推理技术,支持自然语言控制和多平台部署。它能执行复杂任务自动化,具备自愈机制、多LLM兼容性及丰富的扩展接口,适用于AI助手、数据交互、测试验证等多种场景。

ShareX

ShareX是一款免费且开源的高级截图工具和屏幕记录器,不仅可以截图,还可以录屏,自动添加水印和阴影,适用于Windows系统。

LatentSync

LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需中间3D或2D表示,可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法,提升视频时间一致性,并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。

Motion Dreamer

Motion Dreamer是由香港科技大学(广州)研发的视频生成框架,采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制,支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能,已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。