学习

Edicho

Edicho 是一种基于扩散模型的图像编辑工具,能够在多图像间实现一致性编辑,无需额外训练。其核心技术包括 Corr-Attention 注意力模块和 Corr-CFG 去噪策略,通过显式图像对应关系提升编辑质量与一致性。适用于图像修复、风格转换、内容创作、医学影像增强等场景,具备良好的兼容性与扩展性。

Wispr Flow

Wispr Flow 是一款基于AI技术的语音转文字工具,支持100多种语言,具备自动编辑、上下文感知和低音量识别等功能,提升写作与沟通效率。提供免费基础版及付费专业版和团队版,适用于写作、商务、学习等多种场景,注重用户隐私保护,操作便捷自然。

APB

APB是一种由清华大学等机构开发的分布式长上下文推理框架,通过稀疏注意力机制和序列并行推理提升大模型处理长文本的效率。采用更小的Anchor Block和Passing Block,结合查询感知的上下文压缩技术,减少计算开销并精准传递关键信息。在128K长度文本上,APB推理速度比Flash Attention快10倍,比Star Attention快1.6倍,适用于多种分布式环境和模型规模,广泛

Topaz Video AI 4

一家为专业人士提供基于人工智能的照片和视频增强软件的公司。他们的软件利用深度学习来提高图像质量,包括降噪、锐化、提升分辨率等功能。

Optima

Optima是一款由清华大学研发的框架,旨在通过迭代生成、排名、选择和训练过程,优化基于大型语言模型的多智能体系统。它不仅提高了通信效率和任务完成质量,还支持大规模复杂任务处理,同时集成了强化学习与蒙特卡洛树搜索技术以生成优质训练数据。Optima适用于信息不对称问答、复杂推理任务、软件开发等多个领域,具有高扩展性和低计算成本的特点。

Kimina

Kimina-Prover是由月之暗面与Numina团队联合开发的大型数学定理证明模型,采用强化学习技术,在Lean 4语言中实现类人逻辑推理与严谨证明。其“形式化推理模式”结合非形式化推理与代码片段,提升解题效率。在miniF2F基准测试中达到80.7%准确率,显著优于现有模型。具备高样本效率与良好可扩展性,适用于科研、软件测试、算法验证等多个领域。1.5B和7B参数版本已开源。

TIGER

TIGER是由清华大学研发的轻量级语音分离模型,采用时频交叉建模策略与多尺度注意力机制,有效提升语音分离性能,同时显著降低计算和参数开销。模型通过频带切分优化资源利用,适应复杂声学环境,广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

ColorFlow

ColorFlow是一款由清华大学与腾讯ARC实验室联合研发的图像序列着色模型,具备检索增强、上下文学习及超分辨率技术,能够精准保持个体身份并实现高质量着色。该工具在漫画、动画制作、老照片修复及艺术创作等领域具有广泛应用价值,同时支持学术研究和技术探索。

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

LearnCoach

LearnCoach 是一款面向 K12 学生的 AI 学习平台,提供个性化课程、智能辅导和多种学习模式,如辅导课程与视频播放列表。平台包含丰富的视频教程和考试题库,帮助学生掌握重点知识,提升学习效率。支持语音输入与全天候访问,适用于日常学习、考前复习及课堂教学辅助,助力学生高效学习与成绩提升。