框架

UniFluid

UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架,支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入,结合Gemma模型和VAE技术,实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色,具备良好的下游任务迁移能力,适用于创意设计、内容创作等多个领域。

Airtest

​Airtest AI是一个强大的旨在实现跨台的移动应用程序测试的自动化开源框架。它为开发人员提供了一套全面的工具和功能,以简化测试过程并确保其应用程序的可靠性和性能。

Build Your Own X

一个帮助开发者提升编程能力的开源项目,Build Your Own X提供了丰富的教程和资源,用户通过从零开始重新实现各种技术(如Web服务器、数据库、操作系统等)。

Crawl4LLM

Crawl4LLM是由清华与CMU联合开发的智能爬虫系统,通过评估网页对大语言模型预训练的价值,提升数据获取效率。支持多种爬取模式,具备状态保存、数据可视化功能,并与DCLM框架兼容。采用多维度评分机制优化爬取策略,减少低价值内容抓取,降低对网站负担,适用于LLM预训练、数据集构建等场景。

Yesicon

一个支持中文搜索的高品质、开源、免费的矢量图标库。利用 ChatGPT API将Iconify 的21万个图标名做翻译并扩展成中文的关键词,使用户能以中文搜索到想要的图标。

Gemma 3 QAT

Gemma 3 QAT 是谷歌推出的开源 AI 模型,采用量化感知训练技术,在降低显存需求的同时保持高性能。它支持多模态任务,具备 128,000-token 长上下文处理能力,并可在消费级 GPU 和边缘设备上运行。适用于视觉问答、文档分析、长文本生成等场景,同时兼容多种推理框架,便于部署。

PydanticAI

一个Pydantic 团队开发的Python代理框架,可以通过生成式AI轻松构建生产级应用程序。

StableAnimator

StableAnimator是一款由复旦大学、微软亚洲研究院、虎牙公司及卡内基梅隆大学联合开发的高质量身份保持视频生成框架。它能够根据参考图像和姿态序列,直接生成高保真度、身份一致的视频内容,无需后处理工具。框架集成了图像与面部嵌入计算、全局内容感知面部编码器、分布感知ID适配器以及Hamilton-Jacobi-Bellman方程优化技术,确保生成视频的流畅性和真实性。StableAnimato