开源项目

PicMenu

PicMenu是一款利用AI技术实现菜单可视化的工具,用户可通过上传菜单图片自动生成数字化展示图,支持多格式导出,适用于社交媒体、网站及打印场景。未来版本计划增加菜品详细信息展示,同时具备标签过滤功能,提升用户体验。PicMenu目前为开源项目,基础功能免费提供。

SkyCode

奇点智源发布的多语言开源编程大模型,采用GPT3模型结构,支持Java, JavaScript, C, C++, Python, Go, shell等多种主流编程语言,并能理解中文注释。模型可以对代码进行补全,进行解题等操作。

Flame

Flame是一款开源的多模态AI模型,能够将UI设计截图转换为高质量的现代前端代码。它支持React等主流框架,具备动态交互、组件化开发和高代码质量的特点。Flame通过创新的数据合成方法提升代码多样性与准确性,适用于快速原型开发、提升开发效率及辅助学习等多种场景。其训练数据、模型和测试集均已开源,为前端开发提供了高效的工具支持。

MiniMind

MiniMind 是一款轻量级开源语言模型项目,具备极低的训练成本和高效的训练流程。其最小模型仅需 25.8M 参数,可在普通 GPU 上运行,支持多模态能力,如视觉语言模型 MiniMind-V。项目提供完整的训练代码,涵盖预训练、微调、LoRA、DPO 和模型蒸馏,兼容主流框架,适合初学者和开发者快速上手并应用于多个领域。

LeRobot

LeRobot是一个由HuggingFace开发的开源AI聊天机器人项目,旨在简化机器人技术的学习过程。它提供了预训练模型、数据集和模拟环境,支持模仿学习和强化学习,适用于多种机器人硬件。该项目具有多用途、可扩展的特点,通过提供预训练模型、数据集共享、模拟环境和多功能库等功能,帮助用户加速机器人项目的开发进程。

Pipecat

Pipecat是一款开源Python框架,用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能,支持与主流AI平台集成,采用模块化管道架构,提升开发效率。基于帧的实时处理机制确保流畅交互,适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

TTS-vue

TTS-Vue是一个开源的桌面应用程序,它利用了微软的语音合成技术,为用户提供了一个简单易用的文本到语音转换工具。

Multiverse

Multiverse是由Enigma Labs开发的全球首个基于AI生成的多人游戏模型,支持实时交互与动态世界生成,确保玩家视角一致。其核心技术包括联合动作向量和双视角通道堆叠,有效解决多人游戏中的同步难题。模型训练成本低,可在普通PC上运行,且项目全面开源,适用于多人游戏开发、VR/AR、AI训练、教育等多个领域。

Suna

Suna是一款由Kortix推出的开源AI代理工具,支持浏览器自动化、文件管理、网络爬虫、API集成等多种功能,适用于数据分析、市场研究、个人事务处理等场景。它提供直观的交互界面,支持自托管,并具备强大的任务自动化能力。Suna适用于商业分析、数据收集、教育研究及客户服务等多个领域,帮助用户提高工作效率。

Casevo

Casevo是一款由中国传媒大学研发的开源社会传播模拟系统,结合大语言模型与多智能体技术,用于模拟人类认知、决策和社会交互,分析并预测社会传播现象。其模块化设计支持从场景设定到复杂社会网络建模的全流程仿真,适用于新闻传播、社会计算、公共政策等多个领域,助力研究者进行理论构建与策略优化,推动AI在社会科学中的应用发展。