开源工具

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

HyperChat

HyperChat 是一款开源的 AI 聊天客户端,支持多种语言模型 API 接入,如 OpenAI、Claude 等。基于 MCP 协议构建,具备插件扩展能力,支持多对话空间、Agent 自定义、WebDAV 同步等功能。适用于个人学习、团队协作、内容创作、代码开发及企业服务等多种场景,提供跨平台运行与灵活部署方式,兼顾高效性与安全性。

Aide

Aide 是一款开源的 AI 辅助编程工具,具备代码注释、代码转换、智能粘贴、批量处理和变量重命名等功能,支持多种 AI 模型。它能够帮助开发者提高代码的可读性、简化跨语言开发、加速设计到代码的转换过程,并提供代码审查建议,从而提升开发效率。 ---

markmap

Markmap 是一款将 Markdown 文本转化为思维导图的工具,支持实时渲染和高度可定制化,兼容多种代码编辑器。它通过解析 Markdown 语法生成树状数据结构,并利用布局算法实现直观可视化展示,广泛应用于项目规划、学术研究及教学演示等领域。

OpenThinker

OpenThinker-32B 是一款由多所高校联合开发的开源推理模型,拥有 328 亿参数和 16,000 token 上下文支持,以高效的数据利用和严格的质量控制著称。模型基于少量数据实现优异性能,适用于数学、科学、代码生成等多种推理任务。全面开源,提供模型权重、代码和数据集,支持研究与开发扩展。

DeepCoder

DeepCoder-14B-Preview 是一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的开源代码生成模型,采用分布式强化学习技术,在 LiveCodeBench 基准上达到 60.6% 准确率。支持多语言代码生成、问题解决、补全优化、测试生成等功能,适用于开发、教育、竞赛等多个场景。项目提供完整训练数据与优化方案,推动 RL 在 LLM 中的应用。

Lumina

Lumina-Image 2.0 是一款开源图像生成模型,基于扩散模型与 Transformer 架构,具有 26 亿参数。它能根据文本描述生成高质量、多风格的图像,支持中英文提示词,并具备强大的复杂提示理解能力。模型支持多种推理求解器,适用于艺术创作、摄影风格图像生成及逻辑推理场景,兼具高效性和灵活性。

Vanna.AI

一个基于人工智能的Python软件包,只需提出问题即可从去数据库里找到相应的数据,帮助生成Snowflake、BigQuery、Athena和Postgres等数据库的SQL。

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台,基于 AI 技术提供高质量文字转语音服务,支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆,并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景,提升语音内容制作效率。

Cofounder

Cofounder是一款基于生成式AI技术的开源全栈开发工具,可依据单一提示生成完整的Web应用程序,涵盖后端、前端、数据库及API。其特色包括AI辅助原型设计、模块化设计系统和生成式UI,旨在简化开发流程并提升效率。适用于快速原型开发、敏捷开发、教育领域及企业数字化转型等多种场景。