学习

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型,支持 119 种语言,参数规模从 0.6B 到 8B。它能够精准捕捉文本语义,支持多语言处理、高效检索和语义相关性排序,并可通过个性化优化提升用户体验。在 MTEB 等任务中表现优异,适用于智能搜索、推荐系统、问答系统和教育领域等场景。

StealthGPT

StealthGPT是一款生成“不可检测”AI文本的工具,主要面向学生和内容创作者。它通过“人类化”处理,使AI生成的内容更接近人类写作,从而绕过AI检测工具。支持多语言写作、自动化引用、格式化、图片转答案、SEO写作以及PDF辅助阅读等功能。用户可选择不同版本以满足学习、创作和商业需求。

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型,针对深度思考大模型的“过度思考”问题,提出了一种全新的训练范式。模型融合“思考”和“非思考”能力,能根据问题难度自动切换模式,提升复杂任务表现。在代码和数学类任务中,性能提升可达20分。其技术原理包括最小提示干预和多阶段强化学习,适用于视频生成、文案创作、智能客服等多个场景。

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用,支持在 Android 设备上本地运行机器学习和生成式人工智能模型,无需联网。用户可切换不同模型,进行图像问答、文本生成、多轮对话等操作,并实时查看性能指标。应用支持自带模型测试,提供丰富的开发者资源,助力探索设备端 AI 的强大功能。

TEN VAD

TEN VAD是一款高性能的实时语音活动检测系统,专为企业级应用设计。它基于深度学习技术,能够精确区分语音和非语音信号,具有低延迟、轻量级和高精度的特点。支持多种平台和编程接口,适用于智能助手、客服机器人等场景,帮助构建更高效、更智能的对话系统。

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型,基于端到端强化学习实现“用图思考”能力,无需依赖监督微调。它在推理过程中动态调用图像工具,增强对细节的感知与理解,在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能,适用于教育、医疗、交通、安防和工业等多个领域。

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的开源工具,用于研究大型语言模型的内部工作机制。它通过生成归因图揭示模型在生成特定输出时的决策路径,帮助研究人员追踪模型的决策过程、可视化特征关系并测试假设。支持多种主流模型如 Gemma 和 Llama,提供交互式可视化界面,便于探索和分析模型行为。其功能包括生成归因图、可视化与交互、模型干预以及支持多种模型。

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型,专注于将美国手语(ASL)实时翻译成英语文本。通过多模态训练方法,结合视觉和文本数据,实现高准确率和低延迟的翻译,响应时间低于0.5秒。支持端侧部署,保护用户隐私,适用于教育、医疗和公共服务等场景。