语言处理

VideoPhy

VideoPhy是一款由UCLA和谷歌研究院联合开发的基准测试工具,旨在评估视频生成模型的物理常识能力。它包含688条描述性字幕,通过人类和自动评估方式,衡量生成视频是否符合物理规则。VideoPhy不仅揭示了现有模型的不足,还推出了自动评估工具VideoCon-Physics,以推动模型性能的提升。其应用场景广泛,包括视频生成模型开发、计算机视觉研究、教育与培训以及娱乐产业等。

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

LangGraph

LangGraph 是一款基于图结构的 Agent 框架,专为构建状态化、多智能体系统设计,尤其适用于与大型语言模型(LLMs)协作的场景。其主要功能包括支持循环和条件逻辑、持久性状态管理、人工干预以及与 LangChain 的无缝集成。通过灵活的状态控制和条件边定义,LangGraph 能够高效支持复杂业务流程的自动化,同时具备强大的流式输出能力,广泛应用于客户服务、数据分析、业务流程优化和个性

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

JoyCoder

JoyCoder是一款由京东开发的AI编程助手,旨在提升研发效率。它提供了代码预测生成、注释生成代码、一键生成单元测试和接口文档等功能,并与主流IDE无缝集成。JoyCoder集成了本地行云DevOps能力,支持多种编程语言。其核心技术包括AI算法、代码上下文理解、模型训练和智能问答系统等,能够显著提升代码质量和开发效率。

UNI

UNI-CourseHelper是一款基于AI技术的学习辅助工具,支持多模态问答、长文解析、思维链推理等功能,覆盖多个学科领域。通过Markdown格式展示答案,支持图片和文档提问,适用于学生、教师及研究人员,提升学习效率与理解深度。

PydanticAI

一个Pydantic 团队开发的Python代理框架,可以通过生成式AI轻松构建生产级应用程序。

Trickle AI

一款基于AI的零代码开发工具,用户可以通过自然语言描述需求,快速生成网页、表单和应用,支持一键部署访问,Trickle适合小商家、创业者、设计师和普通开发者。

LIMO

LIMO是由上海交通大学研发的一种高效推理方法,通过少量高质量训练样本激活大语言模型的复杂推理能力。其核心假设是“少即是多推理假设”,即在预训练阶段已具备丰富知识的模型中,复杂推理能力可通过精心设计的样本被有效激发。LIMO在多个数学推理基准测试中表现优异,且数据使用效率极高,仅需1%的数据即可达到显著效果。适用于教育、科研、工业和医疗等多个领域。

Perplexity Deep Research

Perplexity Deep Research 是一款基于 AI 的深度研究工具,能执行多轮搜索并整合海量信息,生成结构化研究报告,支持多种格式导出。具备强大的推理能力与高效处理速度,适用于金融、市场、技术等多个领域,也可用于个人场景。在准确性方面优于多个主流模型,提供免费与付费两种使用模式。