人工智能

MMaDA

MMaDA(Multimodal Large Diffusion Language Models)是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计,结合混合长链推理微调策略与UniGRPO强化学习算法,提升跨模态任务性能。MMaDA在多项任务中表现优异,适用于内容创作、教育辅助、智能客

Agent Squad

Agent Squad 是一个轻量级、开源的多 Agents 框架,用于协调多个 AI Agents 处理复杂对话。它支持 Python 和 TypeScript 两种语言,具备智能意图分类、灵活的 Agent 响应(流式与非流式)、上下文管理等功能,并提供模块化安装和可扩展架构。适用于智能客服、旅行规划、企业助手等场景,帮助开发者快速构建高效的多 Agents 系统。

15个AI生成PPT的工具和网站,智能制作精美的幻灯片

本文介绍了15款AI驱动的PPT生成工具,这些工具通过人工智能技术简化了PPT的创建过程,提升了演示文稿的专业度和吸引力。它们支持一键生成高质量PPT、智能内容生成、模板自定义、文本驱动创作、多格式导出等功能,适用于多种场合,包括商务、教育、科研等领域,极大地提高了工作效率和演示效果。

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库,筛选、分析最相关的文献,整合不同文献中的观点,为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略,实现高效的多步推理和信息检索能力,适用于学术研究、商业决策和日常生活等多种场景。

HoloTime

HoloTime 是由北京大学深圳研究生院与鹏城实验室联合开发的全景 4D 场景生成框架,可将单张全景图像转化为动态视频,并进一步重建为沉浸式 4D 场景。其核心技术包括全景动画生成器(Panoramic Animator)和时空重建技术,结合 360World 数据集进行训练,实现高质量的视频生成与场景重建。该工具支持 VR/AR 应用,适用于虚拟旅游、影视制作、游戏开发等多个领域,提供高效的沉

Miko翻译

一款免费AI翻译工具,提供高效的翻译服务。Miko翻译的翻译准确度高,速度快,适合日常使用和专业翻译。

HourVideo

HourVideo是一项由斯坦福大学研发的长视频理解基准数据集,包含500个第一人称视角视频,涵盖77种日常活动,支持多模态模型的评估。数据集通过总结、感知、视觉推理和导航等任务,测试模型对长时间视频内容的信息识别与综合能力,推动长视频理解技术的发展。其高质量的问题生成流程和多阶段优化机制,使其成为学术研究的重要工具。

AI塔罗助手

专为塔罗解读训练的AI智能体,资深塔罗师训练AI千字解析,助你解读人生迷雾, 滑动触摸抽牌,让你亲身感受每张塔罗牌的独特能量,随心而动,寻找内心的答案。

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备,支持多模态感知与多维表达,提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音,接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域,提升服务效率与用户体验。

Alpha Engine

Alpha Engine 是一款面向资本市场的 AI 投研工具,提供全面的数据库、智能搜索、会议记录、文件转录、摘要提取及翻译等功能。通过 AI 技术提升投研效率,支持实时数据更新与个性化知识管理,适用于分析师、投资者及研究人员,助力精准决策与信息获取。