模型

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能AI模型,具备200万tokens的上下文窗口,支持复杂任务处理、多语言理解和代码生成。它能调用外部工具如Google搜索和代码执行环境,提升信息获取与问题解决能力。适用于编程辅助、数据分析、学术研究、教育及创意内容生成等多个领域,是当前Google系列模型中的佼佼者。

eeChat

简洁易用的大模型本地部署工具,支持开源模型 DeepSeek-R1, DLlama 3, Phi-4, Mistral, Gemma 3 等模型的本地化部署,专注于数据安全、隐私保护和高效的AI对话体验。

Bytespider

Bytespider 是一款由字节跳动推出的网络爬虫工具,凭借极高的数据抓取速度和多线程处理技术,支持互联网数据的高效采集与分析。该工具不仅用于优化字节跳动的AI语言模型,还广泛应用于搜索引擎构建、市场情报分析、客户洞察、内容监控和学术研究等多个场景。

书生

书生通用大模型体系是一套全面、高效的AI解决方案,涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

华为盘古AI大模型

华为的盘古ai大模型是华为云推出的一项人工智能技术。该大模型包含了多个领域的大型模型,包括自然语言处理(NLP)大模型、计算机视觉(CV)大模型、多模态大模型、预测大模型和科学计算大模型。

MotionCanvas

MotionCanvas是一种图像到视频生成工具,能将静态图像转化为动态视频。它提供相机与物体运动的联合控制,支持复杂轨迹设计和局部运动调整,具备3D感知能力,可生成高质量长视频。适用于电影制作、动画创作、VR/AR、游戏开发及教育等多个领域。

MarDini

MarDini是一款融合掩码自回归(MAR)和扩散模型(DM)的先进视频生成工具,支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配,提高了视频生成的效率与灵活性,并具备从无标签数据中进行端到端训练的能力,展现出强大的可扩展性与效率。

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型,融合视觉与语言处理能力,支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构,具备多模态理解、多语言处理、文档解析、科学推理等能力,广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略,提升处理效率与准确性。