人工智能

DAM

DAM-3B是英伟达开发的多模态大语言模型,专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域,生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络,有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理,适用于动态场景。模型基于Transformer架构,支持多模态输入,广泛应用于内容创作、智能交互及无障碍工具等领域。

浦语灵笔

浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型,具备7B规模的大型语言模型后端,能够处理长上下文、超高分辨率图像和细粒度视频理解,支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容,在多模态基准测试中表现出色,性能可与OpenAI的GPT-4V相媲美。

红薯通AI

红薯通AI是一款专为小红书用户设计的人工智能写作助手,提供高效的内容创作支持。它具备基于人工智能技术的创作辅助、改写助手、个性化创作建议、智能素材推荐和跨平台兼容性等功能,旨在提升用户的内容创作质量和效率。红薯通AI适用于自媒体运营、商家引流、产品销售、代运营服务、内容创作者、品牌营销、旅游和美食分享及生活分享等多种应用场景。

Make-A-Character

创新的3D角色生成框架,它通过文本描述快速创建逼真的3D角色,具有高度的定制性和逼真度。它结合了最新的人工智能技术,提供了一个直观、灵活且高效的角色创建解决方案,适用于多...

Bing Video Creator

Bing Video Creator是微软推出的AI视频生成工具,基于OpenAI的Sora模型,用户可通过输入文本描述快速生成5秒短视频。支持9:16格式,提供快速模式和标准模式,初始有10次免费生成机会。功能包括视频生成、多种风格选择、视频存储和分享等,适用于广告、教学、创意和个人娱乐等多种场景。

FaceCheck.ID

FaceCheck.ID是一款利用人工智能和面部识别技术的平台,帮助用户在互联网和社交媒体中定位和验证个人身份。它能够搜索社交媒体、新闻、博客及犯罪数据库,提供精确的面部匹配结果,同时具有高级过滤器和隐私保护功能,适用于身份核实、诈骗防范及犯罪嫌疑人追踪等多种场景。

VenturusAI

VenturusAI 基于GPT为您的商业理念提供建议的工具。无论您是想开始创业、推出新产品还是改进现有产品,VenturusAI 都可以帮助您进行全面的业务分析、目标受众识别、定制业务策略、营销和品牌指导以及创新理念和机会。

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。

FlexiAct

FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型,可在空间结构差异较大的场景下实现精准动作迁移,并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取(FAE),有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域,具有良好的应用前景。

创视元数字人

创视元通过其简单易用的界面和先进的AI技术,使得数字人视频创作变得快速、便捷。无论是企业宣传、教育培训还是其他应用场景,创视元都能提供高效的解决方案。