人工智能

浦语灵笔

浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型,具备7B规模的大型语言模型后端,能够处理长上下文、超高分辨率图像和细粒度视频理解,支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容,在多模态基准测试中表现出色,性能可与OpenAI的GPT-4V相媲美。

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

MimicMotion

MimicMotion是一款由腾讯研究团队开发的高质量人类动作视频生成框架。该框架利用置信度感知的姿态引导技术,确保视频帧的高质量和时间上的平滑过渡。通过区域损失放大和手部区域增强,显著减少了图像失真,增强了手部动作的细节表现。该框架还支持长视频生成,通过渐进式潜在融合策略,确保视频生成时的时间连贯性和细节丰富度。

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频,生成高质量的立体声音频或多轨乐谱,并支持自动编辑功能。琴乐大模型采用先进的技术框架,包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术,确保生成的音乐符合音乐理论和人类审美标准。

CodeGemma

CodeGemma是由Google开发的大型语言模型系列,专注于代码生成和理解。它包含三种不同规模的模型:2B预训练模型、7B预训练模型和7B指令微调模型。CodeGemma支持多种编程语言,能够提供代码补全、生成和自然语言理解等功能。经过大量英语编程和数学数据的训练,CodeGemma具备高准确性,能够在多种编程语言中表现出色,并能集成到各种开发环境中,提高开发效率。

Claude 3

Claude 3是由Anthropic开发的一系列先进的人工智能模型,旨在提供强大的认知能力和处理复杂任务的能力。该模型家族包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们分别针对不同的应用场景进行了优化。Claude 3 Opus在多个基准测试中超越了GPT-4/3.5和Gemini 1.0 Ultra/Pro,展示了其在智能水平上的显著优势。该

Make

Make-A-Character(简称Mach)是由阿里巴巴集团智能计算研究院开发的3D数字人生成框架,通过文本描述快速生成逼真的3D角色。该系统支持灵活的定制化、高度逼真的渲染、完整的角色模型及动画支持。其工作流程包括文本解析、视觉提示生成、参考肖像图像生成、密集面部坐标检测、几何生成、纹理生成、纹理修正、头发生成、资产匹配和角色装配。Mach生成的角色模型可以无缝集成到游戏和电影行业的标准CG

MusicFX

Google MusicFX是一款基于人工智能技术的音乐生成工具,支持用户通过文本描述来生成音乐,涵盖多种风格。它具备文本到音乐创作、自定义音乐参数、数字水印技术和版权安全过滤等功能,旨在降低音乐创作门槛,提升创作效率和质量。自发布以来,已有大量用户通过该工具创作出原创音乐作品。

Outfit Anyone

Outfit Anyone是一款由阿里巴巴智能计算研究院开发的高质量服装虚拟试穿开源项目。它采用双流条件扩散模型处理模特、服装和文本提示,通过衣物图像作为控制因素,生成逼真的虚拟试穿效果。该工具支持低图片输入要求,高质量试衣输出,以及多种服装搭配和姿势调整,适用于普通消费者、服装设计师、模特及电商从业者等不同群体。

墨鱼AIGC

墨鱼AIGC是一款基于先进人工智能技术的文案写作工具,提供包括原创写作、伪原创、内容改写、润色、续写、扩写、纠错、简化在内的多种写作辅助功能。它还支持工作总结计划生成、营销创意文案制作、学校课件及大纲生成以及商业文档创建。用户只需输入主题和描述,即可一键生成所需文案,极大地提高了工作效率和质量。