AI项目与工具

逻辑智能

逻辑智能（InsiderX）是一款企业级AI工具平台，支持构建智能化工作流，具备多模态感知和自主决策能力，可处理文本、图像和语音数据，实现业务流程自动化。平台支持私有知识库构建、数据安全保障及内容审查，广泛应用于金融、法律、生物医药等行业，助力企业提升效率和降低成本。

AI项目与工具 2025年06月12日 28 点赞 0 评论 701 浏览

VidSketch

VidSketch是由浙江大学研发的视频生成框架，支持通过手绘草图和文本提示生成高质量动画。它采用层级草图控制策略和时空注意力机制，提升视频连贯性和质量，适用于不同技能水平的用户。具备多样化风格支持和低门槛创作特点，广泛应用于创意设计、教学、广告及内容创作等领域。

AI项目与工具 2025年06月12日 48 点赞 0 评论 701 浏览

ImageRAG

ImageRAG 是一种基于检索增强生成（RAG）技术的图像生成工具，通过动态检索相关图像提升文本到图像模型的生成能力。它能够增强对罕见概念的理解与生成，提升图像的真实度和相关性，支持多模态生成与个性化定制。无需额外训练即可适配多种 T2I 模型，广泛应用于创意设计、品牌推广、教育及影视等领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 701 浏览

Embed3

Embed3是一款由Cohere研发的多模态AI搜索模型，支持从文本和图像生成嵌入向量，实现智能化的跨模态搜索。它能够处理多种语言，支持复杂数据集的快速检索，并提供一致的用户体验。主要功能包括多模态搜索能力、跨语言支持、增强型检索-生成系统以及简化数据管理。适用于商业智能、电子商务、设计创作、文档管理和客户服务等多个领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 701 浏览

Umi

Umi-OCR 是一款离线 OCR 工具，支持图片、截图和 PDF 文档的文字识别，具备数学公式与二维码识别功能，可生成可搜索 PDF。支持多语言识别与界面切换，提供命令行和 HTTP 接口调用，适用于文档数字化、数据录入、教育等多个场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 701 浏览

Fish Speech 1.5

Fish Speech 1.5是一款基于深度学习的文本转语音（TTS）工具，支持多语言文本输入，通过Transformer、VITS、VQVAE和GPT等技术实现高质量语音合成。它具备零样本和少样本语音合成能力，延迟时间短，无需依赖音素，泛化性强，且支持本地化部署。Fish Speech 1.5可应用于有声读物、辅助技术、语言学习及客户服务等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 700 浏览

算了么

算了么是一款基于GPU资源共享的平台，用户可通过闲置算力参与科学计算并获取收益。平台具备智能调度、灵活控制、收益追踪等功能，适用于科研、游戏、气候模拟等多个领域。用户可随时开启或关闭任务，确保不影响日常使用，同时为科技进步贡献力量。

AI项目与工具 2025年06月12日 32 点赞 0 评论 700 浏览

豆包PixelDance

豆包PixelDance是一款由字节跳动开发的AI视频生成工具，基于DiT架构，支持文生视频和图生视频功能。它具备强大的语义理解能力，可生成长达10秒的连贯视频片段，并拥有丰富的运镜效果。该工具支持多种艺术风格和视频比例，适用于影视、广告、短视频等多种场景，极大简化了视频创作流程。

AI项目与工具 2025年06月12日 32 点赞 0 评论 700 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 700 浏览

Adobe Firefly

Adobe Firefly 是 Adobe 开发的一系列生成式 AI 工具，支持图像生成、编辑、视频生成及编辑等功能。它通过深度学习算法和自然语言处理技术，实现从文本到图像或视频的快速转化，同时支持多语言操作，适用于创意设计、视频制作、企业内容生产等多个场景，助力用户提升工作效率与创意表达能力。

AI项目与工具 2025年06月12日 74 点赞 0 评论 700 浏览

AI项目与工具 默认 浏览次数 发布时间

AI项目与工具

默认

浏览次数

发布时间