Dolphin

Dolphin

视觉识别

AI应用

应用大小：50 GB
适用资源：4090 24G | 5090 32G
主系统：Ubuntu 24.04
应用环境：Docker v570.86.10 | CUDA v12.8 | Conda v25.11.1 | Docker v29.1.3 | Python v3.13.11 | JupyterLab v4.5.0 | FileBrower v2.52.0 | LogViewer v1.0

应用介绍：

字节跳动自研的高精度文档解析引擎

免费启动应用

说明文档

Dolphin

Dolphin 是一款专门针对复杂文档设计的视觉解析大模型。它能够像人类一样“读懂”文档，不仅能识别文字，还能处理极其复杂的表格、公式、代码块和插图布局。无论是清晰的电子文档截图，还是光线昏暗的纸质文件照片，Dolphin 都能将其还原为逻辑清晰、格式规整的数字化文档。

核心优势

极强的复杂元素解析力：在处理科学论文、财务报表、技术手册等文档时，能够精准提取其中的数学公式、多层嵌套表格以及代码段落。
原生阅读顺序预测：不同于传统的文字识别，它能自动识别文档的逻辑流向（如双栏排版、侧边栏注解），确保生成的文字顺序符合人类阅读习惯。
卓越的图像适应性：通过独特的两阶段架构，模型能自动判断文档来源（数字原生或实物拍照），并针对性地优化识别策略，无惧阴影、扭曲和折痕。
轻量化与高性能并存：模型设计简洁高效，支持大规模并行处理，并已适配 vLLM 等加速框架，是目前大规模文档数字化转型的理想选择。

功能亮点

全场景文档适配：支持从普通办公文档、学术论文到复杂的企业财报、医疗记录等多种垂直领域的文档解析。
结构化数据输出：可将解析结果直接输出为标准的 JSON 或 Markdown 格式，方便后续进行搜索、归档或喂给大语言模型（LLM）进行分析。
异构锚点提示技术：采用创新的锚点提示机制，能够更细致地定位文档中的微小元素，显著提升了生僻符号和复杂公式的识别准确率。
元素级与页面级双模式：既可以对整张页面进行宏观解析，也可以针对特定的表格或公式进行局部精细化提取。

适用群体

数据工程师与科研人员：快速将海量 PDF 或图片文献转化为可检索的数据集，用于大模型训练或学术研究。
财务与法务专业人士：高效提取报表数据、合同条款，大幅减少手动录入的繁琐工作。
数字化转型企业：构建企业内部的智能知识库，实现纸质档案与非结构化文档的自动化采集。
开发者与系统集成商：利用其轻量化的 API 接口，为现有的办公软件、笔记应用或搜索平台植入强大的文档理解能力。

联系我们

Dolphin - AI应用中心 - 星宇智算 - StarverseAI