# paddleocr-vl

> 基于百度飞桨 PaddleOCR-VL-1.5 的文档识别技能。当用户需要对 PDF、PNG、JPG、BMP、TIF 等格式的文档进行 OCR 文字识别时使用此技能。支持文字、表格、公式、图表识别，输出 Markdown 格式结果。

- Author: crocketc
- Repository: crocketc/paddleocr-vl
- Version: 20260203145401
- Stars: 1
- Forks: 0
- Last Updated: 2026-02-06
- Source: https://github.com/crocketc/paddleocr-vl
- Web: https://mule.run/skillshub/@@crocketc/paddleocr-vl~paddleocr-vl:20260203145401

---

---
name: paddleocr-vl
description: 基于百度飞桨 PaddleOCR-VL-1.5 的文档识别技能。当用户需要对 PDF、PNG、JPG、BMP、TIF 等格式的文档进行 OCR 文字识别时使用此技能。支持文字、表格、公式、图表识别，输出 Markdown 格式结果。
---

# PaddleOCR-VL

## 功能特点

- **多格式支持**：PDF、PNG、JPG、JPEG、BMP、TIF、TIFF
- **智能识别**：支持文字、表格、公式、图表识别
- **版面分析**：自动检测文档版面，智能排序
- **多种模式**：快速、标准、精细三种预设模式
- **中文配置**：友好的中文配置文件

## 安装依赖

```bash
pip install pyyaml requests
```

## 配置 Token

### 在 .env 文件中配置（推荐）

编辑 `scripts/.env` 文件，设置 API Token：

```bash
# Token 获取地址：https://aistudio.baidu.com/account/accessToken
PADDLEOCR_TOKEN=your_api_token_here
```

如需创建 .env 文件，可复制模板：

```bash
cp scripts/.env.example scripts/.env
```

## 使用方法

### 命令行使用

```bash
# 使用标准模式识别单个文件（默认）
python scripts/paddleocr_vl.py document.pdf

# 使用快速模式
python scripts/paddleocr_vl.py document.pdf --mode 快速

# 使用精细模式
python scripts/paddleocr_vl.py document.pdf --mode 精细

# 批量处理多个文件
python scripts/paddleocr_vl.py file1.pdf file2.jpg --mode 标准

# 指定输出目录
python scripts/paddleocr_vl.py document.pdf --output ./output
```

### Python 代码使用

```python
from scripts.paddleocr_vl import ocr_file

# 使用预设模式（Token 从 .env 文件自动读取）
result = ocr_file(
    file_path="document.pdf",
    mode="标准"
)

# 查看结果
markdown_text = result["result"]["markdown"]
print(markdown_text)
```

## 预设模式说明

| 模式 | 特点 | 适用场景 |
|------|------|----------|
| **快速** | 处理速度最快 | 简单文档、纯文本 |
| **标准** | 平衡速度与精度 | 大多数场景（推荐） |
| **精细** | 最高精度 | 复杂文档、包含表格/图表/公式 |

## 参数配置

通过修改 `scripts/config.yaml` 的 `options` 部分可自定义参数：

```yaml
options:
  # 文档矫正
  use_doc_orientation_classify: true  # 方向矫正
  use_doc_unwarping: true             # 扭曲矫正

  # 版面检测
  use_layout_detection: true          # 版面检测
  layout_threshold: 0.5               # 检测阈值

  # 内容识别
  use_chart_recognition: true         # 图表识别

  # 输出格式
  prettify_markdown: true             # Markdown 美化
  show_formula_number: true           # 显示公式编号
```

详细参数说明请参考 [references/config-guide.md](references/config-guide.md)。

## 输出结果

识别结果默认保存为 Markdown 文件：

```
output/
└── document.md
```

可在 `config.yaml` 中配置输出格式（markdown/json/both）。

## 目录结构

```
.
├── scripts/
│   ├── config.yaml          # 配置文件
│   ├── config_loader.py     # 配置加载器（支持动态读取 .env）
│   ├── paddleocr_vl.py      # 主脚本
│   ├── .env                 # 环境变量配置（需自行创建）
│   └── .env.example         # 环境变量模板
├── references/
│   └── config-guide.md      # 详细配置指南
└── SKILL.md                 # 本文件
```

## 常见问题

**Q: 识别结果不准确怎么办？**
A: 尝试使用"精细"模式，或在配置文件中调整相关参数。

**Q: 如何处理跨页表格？**
A: 使用"精细"模式，会自动启用 `merge_tables` 功能合并跨页表格。

**Q: 支持哪些文件格式？**
A: 支持 PDF、PNG、JPG、JPEG、BMP、TIF、TIFF 格式。