# pdf-reader

> PDF 파일에서 텍스트, 테이블, 이미지를 추출하여 Markdown으로 저장하는 스킬. pdf_to_text.py 사용.

- Author: hyeji-simulacre
- Repository: hyeji-simulacre/20TH_AI_WORK_SPACE
- Version: 20260110210649
- Stars: 0
- Forks: 0
- Last Updated: 2026-02-07
- Source: https://github.com/hyeji-simulacre/20TH_AI_WORK_SPACE
- Web: https://mule.run/skillshub/@@hyeji-simulacre/20TH_AI_WORK_SPACE~pdf-reader:20260110210649

---

---
name: pdf-reader
description: PDF 파일에서 텍스트, 테이블, 이미지를 추출하여 Markdown으로 저장하는 스킬. pdf_to_text.py 사용.
---

# PDF Reader

PDF를 **구조를 인식**하여 텍스트/테이블/이미지로 추출해 Markdown으로 저장합니다. 전체 페이지 처리, 이미지 필터링 등 최적의 결과를 자동으로 도출합니다.

---

## 저장 위치

| 옵션 | 저장 경로 |
|------|-----------|
| 기본값 | PDF 원본 위치 |
| `--summary` | `30-collected/34-pdf-summary/` |

---

## 🚀 3분 퀵스타트

### 설치 (최초 1회)

**macOS / Linux:**
```bash
# 워크스페이스 루트에서
source .venv/bin/activate
python -m pip install -r .claude/skills/pdf-reader/requirements.txt
```

**Windows (PowerShell):**
```powershell
# 워크스페이스 루트에서
.\.venv\Scripts\Activate.ps1
python -m pip install -r .claude\skills\pdf-reader\requirements.txt
```

### 실행

**기본 실행 (PDF 원본 위치에 저장):**
```bash
python .claude/skills/pdf-reader/scripts/pdf_to_text.py "파일경로.pdf"
```

**34-pdf-summary에 저장:**
```bash
python .claude/skills/pdf-reader/scripts/pdf_to_text.py "파일경로.pdf" --summary
```

### 결과
- `파일명.md`: 추출된 Markdown
- `images_파일명/`: 추출된 이미지들

### 업무 활용 예시
- **법무팀**: 계약서 핵심 조항 빠르게 추출
- **연구원**: 논문 PDF → Markdown 변환하여 분석
- **마케터**: 보고서 내용 자동 정리

### 클로드코드로 더 쉽게
```
"이 PDF 파일의 내용을 추출하고 핵심 내용 3가지로 요약해줘"
```

---

## 환경 설정 및 의존성 설치

이 스킬을 사용하기 전에 독립적인 실행 환경(가상환경)을 구성하는 것을 권장합니다.

### 1. 가상환경 확인 및 생성 (워크스페이스 루트 기준)

**macOS / Linux:**
```bash
# 가상환경이 없다면 생성
if [ ! -d ".venv" ]; then python -m venv .venv; fi

# 가상환경 활성화
source .venv/bin/activate
```

**Windows (PowerShell):**
```powershell
# 가상환경이 없다면 생성 (사용자 동의 시)
if (-not (Test-Path ".venv")) { python -m venv .venv }

# 가상환경 활성화
.\.venv\Scripts\Activate.ps1
```

### 2. 의존성 설치 확인

**macOS / Linux:**
```bash
# 설치된 패키지 확인
python -m pip list

# 필요한 패키지가 없다면 설치
python -m pip install -r .claude/skills/pdf-reader/requirements.txt
```

**Windows (PowerShell):**
```powershell
# 설치된 패키지 확인
python -m pip list

# 필요한 패키지가 없다면 설치
python -m pip install -r .claude\skills\pdf-reader\requirements.txt
```

> **주의**: 가상환경을 사용하지 않고 전역(Global) 환경에 설치할 경우 다른 프로젝트와 충돌할 수 있습니다. 명시적인 이유가 없다면 가상환경을 사용하세요.

## 사용법

### 기본 사용 (PDF 원본 위치에 저장)

**macOS / Linux:**
```bash
python .claude/skills/pdf-reader/scripts/pdf_to_text.py "파일경로.pdf"
```

**Windows (PowerShell):**
```powershell
python .claude\skills\pdf-reader\scripts\pdf_to_text.py "파일경로.pdf"
```

### 34-pdf-summary에 저장

**macOS / Linux:**
```bash
python .claude/skills/pdf-reader/scripts/pdf_to_text.py "파일경로.pdf" --summary
```

**Windows (PowerShell):**
```powershell
python .claude\skills\pdf-reader\scripts\pdf_to_text.py "파일경로.pdf" --summary
```

## 출력 결과

**생성되는 파일:**
1. `{파일명}.md`: 추출된 Markdown 문서
2. `images_{파일명}/`: 추출된 이미지 폴더 (151x151 이상 크기만 포함)
   - 파일명 형식: `p001_123_456.png` (페이지번호_x좌표_y좌표)

**Markdown 구조 예시:**
```markdown
# 문서제목 Analysis Report
> PDF Text Extractor

## Page 1

# 대제목 (자동 감지된 H1)

## 중제목 (자동 감지된 H2)

본문 텍스트...

| 컬럼1 | 컬럼2 | 컬럼3 |
| --- | --- | --- |
| 데이터1 | 데이터2 | 데이터3 |

![Image](images_문서명/p001_123_456.png)
```

## 의존성 상세
- **Python 3.12.10** (`python` 명령으로 실행)
- **필수 라이브러리**: `pdfplumber`, `Pillow`

## 주요 특징

1. **저장 위치**: 기본적으로 PDF 원본 위치에 저장. `--summary` 옵션으로 `30-collected/34-pdf-summary/`에 저장 가능.
2. **이미지 크기 제한**: 150x150 이하의 이미지는 자동으로 정크로 판단하여 저장하지 않습니다.
3. **전체 페이지**: 대용량 문서라도 항상 모든 페이지를 처리합니다.

## 주의사항

### ⚠️ 스캔 PDF
- **OCR 미포함**: 텍스트가 아닌 이미지로 된 PDF는 내용을 추출할 수 없습니다.

### ⚠️ 대용량 문서
- 100페이지 이상의 매우 큰 문서는 처리 시간이 길어질 수 있습니다.

### ⚠️ 이미지 경로
- 생성된 Markdown 파일 내의 이미지 경로는 상대 경로로 작성됩니다. Markdown 뷰어(Obsidian 등)에서 이미지 폴더가 동일 위치에 있어야 정상적으로 보입니다.