# video-transcribe

> 動画・音声の文字起こし。ローカルWhisper（無料）とOpenAI API（高速）の2モード対応。

- Author: 松本敏彦
- Repository: taiyousan15/3mei2026
- Version: 20260106172236
- Stars: 0
- Forks: 0
- Last Updated: 2026-02-07
- Source: https://github.com/taiyousan15/3mei2026
- Web: https://mule.run/skillshub/@@taiyousan15/3mei2026~video-transcribe:20260106172236

---

---
name: video-transcribe
description: 動画・音声の文字起こし。ローカルWhisper（無料）とOpenAI API（高速）の2モード対応。
---

# Video Transcribe Skill

Whisperを使用した動画・音声の文字起こしスキル。

## When to Use

- 動画コンテンツの文字起こし
- 字幕ファイル（SRT）生成
- 議事録・インタビュー書き起こし
- ポッドキャスト・講義のテキスト化

## Modes

### 1. ローカルモード（無料）

OpenAI Whisperをローカル実行。GPU推奨。

| モデル | 精度 | 10分の処理時間 | VRAM |
|--------|------|----------------|------|
| tiny | 低 | 約1分 | 1 GB |
| base | 中 | 約2分 | 1 GB |
| **small** | 中高 | 約3分 | 2 GB |
| medium | 高 | 約5分 | 5 GB |
| large-v3 | 最高 | 約10分 | 10 GB |

### 2. APIモード（有料・高速）

OpenAI Whisper APIを使用。高速・高精度。

| 料金 | 処理時間 | 精度 |
|------|----------|------|
| $0.006/分（約0.9円/分） | リアルタイム以下 | 最高 |

## Usage

### ローカルモード

```bash
# 基本（mediumモデル）
make transcribe FILE=local-files/videos/MainVideo.mp4

# モデル指定
make transcribe FILE=local-files/videos/MainVideo.mp4 MODEL=large-v3

# 音声ファイル
make transcribe FILE=local-files/videos/audio.mp3
```

### APIモード

```bash
# OpenAI API使用（要: OPENAI_API_KEY）
make transcribe-api FILE=local-files/videos/MainVideo.mp4

# URLから直接（ダウンロード＋文字起こし）
make transcribe-url URL="https://www.youtube.com/watch?v=xxxxx"
make transcribe-url-api URL="https://www.youtube.com/watch?v=xxxxx"
```

### 出力フォーマット指定

```bash
# SRT（字幕）
make transcribe FILE=... FORMAT=srt

# テキスト
make transcribe FILE=... FORMAT=txt

# JSON（タイムスタンプ付き）
make transcribe FILE=... FORMAT=json

# VTT（Web字幕）
make transcribe FILE=... FORMAT=vtt
```

## Output

```
local-files/transcripts/
├── [ファイル名].srt    # 字幕ファイル
├── [ファイル名].txt    # プレーンテキスト
├── [ファイル名].json   # タイムスタンプ付きJSON
└── [ファイル名].vtt    # WebVTT字幕
```

## Configuration

### 環境変数 (.env)

```bash
# OpenAI API（APIモード用）
OPENAI_API_KEY=sk-xxxxx

# デフォルト設定
WHISPER_MODEL=small           # tiny/base/small/medium/large-v3（CPUはsmall推奨）
WHISPER_LANGUAGE=ja           # 言語コード
WHISPER_OUTPUT_FORMAT=srt     # srt/txt/json/vtt
WHISPER_OUTPUT_DIR=local-files/transcripts

# ローカルモード設定
WHISPER_DEVICE=cuda           # cuda/cpu
WHISPER_COMPUTE_TYPE=float16  # float16/int8
```

## Comparison

| 項目 | ローカル | API |
|------|----------|-----|
| **料金** | 無料 | 約0.9円/分 |
| **速度** | 遅い（5-10分/10分動画） | 速い（数秒/10分動画） |
| **精度** | 高（large-v3） | 最高 |
| **GPU** | 推奨（VRAM 5GB+） | 不要 |
| **オフライン** | 可能 | 不可 |
| **プライバシー** | ローカル処理 | クラウド送信 |

## Supported Formats

### 入力

- 動画: MP4, WebM, MKV, AVI, MOV
- 音声: MP3, WAV, M4A, FLAC, OGG

### 出力

- SRT: 標準字幕フォーマット
- VTT: Web用字幕
- TXT: プレーンテキスト
- JSON: タイムスタンプ付き

## Troubleshooting

| 問題 | 解決策 |
|------|--------|
| CUDA out of memory | 小さいモデル使用 or `WHISPER_DEVICE=cpu` |
| CPU版でクラッシュ | `small`以下のモデルを使用（medium以上はメモリ不足の可能性） |
| 文字起こし精度低い | `MODEL=large-v3` を使用（要GPU） |
| API エラー | `OPENAI_API_KEY` 確認 |
| 処理が遅い | GPU使用 or APIモード推奨 |

## Related Skills

- `video-download` - 動画ダウンロード
- `video-production` - 動画編集
- `japanese-tts-reading` - テキスト読み上げ