Markdrop

A Python package for converting PDFs to structured Markdown and interactive HTML, with AI-powered image and table descriptions across six major LLM providers. Available on PyPI.

Features

PDF → Markdown conversion with formatting preservation (via Docling)
Automatic image extraction using XRef IDs
Table detection using Microsoft's Table Transformer
PDF URL support
AI-powered image and table descriptions — 6 providers: Gemini, OpenAI, Anthropic Claude, Groq, OpenRouter, LiteLLM
Interactive HTML output with downloadable Excel tables
Customisable image resolution and UI elements
Structured logging (never pollutes your app's root logger)
Support for DOCX / PPTX input

Installation

Core install (PDF conversion + Gemini/OpenAI):

pip install markdrop

With Anthropic Claude:

pip install "markdrop[anthropic]"

With Groq:

pip install "markdrop[groq]"

With LiteLLM (routes to 100+ providers):

pip install "markdrop[litellm]"

Everything (including local HuggingFace models):

pip install "markdrop[all]"

OpenRouter is accessed through the openai package (already included in core), so no extra install is needed.

Supported AI Providers

Provider	`--ai_provider`	Default model	Vision
Google Gemini	`gemini`	`gemini-3.1-flash-lite`	✅
OpenAI	`openai`	`gpt-5.4`	✅
Anthropic Claude	`anthropic`	`claude-opus-4-6`	✅
Groq	`groq`	`meta-llama/llama-4-maverick-17b-128e-instruct`	✅
OpenRouter	`openrouter`	`google/gemini-3.1-flash-lite` (any model)	✅
LiteLLM	`litellm`	`openai/gpt-5.4` (configurable)	✅

All models are configurable — use --model to override for any provider, or set model_name_override in ProcessorConfig.

Quick Start

CLI Usage

1. Convert PDF → Markdown + HTML

markdrop convert <input_path> --output_dir <dir> [--add_tables]

# Example
markdrop convert report.pdf --output_dir out --add_tables
# Also works with URLs:
markdrop convert https://arxiv.org/pdf/1706.03762 --output_dir out

2. Generate AI Descriptions for Images & Tables

markdrop describe <markdown_file> --ai_provider <provider> [--output_dir <dir>] [--remove_images] [--remove_tables]

Provider	`--ai_provider`
Google Gemini 2.0 Flash	`gemini`
OpenAI GPT-4o	`openai`
Anthropic Claude Opus	`anthropic`
Groq Llama-4 Scout	`groq`
OpenRouter	`openrouter`
LiteLLM	`litellm`

# Gemini (default)
markdrop describe doc.md --ai_provider gemini

# Anthropic Claude
markdrop describe doc.md --ai_provider anthropic --remove_images

# Groq (fastest inference)
markdrop describe doc.md --ai_provider groq

# OpenRouter (any model)
markdrop describe doc.md --ai_provider openrouter

# LiteLLM (unified gateway)
markdrop describe doc.md --ai_provider litellm

3. Set Up API Keys

markdrop setup <provider>

Keys are stored in <package-root>/.env with 0o600 permissions on POSIX systems.

markdrop setup gemini       # → GEMINI_API_KEY
markdrop setup openai       # → OPENAI_API_KEY
markdrop setup anthropic    # → ANTHROPIC_API_KEY
markdrop setup groq         # → GROQ_API_KEY
markdrop setup openrouter   # → OPENROUTER_API_KEY
markdrop setup litellm      # → LITELLM_API_KEY

4. Analyze Images in a PDF

markdrop analyze report.pdf --output_dir pdf_analysis --save_images

5. Batch Image Description Generation

markdrop generate images/ --output_dir descriptions/ --prompt "Describe in detail." \
  --llm_client gemini openai

Available --llm_client values: qwen, gemini, openai, llama-vision, molmo, pixtral

Python API

PDF Conversion

from markdrop import markdrop, MarkDropConfig, add_downloadable_tables
from pathlib import Path
import logging

config = MarkDropConfig(
    image_resolution_scale=2.0,
    download_button_color='#444444',
    log_level=logging.INFO,
    log_dir='logs',
    excel_dir='markdrop-excel-tables',
)

html_path = markdrop("path/to/input.pdf", "output", config)
downloadable_html = add_downloadable_tables(html_path, config)

AI Descriptions

from markdrop import process_markdown, ProcessorConfig, AIProvider, setup_keys

# One-time key setup (writes to .env)
setup_keys('anthropic')

config = ProcessorConfig(
    input_path="doc.md",
    output_dir="output",
    ai_provider=AIProvider.ANTHROPIC,       # GEMINI | OPENAI | ANTHROPIC | GROQ | OPENROUTER | LITELLM
    remove_images=False,
    remove_tables=False,
    table_descriptions=True,
    image_descriptions=True,
    max_retries=3,
    retry_delay=2,
    # Override default models (all providers have matching config fields):
    anthropic_model_name="claude-sonnet-4-5",    # faster / cheaper
    anthropic_text_model_name="claude-sonnet-4-5",
)

output_path = process_markdown(config)

Using OpenRouter to access any model

config = ProcessorConfig(
    input_path="doc.md",
    output_dir="output",
    ai_provider=AIProvider.OPENROUTER,
    openrouter_model_name="meta-llama/llama-4-scout",   # any model on openrouter.ai/models
    openrouter_text_model_name="anthropic/claude-sonnet-4-5",
    openrouter_site_url="https://yoursite.com",
    openrouter_site_name="My App",
)

Using LiteLLM for any 100+ provider

import os
os.environ["ANTHROPIC_API_KEY"] = "..."   # set any provider's key

config = ProcessorConfig(
    input_path="doc.md",
    output_dir="output",
    ai_provider=AIProvider.LITELLM,
    litellm_model_name="anthropic/claude-opus-4-6",
    litellm_text_model_name="groq/llama-3.3-70b-versatile",
)

Batch Image Description Generation

from markdrop import generate_descriptions

generate_descriptions(
    input_path='images/',
    output_dir='output/',
    prompt='Give a highly detailed description of this image.',
    llm_client=['gemini', 'llama-vision'],
)

API Reference

`ProcessorConfig` – AI Provider Fields

Field	Default	Notes
`gemini_model_name`	`gemini-2.0-flash`	Vision model
`gemini_text_model_name`	`gemini-2.0-flash`	Text model
`openai_model_name`	`gpt-4o`	Vision + text
`openai_text_model_name`	`gpt-4o`
`anthropic_model_name`	`claude-opus-4-6`	Vision
`anthropic_text_model_name`	`claude-sonnet-4-5`	Text (cheaper)
`groq_model_name`	`meta-llama/llama-4-scout-17b-16e-instruct`	Vision
`groq_text_model_name`	`llama-3.3-70b-versatile`	Text
`openrouter_model_name`	`google/gemini-2.0-flash-001`	Any model string from openrouter.ai/models
`openrouter_text_model_name`	`anthropic/claude-sonnet-4-5`
`litellm_model_name`	`openai/gpt-4o`	`provider/model` format
`litellm_text_model_name`	`openai/gpt-4o`

`MarkDropConfig`

Field	Default	Notes
`image_resolution_scale`	`2.0`	Scale factor for extracted images
`download_button_color`	`'#444444'`	HTML button colour
`log_level`	`logging.INFO`
`log_dir`	`'logs'`
`excel_dir`	`'markdrop_excel_tables'`

Contributing

We welcome contributions! See CONTRIBUTING.md.

git clone https://github.com/shoryasethia/markdrop.git
cd markdrop
python -m venv venv && source venv/bin/activate   # Windows: venv\Scripts\activate
pip install -e ".[all]"

Project Structure

markdrop/
├── setup.py
├── requirements.txt
├── README.md
└── markdrop/
    ├── __init__.py
    ├── main.py          ← CLI entry-point
    ├── process.py       ← PDF conversion
    ├── parse.py         ← AI description engine (all 6 providers)
    ├── helper.py        ← PDF image analysis
    ├── utils.py         ← PDF download helpers
    ├── setup_keys.py    ← Interactive API key manager
    ├── ignore_warnings.py
    ├── src/
    │   └── markdrop-logo.png
    └── models/
        ├── img_descriptions.py
        ├── model_loader.py  ← Local HF model loader
        ├── responder.py
        └── logger.py

Star History

License

GPL-3.0 — see LICENSE.

Changelog

See CHANGELOG.md.

Support

Open an issue

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
dist		dist
docs		docs
markdrop		markdrop
tests		tests
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
OLD-DOCUMENTATION.md		OLD-DOCUMENTATION.md
README.md		README.md
markdrop_test.ipynb		markdrop_test.ipynb
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Markdrop

Features

Installation

Supported AI Providers

Quick Start

CLI Usage

1. Convert PDF → Markdown + HTML

2. Generate AI Descriptions for Images & Tables

3. Set Up API Keys

4. Analyze Images in a PDF

5. Batch Image Description Generation

Python API

PDF Conversion

AI Descriptions

Using OpenRouter to access any model

Using LiteLLM for any 100+ provider

Batch Image Description Generation

API Reference

`ProcessorConfig` – AI Provider Fields

`MarkDropConfig`

Contributing

Project Structure

Star History

License

Changelog

Support

About

Uh oh!

Uh oh!

Contributors 1

Languages

Folders and files

Latest commit

History

Repository files navigation

Markdrop

Features

Installation

Supported AI Providers

Quick Start

CLI Usage

1. Convert PDF → Markdown + HTML

2. Generate AI Descriptions for Images & Tables

3. Set Up API Keys

4. Analyze Images in a PDF

5. Batch Image Description Generation

Python API

PDF Conversion

AI Descriptions

Using OpenRouter to access any model

Using LiteLLM for any 100+ provider

Batch Image Description Generation

API Reference

ProcessorConfig – AI Provider Fields

MarkDropConfig

Contributing

Project Structure

Star History

License

Changelog

Support

About

Topics

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Uh oh!

Contributors 1

Languages

`ProcessorConfig` – AI Provider Fields

`MarkDropConfig`