跳過到頁腳內容
使用 IRONPDF FOR PYTHON

如何在 Python 中將 PDF 轉換為文本(教程)

本文將示範如何使用IronPDF for Python(最強大的 PDF 庫之一)來提取 PDF 文件中的任何文字。

2.0 如何使用 Python 從 PDF 擷取文字?

1.從 Python 下載頁面安裝最新版本的 Python

  1. 開啟任一 Python IDE 工具
  2. 安裝.NET Core運行時
  3. 安裝IronPDF for Python 函式庫,或從 PyPI 下載頁面下載。
  4. 從PDF文件中提取文本

2.1 什麼是 Python 版IronPDF ?

由於 Python 是一種比其他語言更具動態性的語言,因此將IronPDF庫整合到 Python 中非常簡單,它使開發人員能夠快速輕鬆地創建圖形使用者介面。 它預先安裝了大量工具,包括 PyQT、wxWidgets、kivy 以及許多其他軟體包和函式庫,所有這些都可以用來快速、安全地創建完整的 GUI。

IronPDF for Python 是一個極為有效率的函式庫,特別適用於 Web 開發。 造成這種情況的部分原因在於 Python Web 開發範式眾多,例如 Django、Flask 和 Pyramid。 這些框架已被許多網站和線上服務使用,包括 Reddit、Mozilla 和 Spotify。

2.2 IronPDF的特點

  • PDF 檔案可以從多種來源創建,包括 HTML、HTML5、ASP 和 PHP 網站。 除了 HTML 檔案外,還可以將圖片檔案轉換為 PDF
  • IronPDF可讓您建立互動式 PDF 文件、填寫和傳送互動式表單分割合併PDF 文件、從 PDF 文件中提取文字和圖像、在 PDF 文件中搜尋特定單字、將 PDF 頁面柵格化為圖像、將 PDF 轉換為 HTML 以及列印 PDF 文件。 IronPDF可以開啟 PDF 檔案並從 URL 列印。 此外,它還允許使用者代理透過 HTML 登入表單、代理、cookie、HTTP 標頭、自訂網頁登入憑證、表單變數和使用者代理程式進行登入。
  • 可使用IronPDF從文件中擷取影像。
  • 使用IronPDF,可以非常輕鬆地在文件中添加頁首和頁尾、文字和圖片、書籤浮水印等等。
  • 使用IronPDF,可以在新文件或現有文件中合併和分離頁面。
  • 無需使用 Acrobat 檢視器,即可將文件轉換為 PDF 物件。
  • 可以使用 CSS 檔案來建立 PDF 文件。
  • 可以使用媒體類型 CSS 檔案建立文件。

2.3 導入IronPDF庫

為了導入IronPDF ,請在將要使用IronPDF 的來源檔案開頭新增以下導入語句:

from ironpdf import *
from ironpdf import *
PYTHON

2.4 設定許可證密鑰(如需要)

雖然IronPDF for Python 可以免費使用,但它會為免費用戶的 PDF 檔案添加平鋪背景浮水印。 要使用IronPDF建立無浮水印 PDF,您必須向庫提供合法的許可證密鑰。 以下程式碼片段展示如何使用許可證金鑰設定庫:

# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在建立 PDF 檔案或變更其內容之前,請確保已配置許可證金鑰。 應該在調用任何其他程式碼行之前調用 LicenseKey 方法。 若要取得免費試用許可證金鑰,請造訪許可證頁面

2.5 設定日誌文件

一個名為"Default"的文字檔案可以儲存 Python 腳本目錄中 Custom.log 產生的日誌訊息。 以下程式碼片段可用於設定 LogFilePath 屬性,並自訂日誌檔案名稱和位置:

# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用IronPDF擷取 PDF 文本

IronPDF for Python 庫可以將 PDF 頁面轉換為 PDF 對象,並支援從 PDF 文件(包括掃描的 PDF 文件)中提取文字。 以下範例展示如何使用IronPDF讀取現有的 PDF 檔案。

第一種方法是提取 PDF 中所有可用的文字; 下面提供了一個程式碼範例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
PYTHON

如上面的程式碼所示,FromFile 方法是一個 PDF 閱讀器對象,它會載入現有的 PDF 檔案並將其轉換為 PDF 文件對象。 此物件可用於讀取 PDF 頁面上的文字和圖像。 該物件提供了一個名為 ExtractAllText 的方法,該方法從整個 PDF 文件中提取每一段文本,並將文本保存在一個可以處理的字串中。 然後使用 print 函數顯示文字。

如何在Python中將PDF轉換為文字(教學),圖1:顯示文字 顯示文字

下面提供了第二種方法的程式碼範例,該方法可以逐頁從PDF文件中提取文字。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
PYTHON

FromFile 方法用於從現有文件中載入 PDF 文件並將其轉換為 PDF 文件對象,如上面的程式碼所示。 PDF 頁面物件上的一個名為 ExtractTextFromPage 的方法可以檢索 PDF 檔案中某一頁的所有文字。必須提供頁碼作為參數才能從特定頁面提取文字。 然後,在提取文字之後,可以使用 page_text 來保存可以處理的資訊。

查看更多從 PDF 檔案中提取文字的範例

4.0 結論

相比之下, IronPDF庫提供了強大的安全措施來降低潛在風險。 它不針對任何特定瀏覽器,可與所有常用瀏覽器相容。 IronPDF允許程式設計師只需幾行程式碼即可輕鬆產生和讀取 PDF 文件。 IronPDF庫提供一系列許可選項,包括免費的開發者許可證和可供購買的額外開發許可證,以滿足不同開發者的需求。

IronPDF提供永久許可證、30 天退款保證、一年軟體支援和升級選項。 首次購買後無需支付其他費用。 這些許可證可用於開發、測試和生產環境。 了解更多產品授權資訊

下載軟體產品。

常見問題解答

如何在Python中將PDF轉換為文本?

您可以使用IronPDF的PdfDocument.FromFile方法加載您的PDF,然後使用ExtractAllTextExtractTextFromPage方法提取所需的文本。

使用Python的PDF庫需要哪些設置?

要使用IronPDF,您需要安裝Python和IDE,並安裝.NET Core運行時。IronPDF可以通過PyPI下載頁安裝。

我可以使用Python從PDF的特定頁面提取文本嗎?

可以,使用IronPDF,您可以使用ExtractTextFromPage方法,通過提供頁碼作為參數從指定頁面提取文本。

在Python中使用PDF庫有免費選項嗎?

IronPDF for Python提供了添加水印到PDF的免費版本。若要刪除水印並解鎖完整功能,需要許可密鑰。

如何將PDF庫與Django或Flask等Web框架集成?

IronPDF可以無縫集成到Django和Flask等Web框架中,允許您在Web應用程序項目中生成和操作PDF。

Python PDF庫應具備哪些功能?

像IronPDF這樣全面的PDF庫應支持從HTML和圖像創建PDF,提取文本,填寫表單,合併PDF及添加書籤和水印。

如何在Python中設置PDF庫的許可證密鑰?

對於IronPDF,使用License.LicenseKey方法設置許可證密鑰,在執行任何其他代碼之前註冊您的許可證並移除水印。

Python PDF庫支持從網頁創建PDF嗎?

IronPDF可以從HTML、HTML5和由ASP或PHP構建的網頁創建PDF,使其成為Web基於PDF生成的多功能工具。

如何啟用Python PDF庫中的調試?

通過將Logger.EnableDebugging設置為true並使用Logger.LogFilePath定義日志文件路徑來啟用IronPDF中的調試。

Python PDF庫的安全功能有哪些?

IronPDF保證安全性和跨瀏覽器兼容性,為開發人員提供一種可靠的Python中安全PDF操作解決方案。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

鋼鐵支援團隊

我們每週 5 天,每天 24 小時在線上。
聊天
電子郵件
打電話給我