如何在 Python 中將 PDF 轉換為文本(教程)
本文將示範如何使用IronPDF for Python(最強大的 PDF 庫之一)來提取 PDF 文件中的任何文字。
如何在 Python 中將 PDF 轉換為文本
- 安裝一個 Python 庫,用於將 PDF 轉換為文字。
- 載入現有 PDF 文件或渲染新文檔
- 使用
ExtractAllText方法從開啟的檔案中讀取文本 - 使用該方法的另一個重載來讀取特定頁面中的文字。
- 將提取的文字列印到控制台或將其儲存到文字文件
2.0 如何使用 Python 從 PDF 擷取文字?
1.從 Python 下載頁面安裝最新版本的 Python 。
- 開啟任一 Python IDE 工具
- 安裝.NET Core運行時
- 安裝IronPDF for Python 函式庫,或從 PyPI 下載頁面下載。
- 從PDF文件中提取文本
2.1 什麼是 Python 版IronPDF ?
由於 Python 是一種比其他語言更具動態性的語言,因此將IronPDF庫整合到 Python 中非常簡單,它使開發人員能夠快速輕鬆地創建圖形使用者介面。 它預先安裝了大量工具,包括 PyQT、wxWidgets、kivy 以及許多其他軟體包和函式庫,所有這些都可以用來快速、安全地創建完整的 GUI。
IronPDF for Python 是一個極為有效率的函式庫,特別適用於 Web 開發。 造成這種情況的部分原因在於 Python Web 開發範式眾多,例如 Django、Flask 和 Pyramid。 這些框架已被許多網站和線上服務使用,包括 Reddit、Mozilla 和 Spotify。
2.2 IronPDF的特點
- PDF 檔案可以從多種來源創建,包括 HTML、HTML5、ASP 和 PHP 網站。 除了 HTML 檔案外,還可以將圖片檔案轉換為 PDF 。
- IronPDF可讓您建立互動式 PDF 文件、填寫和傳送互動式表單、分割和合併PDF 文件、從 PDF 文件中提取文字和圖像、在 PDF 文件中搜尋特定單字、將 PDF 頁面柵格化為圖像、將 PDF 轉換為 HTML 以及列印 PDF 文件。 IronPDF可以開啟 PDF 檔案並從 URL 列印。 此外,它還允許使用者代理透過 HTML 登入表單、代理、cookie、HTTP 標頭、自訂網頁登入憑證、表單變數和使用者代理程式進行登入。
- 可使用IronPDF從文件中擷取影像。
- 使用IronPDF,可以非常輕鬆地在文件中添加頁首和頁尾、文字和圖片、書籤和浮水印等等。
- 使用IronPDF,可以在新文件或現有文件中合併和分離頁面。
- 無需使用 Acrobat 檢視器,即可將文件轉換為 PDF 物件。
- 可以使用 CSS 檔案來建立 PDF 文件。
- 可以使用媒體類型 CSS 檔案建立文件。
2.3 導入IronPDF庫
為了導入IronPDF ,請在將要使用IronPDF 的來源檔案開頭新增以下導入語句:
from ironpdf import *from ironpdf import *2.4 設定許可證密鑰(如需要)
雖然IronPDF for Python 可以免費使用,但它會為免費用戶的 PDF 檔案添加平鋪背景浮水印。 要使用IronPDF建立無浮水印 PDF,您必須向庫提供合法的許可證密鑰。 以下程式碼片段展示如何使用許可證金鑰設定庫:
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"在建立 PDF 檔案或變更其內容之前,請確保已配置許可證金鑰。 應該在調用任何其他程式碼行之前調用 LicenseKey 方法。 若要取得免費試用許可證金鑰,請造訪許可證頁面。
2.5 設定日誌文件
一個名為"Default"的文字檔案可以儲存 Python 腳本目錄中 Custom.log 產生的日誌訊息。 以下程式碼片段可用於設定 LogFilePath 屬性,並自訂日誌檔案名稱和位置:
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All3.0 使用IronPDF擷取 PDF 文本
IronPDF for Python 庫可以將 PDF 頁面轉換為 PDF 對象,並支援從 PDF 文件(包括掃描的 PDF 文件)中提取文字。 以下範例展示如何使用IronPDF讀取現有的 PDF 檔案。
第一種方法是提取 PDF 中所有可用的文字; 下面提供了一個程式碼範例。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()
# Display the extracted text
print(all_text)from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()
# Display the extracted text
print(all_text)如上面的程式碼所示,FromFile 方法是一個 PDF 閱讀器對象,它會載入現有的 PDF 檔案並將其轉換為 PDF 文件對象。 此物件可用於讀取 PDF 頁面上的文字和圖像。 該物件提供了一個名為 ExtractAllText 的方法,該方法從整個 PDF 文件中提取每一段文本,並將文本保存在一個可以處理的字串中。 然後使用 print 函數顯示文字。
顯示文字
下面提供了第二種方法的程式碼範例,該方法可以逐頁從PDF文件中提取文字。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)
# Display the extracted text from the specified page
print(page_text)from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)
# Display the extracted text from the specified page
print(page_text)FromFile 方法用於從現有文件中載入 PDF 文件並將其轉換為 PDF 文件對象,如上面的程式碼所示。 PDF 頁面物件上的一個名為 ExtractTextFromPage 的方法可以檢索 PDF 檔案中某一頁的所有文字。必須提供頁碼作為參數才能從特定頁面提取文字。 然後,在提取文字之後,可以使用 page_text 來保存可以處理的資訊。
4.0 結論
相比之下, IronPDF庫提供了強大的安全措施來降低潛在風險。 它不針對任何特定瀏覽器,可與所有常用瀏覽器相容。 IronPDF允許程式設計師只需幾行程式碼即可輕鬆產生和讀取 PDF 文件。 IronPDF庫提供一系列許可選項,包括免費的開發者許可證和可供購買的額外開發許可證,以滿足不同開發者的需求。
IronPDF提供永久許可證、30 天退款保證、一年軟體支援和升級選項。 首次購買後無需支付其他費用。 這些許可證可用於開發、測試和生產環境。 了解更多產品授權資訊。
下載軟體產品。
常見問題解答
如何在Python中將PDF轉換為文本?
您可以使用IronPDF的PdfDocument.FromFile方法加載您的PDF,然後使用ExtractAllText或ExtractTextFromPage方法提取所需的文本。
使用Python的PDF庫需要哪些設置?
要使用IronPDF,您需要安裝Python和IDE,並安裝.NET Core運行時。IronPDF可以通過PyPI下載頁安裝。
我可以使用Python從PDF的特定頁面提取文本嗎?
可以,使用IronPDF,您可以使用ExtractTextFromPage方法,通過提供頁碼作為參數從指定頁面提取文本。
在Python中使用PDF庫有免費選項嗎?
IronPDF for Python提供了添加水印到PDF的免費版本。若要刪除水印並解鎖完整功能,需要許可密鑰。
如何將PDF庫與Django或Flask等Web框架集成?
IronPDF可以無縫集成到Django和Flask等Web框架中,允許您在Web應用程序項目中生成和操作PDF。
Python PDF庫應具備哪些功能?
像IronPDF這樣全面的PDF庫應支持從HTML和圖像創建PDF,提取文本,填寫表單,合併PDF及添加書籤和水印。
如何在Python中設置PDF庫的許可證密鑰?
對於IronPDF,使用License.LicenseKey方法設置許可證密鑰,在執行任何其他代碼之前註冊您的許可證並移除水印。
Python PDF庫支持從網頁創建PDF嗎?
IronPDF可以從HTML、HTML5和由ASP或PHP構建的網頁創建PDF,使其成為Web基於PDF生成的多功能工具。
如何啟用Python PDF庫中的調試?
通過將Logger.EnableDebugging設置為true並使用Logger.LogFilePath定義日志文件路徑來啟用IronPDF中的調試。
Python PDF庫的安全功能有哪些?
IronPDF保證安全性和跨瀏覽器兼容性,為開發人員提供一種可靠的Python中安全PDF操作解決方案。










