PDFBox简介

/ / PDFBox简介

Portable Document Format(PDF)是一种文件格式,可帮助以独立于应用程序软件,硬件和操作系统的方式显示数据。

每个PDF文件都包含一个固定布局的平面文档的描述,包括文本,字体,图形和其他显示文档所需的信息。

有几个库可用于通过程序创建和处理PDF文档,如-

  • Adobe PDF Library                     - 该库以C++ 、. NET和Java等语言提供API,使用该库可以编辑,查看打印内容以及从PDF文档提取文本。

  • Formatting Objects Processor   - 由XSL格式化对象和独立于输出的格式化程序驱动的开源打印格式化程序。主要输出目标是PDF。

  • iText                                               - 该库提供Java,C#和其他.NET语言等语言的API,使用该库,无涯教程可以创建和处理PDF,RTF和HTML文档。

  • JasperReports                               - 这是一个Java报告工具,可在PDF中生成报告,包括Microsoft Excel,RTF,ODT,逗号分隔的值和XML文件。

什么是PDFBox

Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。使用此库,您可以开发可创建,转换和处理PDF文档的Java程序。

除此之外,PDFBox还包括一个命令行实用程序,用于使用可用的Jar文件对PDF执行各种操作。

PDFBox函数

以下是PDFBox的显着函数-

  • Extract Text       -   使用PDFBox,可以从PDF文件提取Unicode文本。

  • Split & Merge     -   使用PDFBox,您可以将一个PDF文件分为多个文件,然后将它们合并为一个文件。

  • Fill Forms           -   使用PDFBox,您可以在文档中填写表格数据。

  • Print                     -   使用PDFBox,您可以使用标准Java打印API打印PDF文件。

  • Save as Image     -   使用PDFBox,可以将PDF保存为图像文件,如PNG或JPEG。

  • Create PDFs         -   使用PDFBox,您可以通过创建Java程序来创建新的PDF文件,还可以包含图像和字体。

  • Signing                 -   使用PDFBox,可以将数字语法添加到PDF文件。

PDFBox应用

以下是PDFBox的应用程序-

  • Apache Nutch       -  Apache Nutch是一个开源Web搜索软件

  • Apache Tika         -  Apache Tika是使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。

PDFBox组件

以下是PDFBox的四个主要组件-

  • PDFBox         -  这是PDFBox的主要部分。其中包含与内容提取和操作有关的类和接口。

  • FontBox       -  包含与字体相关的类和接口,使用这些类,无涯教程可以修改PDF文档文本的字体。

  • XmpBox       -  它包含处理XMP元数据的类和接口。

  • Preflight       -  此组件用于根据PDF/A-1b标准验证PDF文件。

PDFbox完整目录

祝学习愉快! (发现内容有误?请选中要编辑的内容 -> 右键 -> 修改 -> 提交!帮助我们改进教程质量)

精选教程推荐

👇 以下精选教程可能对您有帮助,拓展您的技术视野

MySQL运维实战课 -〔张新铭(俊达)〕

后端工程师的高阶面经 -〔邓明〕

Flink核心技术与实战 -〔张利兵〕

深入浅出云计算 -〔何恺铎〕

后端技术面试 38 讲 -〔李智慧〕

Go语言从入门到实战 -〔蔡超〕

Java并发编程实战 -〔王宝令〕

程序员进阶攻略 -〔胡峰〕

人工智能基础课 -〔王天一〕

📝 好记忆不如烂笔头,留下您的学习笔记吧!

暂无学习笔记,成为第一个分享的人吧!

您的笔记将帮助成千上万的学习者