The new pdftools package allows for extracting text and metadata1 from pdf files in R. [@Ooms2016]
pdftools包主要用于提取
- pdf文本中的文字和
- 元数据 (作者等)
以节省我们复制pdf上信息的时间。 以下是一些常用功能的介绍。
页面文本
去除 highlight 等,直接提取文字。
## Error in `library()`:
## ! there is no package called 'pdftools'
提取目录
方便进行阅读计划。
提取 metadata
PDF 转图片
# renders pdf to bitmap array
bitmap <- pdf_render_page("1403.2805.pdf", page = 1)
# save bitmap image
png::writePNG(bitmap, "page.png")
jpeg::writeJPEG(bitmap, "page.jpeg")
webp::write_webp(bitmap, "page.webp")可以生成首页的图片
raw table
# download.file("http://arxiv.org/pdf/1406.4806.pdf", "1406.4806.pdf", mode = "wb")
txt <- pdf_text("1406.4806.pdf")## Error in `pdf_text()`:
## ! could not find function "pdf_text"
## Error:
## ! object 'txt' not found
## Error:
## ! object 'txt' not found
subset
参考 @Oomspdftools-22
combine
主要指的是数据描述、结构、统计值等。 “These descriptive metadata, structural metadata, administrative metadata, reference metadata and statistical metadata.”[@wikimetadata]↩︎