PDF 优化 - 在嵌入文本之前加载图像 - 请参阅提供的示例

     2023-02-25     189

关键词:

【中文标题】PDF 优化 - 在嵌入文本之前加载图像 - 请参阅提供的示例【英文标题】:PDF Optimization - Image Load Before Embedded Text - See Examples Provided 【发布时间】:2016-07-11 07:23:49 【问题描述】:

我一直在尝试找到一种方法,让我们的 OCRed PDF (bad-uc.pdf) 与保存的中缀 (good-uc.pdf) 表现相同。

如果您在 Acrobat Reader 中打开以下两个文件(任何版本都应该显示相同的问题),您会看到 bad-uc.pdf 在页面图像之前加载文本(非常缓慢)... uc.pdf 将所有内容一起加载(似乎更快且响应更快)。

good-uc.pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing bad-uc-pdf:https://drive.google.com/file/d/0B-Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing

我已经尝试过:pdftk、pdftops、ghostscript、pdf2ps、ps2pdf 和 qpdf,但仍然无法在文本之前加载图像... PDF 专家能否解释一下为什么这两个 PDF 的行为不同...

我的猜测是中缀重组 PDF,以便在嵌入文本之前加载图像,但我找不到可以进行这种 PDF 结构优化的 Linux 命令行工具。

非常感谢!! 杰弗里

【问题讨论】:

【参考方案1】:

阐明为什么这两个 PDF 行为不同...

实际上,您的两个 PDF 需要大约相同的时间才能被 Adob​​e Reader 在我的计算机上正确显示。但是,虽然您的 bad-uc.pdf 首先显示 OCR 文本,然后用扫描覆盖它,但 good-uc.pdf 首先似乎显示一个普通页面,然后用扫描覆盖它。

造成这种情况的原因是 good-uc.pdf 以渲染模式 3(“不可见”)绘制 OCR 文本,而 bad-uc.pdf 通常以填充模式 0(“填充轮廓”)绘制它颜色:黑色。由于不可见的绘画可能比实际的黑白绘画需要更少的时间,因此渲染时间之间甚至可能存在客观差异,但我认为这主要是主观的。

【讨论】:

非常感谢 mkl 提供的重要信息!你知道是否有任何 Linux 工具可以改变渲染模式?所以我可以让 bad-uc.pdf 以模式 3(“不可见”)呈现。 我不知道这样的工具,我只是知道如何实现这样的工具。 非常感谢先生!!那是一个很好的暗示。我设法编写了一个简单的脚本,将渲染模式标签插入到适当的位置。但是,该脚本可能只对我们的应用程序有用,因为我们所有的 PDF 都是由 ABBYY 生成的,并且我们可以控制 PDF 的格式一致性,以允许我的脚本在正确的位置插入标签。附言对不起,我很想按“有用”箭头,但我的声誉不够高......再次感谢您的精彩提示!太棒了!

将 PDF 图像加载到 MATLAB

...离等进行一些计算。我不知道这是否可能?此外,PDF具有嵌入式比例(即1厘米=1米)。如果我也能把它提取出来,那就太棒了。我找到了extractFileText,它可以用来提取文本,但其他 查看详情

如何将外部 OCR 嵌入现有 PDF?

】如何将外部OCR嵌入现有PDF?【英文标题】:HowtoembedexternalOCRintoexistingPDF?【发布时间】:2010-12-0203:34:18【问题描述】:我有一组图像,我在这些图像上运行OCR应用程序。此过程会生成一个带有字符偏移的XML文件。然后我使用Acrob... 查看详情

在图像完全加载之前触发图像加载事件?

】在图像完全加载之前触发图像加载事件?【英文标题】:imageonloadeventtriggeringbeforeitsimagefullyloaded?【发布时间】:2010-11-0213:05:09【问题描述】:我正在使用Jcropjquery插件,并在onload事件上触发initJcropBox()函数。但此功能在图像完... 查看详情

使用 PDFBox 为扁平化 PDF 表单嵌入字体

】使用PDFBox为扁平化PDF表单嵌入字体【英文标题】:EmbedfontsforflattendPDFformwithPDFBox【发布时间】:2018-12-2909:29:53【问题描述】:我用PDFBox填写了一个PDF表单,我在保存之前将其展平。该表单具有用于文本和表单域的自定义字体。... 查看详情

在尝试加载 YouTube 视频之前,如何判断它是不是可嵌入?

】在尝试加载YouTube视频之前,如何判断它是不是可嵌入?【英文标题】:HowcanItellifaYouTubevideoisembeddablebeforeItryandloadit?在尝试加载YouTube视频之前,如何判断它是否可嵌入?【发布时间】:2012-04-0902:13:52【问题描述】:我有一个无... 查看详情

当嵌入为文本输入边框样式的类时,如何在 flex 中平滑嵌入的图像

】当嵌入为文本输入边框样式的类时,如何在flex中平滑嵌入的图像【英文标题】:howtosmoothanembededimageinflexwhenitsembedasaclassfortextinputborderstyle【发布时间】:2011-03-1609:42:55【问题描述】:你好,我的***er伙伴,我正在寻找平滑和嵌... 查看详情

如何在加载pdf文件之前显示加载图标?

】如何在加载pdf文件之前显示加载图标?【英文标题】:Howtodisplayloadingiconuntilpdffileisloaded?【发布时间】:2015-04-1805:08:13【问题描述】:我想显示加载图标,直到将pdf加载到网页中。我已经粘贴了我尝试过的内容,但即使pdf已完... 查看详情

PDF 在图像上方/文本下方突出显示

】PDF在图像上方/文本下方突出显示【英文标题】:PDFHighlightingaboveimage/belowtext【发布时间】:2012-08-1021:13:38【问题描述】:我正在尝试突出显示pdf中的文本,并在文本下方绘制突出显示的矩形。它在大多数PDF上都可以正常工作,... 查看详情

在使用 ajax 加载图像之前加载页脚

】在使用ajax加载图像之前加载页脚【英文标题】:Footerloadingbeforeimagesareloadedusingajax【发布时间】:2021-11-2718:49:29【问题描述】:我是ajax新手,我想先加载图像,然后加载页脚,但是当我尝试使用ajax加载图像时,首先加载的是... 查看详情

如何通过 Telegram Bot API 在消息中发送嵌入图像和文本

】如何通过TelegramBotAPI在消息中发送嵌入图像和文本【英文标题】:HowtosendanEmbeddedImagealongwithtextinaMessageviaTelegramBotAPI【发布时间】:2016-12-0518:04:25【问题描述】:使用TelegramBotAPI,我知道可以通过https://core.telegram.org/bots/api#sendphot... 查看详情

如何将图像保存和读取为文本,嵌入在代码中

】如何将图像保存和读取为文本,嵌入在代码中【英文标题】:Howtosaveandreadimageastext,embeddedinthecode【发布时间】:2017-02-1413:33:18【问题描述】:我知道这是一个奇怪的问题,但我真的需要它来工作。我有一个非常小的.png图像,... 查看详情

在渲染网页之前等待字体加载

...-1009:07:22【问题描述】:我正在使用@font-face在我的网站中嵌入字体。首先文本呈现为系统默认值,然后(一旦字体文件可能已加载)正确的字体会在几分之一秒后呈现。有没有办法通过将页面渲染延迟到字体加载或类似之后来最... 查看详情

将 Gmail 转换为 PDF:HTML 中的嵌入图像

】将Gmail转换为PDF:HTML中的嵌入图像【英文标题】:convertingGmailtoPDF:embeddedimagesinHTML【发布时间】:2019-08-1411:51:30【问题描述】:我正在使用GmailAPI下载电子邮件。当这些电子邮件是HTML时,我尝试使用Python的pdfkit将它们转换为PDF... 查看详情

在构建之前预加载资产图像

】在构建之前预加载资产图像【英文标题】:preloadassetsimagesbeforebuild【发布时间】:2019-04-1808:36:34【问题描述】:我正在尝试将我的容器的背景图像设置为来自以下资产的图像:returnnewContainer(decoration:newBoxDecoration(image:newDecoration... 查看详情

Android Glide:在加载实际图像之前显示模糊图像

】AndroidGlide:在加载实际图像之前显示模糊图像【英文标题】:AndroidGlide:Showablurredimagebeforeloadingactualimage【发布时间】:2016-06-2112:47:17【问题描述】:我正在开发一个向用户显示全屏图像的Android应用。图像是从服务器获取的。... 查看详情

在继续之前等待图像加载

】在继续之前等待图像加载【英文标题】:Waitforimagetobeloadedbeforegoingon【发布时间】:2012-01-2812:43:57【问题描述】:我正在使用JavaScript和canvas开发游戏。随着游戏的加载,所有将要使用的图像都将被缓存。观察资源时间线,看​... 查看详情

如何在 PDF 中正确定位图像旁边的文本?

】如何在PDF中正确定位图像旁边的文本?【英文标题】:HowtopositionthetextnexttoimagesproperlyinPDF?【发布时间】:2013-03-2206:10:24【问题描述】:我正在使用PHP、Smarty和TCPDF库来生成文档的PDF副本。该文档包含来自WIRIS编辑器的数学表达... 查看详情

如何在加载之前将查询参数嵌入到 webview 的链接页面 url 中?

】如何在加载之前将查询参数嵌入到webview的链接页面url中?【英文标题】:Howtoembedqueryparameterinthelinkedpageurlofwebviewbeforeitsgetsloaded?【发布时间】:2018-07-1308:54:41【问题描述】:我们需要在每个网页URL中添加查询参数(isfromMobile=tr... 查看详情