Skip to main content

PDF: советы и шпаргалки

PDFTK

Установка PDFTK в CentOS 7

В CentOS 6 ставилось из коробки:

В CentOS 7 же немного поплясять с гуглом, и о счастье — добрый самаритянин сделал неофициальный реп с pdftk:

Рекомендую еще поставить полезный пакет poppler для манипуляций с PDF: sudo yum install -y poppler-data.noarch poppler.x86_64 poppler-utils.x86_64

Работа с метаданными

Если метаданные содержат кириллицу, то используем команды с суффиксом _utf8! Извлекаем мета-данные:

Редактируем мета-данные:

Обновляем мета-данные:

Если только латиница, то команды без _utf8:

Добавление водных знаков на страницы PDF

Выберем какое-нибудь красивое япанское лого для примера: https://commons.wikimedia.org/wiki/Category:6_letter_alphabet_logos_of_Japan

устанавливаем зависимости:

готовим ватермарки (надо векторно перевести SVG -> PDF):

добавляем ватермарки:

сжимаем получившийся PDF:

Причёсывание SVG перед использованием

Может понадобиться сделать две вещи перед вставкой водного знака:

масштабирование

Для этого меняем размеры холста файла SVG

выбор более подходящего цвета

за цвет лого отвечает такая конструкция: style=»fill:##007088″ в SVG. Ок, меняем цвет на #0B2AD:

Удаление текстовых водных знаков из PDF

Иногда организация просит для ускорения процесса покупать самому те или иные стандарты как частное лицо. И всё бы ничего — но в документы обычно впечатываются ватермарки с Именем-Фамилией и номером заказа, и может вы не желаете и не станете шарить и распространять, но за всех круг лиц, которые имеют доступ к документу ручаться не можете, поэтому лучше из документа информацию о персоналии выпилить с корнем, что для этого надо:

— Удаляем пароль владельца любым доступным способом

— Разархивируем файл:

— Теперь ищем ключевую фразу и удаляем/заменяем её:

—  Самый важный этап (долго не мог понять как обойти когда не дошёл до этого шага) — прогоняем PDF через pdftk чтобы восстановить поврежденные правкой чексам и прочие элементы:

—  Архивируем для уменьшения размера документа:

—  Если необходимо, восстанавливаем оригинальную защит уи права на документ:

— Успех!

!Note: всё тоже самое можно засунуть в баш-скрипт для пакетной обработки документов.

 

Однострочники (Операции с PDF в CLI)

Сборка из нескольких PDF одного многостраничного

Например, когда из PCAD печатаешь в PDF он печатает в несколько одностраничных файлов, исправляем ситуацию:

 

Делаем из PDF -> JPG

или так, если надо не перевести страницы в картинки, а извлечь уже существующие картинки:

тут CQFP100L — папка, в которую складываются файлы-картинки

или даже так:

  • density — разрешение выходных картинок в DPI
  • rotate — на сколько градусов развернуть итоговое изображение

Снятие защиты для возможности распечатать файл

https://smallpdf.com/unlock-pdf — An easy-to-use online PDF password remover Если по каким-то причинам не сработало, то ставим «Password Recovery Tool for PDF files»:

Запуск:

Но скорость мала, потому как в один поток, зато из коробки. Если охота заморочиться и на работе простаивает сервер с 32 ядрами, то гуглим pdfcrack-multithread что выводит нас на проект https://github.com/x2q/pdfcrack-ng

PS: если заметка помогла Вам, поделитесь ей с друзьями или коллегами: