Объяснение технологий

Как конвертировать несколько веб-страниц в PDF с помощью Wget

Как конвертировать несколько веб-страниц в PDF с помощью Wget

Существует множество онлайн-инструментов, расширений для браузеров и плагинов для рабочего стола, которые превращают веб-страницу в PDF. Если вы регулярно используете эти инструменты, вы можете столкнуться с ситуацией, когда вам нужно конвертировать несколько ссылок за один раз. Делать их один за другим — пустая трата времени и утомительно.

Вы можете автоматизировать эту задачу с помощью простой утилиты командной строки под названием Wget. С помощью нескольких скриптов или приложений и этого инструмента мы покажем вам, как сохранить несколько веб-страниц в файл PDF.

Почему Wget?

Wget — это бесплатный пакет программного обеспечения для загрузки файлов из Интернета. Но это также идеальный инструмент для зеркалирования всей веб-страницы на ваш компьютер. Вот причины:

  • Он неинтерактивный, что означает, что он может работать в фоновом режиме и позволяет передавать данные, не требуя вашего присутствия.
  • Wget понимает структуру каталогов сайта. Он может переходить по ссылкам на HTML-странице, чтобы создать локальную версию удаленного сайта. При этом также учитывается файл robots.txt.
  • Это может даже работать в медленных или нестабильных сетевых подключениях. Если сервер поддерживает повторное получение, он будет повторять попытки до тех пор, пока весь файл не будет передан на ваш компьютер.
  • Wget поддерживает прокси-серверы. Это помогает снизить нагрузку на сеть, ускорить процесс поиска и обеспечить доступ за брандмауэрами.

Установка Wget

На macOS

Самый быстрый способ установить Wget — через Homebrew . Это менеджер пакетов для macOS для установки полезных утилит и приложений Unix. Прочтите эту статью о том, как устанавливать приложения MacOS через Homebrew . Затем введите

brew install wget 

Вы получите в режиме реального времени прогресс установки всех инструментов (если таковые имеются), необходимых для запуска Wget на вашем Mac. Если вы уже установили Homebrew, обязательно запустите обновление brew, чтобы получить последнюю версию этой утилиты.

В Windows 10

Существует множество версий Wget для Windows 10. Отправляйтесь в Eternally Board, чтобы загрузить последнюю 64-битную сборку. Поместите исполняемый файл в папку и скопируйте его на диск C :.

установить местоположение wget в Windows

Теперь мы добавим путь Wget к переменной среды вашей системы, чтобы запустить этот инструмент из любого каталога. Перейдите в Панель управления> Система и нажмите « Дополнительные параметры системы» . В открывшемся окне нажмите Переменные среды .

щелкните переменную среды в дополнительных настройках системы

Выберите « Путь» в разделе «Системные переменные» и нажмите « Изменить» . Затем нажмите на кнопку « Новый» , расположенную в верхнем правом углу окна. Введите C: \ wget и нажмите Ok .

добавить wget в системную переменную окружения

Откройте командную строку и введите wget-h, чтобы проверить, все ли работает. В PowerShell введите wget.exe -h, чтобы загрузить меню справки Wget.

запустите wget из командной строки

Сохраните ваши ссылки в текстовом файле

Поскольку мы имеем дело с несколькими ссылками, вставка ссылок по одной — сложная задача. К счастью, есть расширения браузера, которые помогут вам выполнить эту задачу.

Link Klipper : извлекает все ссылки на веб-странице в виде файла CSV или TXT. Вы можете даже перетащить прямоугольную область на веб-странице, чтобы выборочно копировать ссылки. Файл сохраняется в папке загрузки .

расширение klipper ссылка хром

Snap Links Plus : Это позволяет вам лассо элементы на странице и делать с ними вещи. Удерживая правую кнопку мыши, перетащите выделенный прямоугольник вокруг ссылок. Нажмите клавишу « Control» и скопируйте ваши ссылки в буфер обмена.

Настройка каталога

Wget работает как веб-сканер, извлекая ресурсы веб-страницы из файлов HTML, включая логотипы, шрифты, эскизы изображений, файлы CSS и JavaScript. Он также пытается создать структуру каталогов, напоминающую удаленный сервер. Создайте отдельный каталог для загрузок Wget для сохранения веб-страниц, а также для предотвращения беспорядка.

В терминале Mac или в командной строке Windows введите

 mkdir Wgetdown 

Это создает новую папку в домашнем каталоге. Вы можете назвать это как угодно. Далее введите

 cd Wgetdown 

Сменить каталог. Это изменяет текущий рабочий каталог на Wgetdown.

Подробная информация о командах Wget

После создания каталога мы будем использовать саму команду Wget

 wget -E -H -k -K -p -i [Path to Your Text File] 

Wget использует GNU getopt для обработки аргументов командной строки. Каждый вариант имеет длинную форму вместе с короткими. Длинные варианты удобны для запоминания, но требуют времени для ввода. Вы также можете смешивать разные стили вариантов. Давайте углубимся в детали этих опций:

  • -E (–adjust-extension) : если загружается файл типа «app / xhtml + xml» или «text / html» и URL-адрес не заканчивается HTML, этот параметр добавит HTML-файл к имени файла.
  • -H (–span-hosts) : когда вы пытаетесь получить ссылки рекурсивно , не нужно извлекать множество ненужных данных. Вы хотите, чтобы Wget следовал только определенным ссылкам. Эта опция включает охват хоста, что позволяет рекурсивному запуску Wget посещать любой хост, на который ссылается ссылка. Например, изображения подаются с другого хоста.
  • -p (–page-Requisites) : эта опция загружает все файлы, необходимые для отображения HTML-страницы. Он включает встроенные изображения, аудио и таблицы стилей, на которые есть ссылки.
  • -k (–convert-links) : преобразует ссылки в документе, чтобы сделать их пригодными для просмотра в автономном режиме. Он включает в себя встроенные изображения, ссылки на таблицы стилей, гиперссылки на содержимое, отличное от HTML, и многое другое.
  • -K (–backup-convert) : при конвертации файла этот параметр создает резервную копию исходной версии с суффиксом .orig .
  • -i (–input-file) : читать URL-адреса из пути к локальному или внешнему файлу.

Ввод команд в действие

Чтобы продемонстрировать эти команды на практике, рассмотрим руководство на веб-сайте под названием « Написание рабочих процессов» . Это руководство состоит из оглавления со ссылкой на отдельные главы. Конечная цель — вы хотите создать отдельный файл PDF из этих разделов.

Шаг 1 : Откройте Терминал и создайте новую папку, как обсуждалось выше.

создать папку через терминал

Шаг 2 : Используйте расширение Link Klipper, чтобы сохранить ваши ссылки в виде текстового файла. Сохраните ваш файл в папке « Загрузки ».

добавить ссылки через расширение klipper

Шаг 3. Пока вы находитесь в папке Wgetdown, введите

 wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt 

использование команд wget

Шаг 4 : Нажмите Enter. Подождите, пока процесс завершится.

команда wget в процессе

Шаг 5 : Перейдите в папку Wgetdown. Вы увидите первичную доменную папку processingword.net со всеми активами веб-страницы и chapter1.html.

скачанные файлы со всеми активами

Преобразование HTML в PDF

Преобразование веб-страницы в PDF выглядит просто. Но сделать их похожими на оригинальную веб-страницу — сложная задача. Достижение желаемого результата зависит от:

  • Системные шрифты доступны.
  • Целостность разметки HTML.
  • Необходимые функции, которые поддерживают таблицы или плавающие изображения.
  • Опционально оглавление.

Windows 10

PrinceXML — это приложение для быстрого преобразования файлов HTML в PDF. Он позволяет набирать, форматировать и печатать содержимое HTML с настраиваемой версткой и поддержкой веб-стандартов. Он поставляется с множеством полезных шрифтов, а также позволяет настроить вывод PDF. Приложение бесплатно для некоммерческого использования.

приложение princexml для преобразования html в pdf

Macos

На вашем Mac вы можете создать службу Automator для преобразования пакета HTML-файлов в PDF-файлы. Откройте Automator и создайте документ Quick Action . Установите параметр службы для получения файлов или папок из Finder. Затем перетащите в Run Shell Script и установите параметр ввода Pass в качестве аргументов . Затем вставьте этот скрипт в тело

 for theFileToProcess in "$@" do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done 

Сохраните файл как HTML2PDF.

скрипт для конвертации файлов в Mac

Теперь выберите все файлы HTML в Finder. Щелкните правой кнопкой мыши и выберите « Службы»> «HTML2PDF» . Подождите несколько минут, чтобы конвертировать все ваши файлы.

конвертировать кучу HTML-файлов с помощью этого скрипта

Способы преобразования одной веб-страницы в PDF

На первый взгляд шаги, связанные с преобразованием нескольких веб-страниц в PDF, выглядят сложными. Но как только вы поймете шаги и процесс, это сэкономит время в долгосрочной перспективе. Вам не нужно тратить деньги на какие-либо веб-подписки или дорогие конвертеры PDF.

Если вы ищете способы превратить одну веб-страницу в PDF, прочитайте эту статью о том, как преобразовать веб-страницы в PDF. преобразования веб-страниц в PDF. преобразования веб-страниц в PDF.

Похожие посты
Объяснение технологий

Как работает жесткий диск? [Технология объяснила]

Объяснение технологий

Что такое программное обеспечение с открытым исходным кодом? [MakeUseOf Объясняет]

Объяснение технологий

Разрешения графического дисплея - что означают цифры? [MakeUseOf Объясняет]

Объяснение технологий

Как переформатировать внешний жесткий диск, не теряя на нем все