Существует множество онлайн-инструментов, расширений для браузеров и плагинов для рабочего стола, которые превращают веб-страницу в PDF. Если вы регулярно используете эти инструменты, вы можете столкнуться с ситуацией, когда вам нужно конвертировать несколько ссылок за один раз. Делать их один за другим — пустая трата времени и утомительно.
Вы можете автоматизировать эту задачу с помощью простой утилиты командной строки под названием Wget. С помощью нескольких скриптов или приложений и этого инструмента мы покажем вам, как сохранить несколько веб-страниц в файл PDF.
Почему Wget?
Wget — это бесплатный пакет программного обеспечения для загрузки файлов из Интернета. Но это также идеальный инструмент для зеркалирования всей веб-страницы на ваш компьютер. Вот причины:
- Он неинтерактивный, что означает, что он может работать в фоновом режиме и позволяет передавать данные, не требуя вашего присутствия.
- Wget понимает структуру каталогов сайта. Он может переходить по ссылкам на HTML-странице, чтобы создать локальную версию удаленного сайта. При этом также учитывается файл robots.txt.
- Это может даже работать в медленных или нестабильных сетевых подключениях. Если сервер поддерживает повторное получение, он будет повторять попытки до тех пор, пока весь файл не будет передан на ваш компьютер.
- Wget поддерживает прокси-серверы. Это помогает снизить нагрузку на сеть, ускорить процесс поиска и обеспечить доступ за брандмауэрами.
Установка Wget
На macOS
Самый быстрый способ установить Wget — через Homebrew . Это менеджер пакетов для macOS для установки полезных утилит и приложений Unix. Прочтите эту статью о том, как устанавливать приложения MacOS через Homebrew . Затем введите
brew install wget
Вы получите в режиме реального времени прогресс установки всех инструментов (если таковые имеются), необходимых для запуска Wget на вашем Mac. Если вы уже установили Homebrew, обязательно запустите обновление brew, чтобы получить последнюю версию этой утилиты.
В Windows 10
Существует множество версий Wget для Windows 10. Отправляйтесь в Eternally Board, чтобы загрузить последнюю 64-битную сборку. Поместите исполняемый файл в папку и скопируйте его на диск C :.
Теперь мы добавим путь Wget к переменной среды вашей системы, чтобы запустить этот инструмент из любого каталога. Перейдите в Панель управления> Система и нажмите « Дополнительные параметры системы» . В открывшемся окне нажмите Переменные среды .
Выберите « Путь» в разделе «Системные переменные» и нажмите « Изменить» . Затем нажмите на кнопку « Новый» , расположенную в верхнем правом углу окна. Введите C: \ wget и нажмите Ok .
Откройте командную строку и введите wget-h, чтобы проверить, все ли работает. В PowerShell введите wget.exe -h, чтобы загрузить меню справки Wget.
Сохраните ваши ссылки в текстовом файле
Поскольку мы имеем дело с несколькими ссылками, вставка ссылок по одной — сложная задача. К счастью, есть расширения браузера, которые помогут вам выполнить эту задачу.
Link Klipper : извлекает все ссылки на веб-странице в виде файла CSV или TXT. Вы можете даже перетащить прямоугольную область на веб-странице, чтобы выборочно копировать ссылки. Файл сохраняется в папке загрузки .
Snap Links Plus : Это позволяет вам лассо элементы на странице и делать с ними вещи. Удерживая правую кнопку мыши, перетащите выделенный прямоугольник вокруг ссылок. Нажмите клавишу « Control» и скопируйте ваши ссылки в буфер обмена.
Настройка каталога
Wget работает как веб-сканер, извлекая ресурсы веб-страницы из файлов HTML, включая логотипы, шрифты, эскизы изображений, файлы CSS и JavaScript. Он также пытается создать структуру каталогов, напоминающую удаленный сервер. Создайте отдельный каталог для загрузок Wget для сохранения веб-страниц, а также для предотвращения беспорядка.
В терминале Mac или в командной строке Windows введите
mkdir Wgetdown
Это создает новую папку в домашнем каталоге. Вы можете назвать это как угодно. Далее введите
cd Wgetdown
Сменить каталог. Это изменяет текущий рабочий каталог на Wgetdown.
Подробная информация о командах Wget
После создания каталога мы будем использовать саму команду Wget
wget -E -H -k -K -p -i [Path to Your Text File]
Wget использует GNU getopt для обработки аргументов командной строки. Каждый вариант имеет длинную форму вместе с короткими. Длинные варианты удобны для запоминания, но требуют времени для ввода. Вы также можете смешивать разные стили вариантов. Давайте углубимся в детали этих опций:
- -E (–adjust-extension) : если загружается файл типа «app / xhtml + xml» или «text / html» и URL-адрес не заканчивается HTML, этот параметр добавит HTML-файл к имени файла.
- -H (–span-hosts) : когда вы пытаетесь получить ссылки рекурсивно , не нужно извлекать множество ненужных данных. Вы хотите, чтобы Wget следовал только определенным ссылкам. Эта опция включает охват хоста, что позволяет рекурсивному запуску Wget посещать любой хост, на который ссылается ссылка. Например, изображения подаются с другого хоста.
- -p (–page-Requisites) : эта опция загружает все файлы, необходимые для отображения HTML-страницы. Он включает встроенные изображения, аудио и таблицы стилей, на которые есть ссылки.
- -k (–convert-links) : преобразует ссылки в документе, чтобы сделать их пригодными для просмотра в автономном режиме. Он включает в себя встроенные изображения, ссылки на таблицы стилей, гиперссылки на содержимое, отличное от HTML, и многое другое.
- -K (–backup-convert) : при конвертации файла этот параметр создает резервную копию исходной версии с суффиксом .orig .
- -i (–input-file) : читать URL-адреса из пути к локальному или внешнему файлу.
Ввод команд в действие
Чтобы продемонстрировать эти команды на практике, рассмотрим руководство на веб-сайте под названием « Написание рабочих процессов» . Это руководство состоит из оглавления со ссылкой на отдельные главы. Конечная цель — вы хотите создать отдельный файл PDF из этих разделов.
Шаг 1 : Откройте Терминал и создайте новую папку, как обсуждалось выше.
Шаг 2 : Используйте расширение Link Klipper, чтобы сохранить ваши ссылки в виде текстового файла. Сохраните ваш файл в папке « Загрузки ».
Шаг 3. Пока вы находитесь в папке Wgetdown, введите
wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt
Шаг 4 : Нажмите Enter. Подождите, пока процесс завершится.
Шаг 5 : Перейдите в папку Wgetdown. Вы увидите первичную доменную папку processingword.net со всеми активами веб-страницы и chapter1.html.
Преобразование HTML в PDF
Преобразование веб-страницы в PDF выглядит просто. Но сделать их похожими на оригинальную веб-страницу — сложная задача. Достижение желаемого результата зависит от:
- Системные шрифты доступны.
- Целостность разметки HTML.
- Необходимые функции, которые поддерживают таблицы или плавающие изображения.
- Опционально оглавление.
Windows 10
PrinceXML — это приложение для быстрого преобразования файлов HTML в PDF. Он позволяет набирать, форматировать и печатать содержимое HTML с настраиваемой версткой и поддержкой веб-стандартов. Он поставляется с множеством полезных шрифтов, а также позволяет настроить вывод PDF. Приложение бесплатно для некоммерческого использования.
Macos
На вашем Mac вы можете создать службу Automator для преобразования пакета HTML-файлов в PDF-файлы. Откройте Automator и создайте документ Quick Action . Установите параметр службы для получения файлов или папок из Finder. Затем перетащите в Run Shell Script и установите параметр ввода Pass в качестве аргументов . Затем вставьте этот скрипт в тело
for theFileToProcess in "$@" do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done
Сохраните файл как HTML2PDF.
Теперь выберите все файлы HTML в Finder. Щелкните правой кнопкой мыши и выберите « Службы»> «HTML2PDF» . Подождите несколько минут, чтобы конвертировать все ваши файлы.
Способы преобразования одной веб-страницы в PDF
На первый взгляд шаги, связанные с преобразованием нескольких веб-страниц в PDF, выглядят сложными. Но как только вы поймете шаги и процесс, это сэкономит время в долгосрочной перспективе. Вам не нужно тратить деньги на какие-либо веб-подписки или дорогие конвертеры PDF.
Если вы ищете способы превратить одну веб-страницу в PDF, прочитайте эту статью о том, как преобразовать веб-страницы в PDF. преобразования веб-страниц в PDF. преобразования веб-страниц в PDF.