Скачать сайт с помощью WGet
Случается необходимость скачать сайт, причины на то могут быть самые разные и не будем сейчас об этом. О правовой и моральной стороне своих действий, каждый сам способен рассудить. Надо, значит надо!
Нас сейчас интересует техническая возможность и способы реализации задачи.
Хочу предложить решать данную задачу с помощью свободной не-интерактивной консольной программы для загрузки файлов по сети —
И что не может не радовать — программа не только включена почти во все дистрибутивы GNU/Linux, но так же компилируется для Microsoft Windows. Здесь я уже описывал пример работы с данной программой. Но в этом посте будет описано больше полезных ключей для скачивания сайта, а так же пояснения — как работать с ней в O/S Windows. Кстати, это возможно начиная с Windows 95.
Скачать скомпилированную для Windows WGet можно
Начну с примера для Linux:
user@home:~/downloads$ wget -r -l0 -k -p -nv -t 5 -c -nH i-notes.org -P /home/user/site/i-notes.org
и для Windows:
D:\install\WGet\wget.exe -r -l0 -k -p -nv -t 5 -c -nH i-notes.org -P C:\temp\site\i-notes.org
и пояснений к команде и используемым в команде ключам:
-r — рекурсивная загрузка, т.е. wget скачает все страницы на которые ссылается скачиваемая страница.
-l0 — глубина рекурсии (в данном случае это 0 — т.е. рекурсия неограниченна).
-k — коррекция гиперссылок так, это сделает их локальными.
-np — этот ключ запретит подниматься выше указанного каталога, может пригодиться при скачивании только определенного раздела сайта.
-p — загрузка вспомогательных элементов для отображения Web-страницы: CSS, JavaScript и т.п. Без данного ключа будет скачиваться только голый HTML.
-nv — использовать сокращенные сообщения (чтобы выключить сообщения, см. -q). Сообщения об ошибках и основная информация будут отображаться.
-nH — не создавать каталог с именем хоста. Потому что здесь мы его указали сами «-P /home/user/site/i-notes.org» и он будет создан автоматически.
-E — сохранять файлы с расширением HTML.
-N — --timestamping Включить сравнение по дате. Учет временной метки (заголовка Last-Modified): скачиваются только те файлы, которые обновились.
-t — количество попыток скачивания файла в случае возникновения ошибки.
-P — каталог, в который следует сохранить сайт. В моем случае это /home/user/site/i-notes.org ,для MS Windows пишем что-то вроде C:\temp\i-notes.org или куда вы будете скачивать.
-A — скачивать файлы, соответствующие шаблону. Шаблон может быть либо частью имени файла, либо задаваться с помощью символа *. Так, например, скачать все файлы с расширением .gif можно либо с помощью -A .gif, либо -A *.gif.
-R — пропускать файлы, соответствующие шаблону. Шаблоны задаются так же, как для опции -A.
-c — Возобновление загрузки файла, если загрузка файла была прервана.
Это основное, что может потребоваться. Для более подробного изучения работы WGet курим русский ман WGet)
Поделись с друзьями:
Рубрики: NetWork, Network, Soft, Web, Windows · Теги: HTTP, HTTPS, linux, web, wget, Windows, скачать, фтп
30.06.2016 в 14:12
· Ссылка
Что делать если не качает вообще ни один сайт, а пишет — Распознается metal-lux.ru : ошибка: При просмотре базы данных произошла неисправимая ошибка
wget:Не удается разрешить адрес
И так с любым сайтом
Что не так делаю? Посоветуйте пожалуйста.
07.07.2016 в 13:33
· Ссылка
работает ли резолвер в системе?
есть ли пинг на проблемный сайт?
27.05.2014 в 06:06
· Ссылка
C:\wget_test\wget.exe -r -l0 -k -p -nv -t 5 -c -nH dikorosoed.ru -P C:\wget_test\dikorosoed.ru
Сайт около 10 мегабайт
Сайт скачивается, но ссылки под картинками не преобразуются для локального просмотра, а ведут в интернет.
27.05.2014 в 11:44
· Ссылка
Александер, пропишите http:// перед адресом сайта