Как и где посмотреть историю сайта
Наверняка вам доводилось слышать фразу “интернет помнит всё”, и это не просто выражение, а реальный факт. Постепенно с развитием цифровизации появилась необходимость в сохранении сайтов со всеми данными, поэтому в 1996 году некоммерческой организацией “Архив Интернета” был придуман веб-архив или по-другому Wayback Machine. С тех пор сервис создает и хранит копии сайтов в различные периоды, поэтому вы в любой момент сможете увидеть, как выглядел онлайн-ресурс в момент создания его копии. В этой статье специалисты “Пользы” рассмотрят основные задачи, функционал и способы использования веб-архива.
Что хранит веб-архив
Роботы круглосуточно сканируют сайты и пополняют данные архива. При этом каждая копия страницы не заменяет предыдущую, а сохраняется отдельно с указанием даты добавления. Так, в веб-архиве можно найти:
- HTML-страницы, CSS-стили и скрипты, относящиеся к страницам;
- картинки, видео и музыку;
- другие файлы и документы, доступные на сайте в момент его копирования.
Частота создания снимков зависит от популярности сайта: страницы с многотысячным трафиком боты могут копировать ежедневно или несколько раз в день. Процесс сохранения данных осуществляется по технологии, схожей с работой “Яндекса” или Google. Роботы поисковых систем называются краулерами или пауками, а сканирование страниц — парсингом. Единственное отличие заключается в том, что поисковики сохраняют ссылки и текстовое содержимое страниц, а веб-архив — весь контент. Скрыть наполнение онлайн-ресурса от роботов интернет-архива можно с помощью пароля или параметров индексирования, о чем мы расскажем далее.
Функции веб архива
Восстановление сайта
При создании сайта важно настроить резервное копирование, чтобы в случае поломки можно было легко восстановить все данные. Если такого механизма нет или он не сработал должным образом, то вернуть доступ к онлайн-ресурсу поможет веб-архив: найдите в нем последнюю версию и скачайте ее вручную или через специальные программы.
Анализ конкурентов
Другие компании могут создавать несколько вариантов своего сайта, меняя расположение кнопок и баннеров, тестируя различную цветовую гамму, выбирая лучший вариант навигации и так далее. Вся история изменений доступа в веб-архиве, поэтому можно ее посмотреть и сделать определенные выводы для своего проекта.
Поиск удаленной информации
Проекты и компании могут удаляться, а сайты — закрываться, но поисковики иногда выдают ссылки на нерабочие ресурсы. Найти нужную информацию и прошлые версии удаленных страниц можно в веб-архиве.
Проверка домена
При поиске домена, доступного для приобретения, стоит заглянуть в веб-архив: возможно, предлагаемые URL-адреса уже скомпрометировали и внесли в черные списки.
Как посмотреть историю сайта
Поиск
Для просмотра истории конкретного сайта необходимо знать только его домен. Открываем главную страницу веб-архива и вставляем ссылку в соответствующую строку.
Затем сервис показывает всю доступную информацию по сайту и делит ее по вкладкам с календарем, коллекцией, изменениями, общим, картой сайта и адресами. В календаре, например, выделяются даты с указанием точного времени, когда были сделаны копии сайта. Можно нажать на любую из них.
При этом дни, когда роботы заходили на сайт, отмечаются разными цветами:
- синий — версия с успешным сохранением сайта, доступная к просмотру;
- зеленый — версия с перенаправленным веб-архивом на другой адрес (редирект);
- красный — версия с ошибкой, когда сайт не загрузился.
Если открыть один из сохраненных вариантов, то можно увидеть страницу в том виде, в котором она выглядела в момент создания копии.
Сравнение версий
Кроме просмотра сайта можно сравнить несколько версий его страниц, сохраненных в разное время. Для этого нужно открыть вкладку Changes в результатах поиска, выбрать даты и нажать на кнопку Compare.
После этого две версии сайта откроются рядом друг с другом для более удобного сравнения.
Общая сводка
Вкладка Summary показывает всю информацию о сайте в виде графиков и таблиц. Сверху можно выбрать нужный период аналитики и медиатипы содержимого.
Медиатипы (MIME-types) представляют собой специальные метки, состоящие из типа и формата файла. Например, image/png означает, что это изображение в формате png.
Сохранения за год
На вкладе Site Mup находится круговая диаграмма с уровнями вложенности страниц сайта, которые сохранял веб-архив. В центре круга — главный URL страницы, а на других частях расположены другие уровни.
Даты сохранений
Последняя вкладка URLs позволяет посмотреть информацию каждой страницы сайта в виде таблицы с указанием адреса, медиатипа сохраненных данных, датами копирований, общим количеством сохранений и изменений.
Возможные проблемы при работе с историей сайта
Вся информации веб-архива находится в публичном доступе и найти ее может любой желающий. Однако нужного сайта в этой библиотеке может не оказаться или он может быть скопирован без изображений или элементов дизайна просто потому, что робот либо не добрался до ресурса, либо в процессе архивации произошла ошибка. В последнем случае можно поискать другие снимки, а первый вариант объясняется следующими причинами:
- удаление контента по просьбе владельца веб-ресурса;
- нарушение сайтом закона о защите интеллектуальной собственности;
- ограничение доступа к содержимому сайта его создателями.
Кроме веб-архива корректировки и версии различных сайтов доступны в кэше браузера Google Chrome и в поисковой системе “Яндекс” через использование команда “site” и “url”, а также в сервисах Keys.so и Whois History.
Как добавить сайт в архив
Несмотря на автоматическую работу сервиса, отправить роботов веб-архива для копирования сайта может любой пользователь, для этого даже не нужно проходить авторизацию. Достаточно найти поле Save Page Now в нижней части интерфейса главной страницы, вставить ссылку на ресурс и нажать на кнопку save page. Также можно сразу перейти в подраздел по ссылке или воспользоваться расширением для браузеров или мобильным приложением сервиса.
Такая функция наиболее актуальна для собственников небольших порталов с маленьким трафиком, которые система копирует редко.
Данные в веб-архиве можно не только отслеживать, но и скачивать. В этом помогут автоматические сервисы:
- Архиварикс. Восстанавливает данные действующих и удаленных сайтов с помощью собственной системы CMS, которая совмещается с другими аналогичными инструментами. Для использования необходимо заполнить онлайн-форму с указанием домена, выбором периода и настройкой других параметров.
- Rush Analytics. Позволяет открывать прошлые версии сайта и задавать для просмотра определенную. Данные скачиваются в формате html-документа, который содержит стили, иллюстрации и другой контент.
- R-tools.org. Скачивает содержимое сайта со всеми изменениями полностью или частично. Это платный сервис, а стоимость его услуг рассчитывается исходя из фактического объема загрузки.
Удаление сайта из веб-архива
Убрать копии онлайн-ресурса из веб-архива можно двумя способами: написать электронное письмо на почту info@archive.org с указанием URL-адреса и доказательствами, что вы являетесь владельцем, или самостоятельно. Последний вариант предполагает ограничение доступа веб-архиву к robots.txt — файл находится в корневой папке сайта: просто добавьте туда код “User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: /”. После этого существующие версии сайта удалятся из библиотеки, а новые перестанут создаваться до момента сохранения настроек. Однако при окончании регистрации домена без продления прошлые данные вернутся в веб-архив.
Современный веб-архив можно назвать уникальным хранилищем практически всего интернета. По данным организации “Архив интернета” на 2024 год, сервис создал каталог из более 286 млрд веб-страниц, а общий объем накопителей превышает 200 петабайт. Если вы захотите добавить на свой портал текст с неработающего веб-ресурса, то системы будут считать информацию уникальной, так как удаленные страницы не индексируются поисковиками. Однако разработку и наполнение сайта лучше доверить профессионалам. Специалисты “Пользы” помогут в разработке и продвижении эстетичного и функционального сайта с учетом специфики и аудитории бизнеса.
Остались вопросы?
Задайте их нам