Поисковые машины и каталоги как инструменты раскрутки «боевых» интернет-ресурсов и наполнения их контентом

Подписки на новую информацию, появляющуюся в поисковых машинах, без использования RSS-агрегаторов

Инструменты поиска информации в Интернете, полезные для успешного отражения информационного нападения

Поисковые машины и каталоги как инструменты раскрутки «боевых» интернет-ресурсов и наполнения их контентом

Данный раздел написан с использованием некоторых материалов книги «Интернет-разведка: руководство к действию».[58]

Автоматизация наполнения «боевых» сайтов и блогов тематическим контентом. Вряд ли большинство читателей сможет наполнять свои сайты и блоги большим количеством собственных текстов. Как правило, на это нет ни времени, ни большого количества специалистов. А сайт или блог желательно иметь достаточно большой. Кроме того, для создания сайтов и блогов-аккумуляторов необходимо организовать постоянный мониторинг Интернета, дабы своевременно и максимально полно обнаруживать контент, который появляется независимо от вас, но может помочь в борьбе против черных пиарщиков. А если на блоге, помимо участия в информационной войне, планируется размещать материалы по сфере деятельности, интересной многим людям, вы вообще не сможете обойтись без материалов других исследователей (в противном случае у вас будет неполная информация по изучаемой теме). Подобное размещение материалов по общим темам часто бывает полезно, дабы не бросалось в глаза, что блог или сайт создан исключительно для целей контратаки на черных пиарщиков, поэтому на практике очень часто придется размещать на блогах и сайтах тексты или фотографии, созданные другими людьми, а значит, вам необходимо уметь быстро и недорого находить нужную информацию в Интернете и отслеживать ее изменения (слово «недорого» в данном случае относится не к покупке контента, а к затратам на интернет-трафик). Освоив то, что написано ниже, вы сможете всегда быть в курсе новинок по теме вашего блога или сайта, поэтому люди будут читать ваши ресурсы и советовать их знакомым, расширяя тем самым вашу аудиторию. Паукам поисковых машин также нравятся интернет-ресурсы, на которых много тематического контента.

ВНИМАНИЕ! Настоятельно не рекомендуем покупать программы-парсеры,[59] которые механически нагребают обрывки текстов из Интернета и размещают на вашем сайте. Ничего, кроме выбрасывания из поисковых систем, вы этим не добьетесь. Автоматизация, о которой говорим мы, подразумевает быстрый и качественный поиск потенциально полезного вашему интернет-ресурсу материала. Поиск автоматизировать можно и нужно, но оценка найденного материала и принятие решения о размещении в блоге или на сайте должны производиться человеком. При этом помните о необходимости соблюдения авторских прав авторов этих материалов, иначе вы рискуете стать фигурантом уголовного дела. Как правило, условия использования материалов из Интернета изложены в нижней части сайта, на котором эти материалы расположены.

Если вы автоматизируете процесс сбора материалов для блога или сайта с соблюдением озвученных правил, у вас будут хорошие результаты при ощутимой экономии времени.

Почему мы рекомендуем тратить время на изучение языка запросов поисковых машин. Как ни парадоксально звучит, но поиск информации – не главное, для чего нужен язык запросов поисковых машин. Найти информацию обычно можно, потратив значительно меньше времени, чем требуется на изучение языка запросов поисковиков. Но найденная «здесь и сейчас» информация сродни моментальной фотографии, а значительно важнее видеть изменения, происходящие на информационном поле.

По-настоящему вы оцените важность этого инструмента, когда будете проводить мониторинг Интернета в поисках новой информации. При хорошо составленном поисковом запросе вы с минимальными затратами времени увидите только то новое, что появилось по интересующему вас вопросу, и не будете отвлекаться на просмотр информационного мусора. Это правило в равной степени применимо практически к любому виду деятельности, который предусматривает просмотр информации в Интернете.

Мы не будем в этой книге останавливаться на языках запросов поисковиков, ознакомиться с описанием языка запросов поисковых машин можно в разделе «Помощь» этих машин, а более подробно и с примерами – в книге Е. Л. Ющука «Интернет-разведка. Руководство к действию», вышедшей в издательстве «Вершина».

Как поиск с помощью языка операторов запросов поисковых систем может помочь в раскрутке блога или сайта, участвующих в отражении информационного нападения. Если речь идет о сайте или блоге, «заточенном» исключительно под информационную войну, то язык запросов нужен для того, чтобы проводить мониторинг Интернета с целью поиска новых материалов по теме, размещенных вашими союзниками или противниками.

Если блог или сайт решили посвятить какой-то теме, не связанной с информационной войной (например, чтобы в Интернете появилось пять тысяч страниц, на каждой из которых будут стоять гиперссылки на «боевые» ресурсы), необходимость быстрого и качественного мониторинга Сети значительно возрастает.

Как мы уже говорили, для того чтобы блог или сайт не только участвовал в информационной войне, но и пользовался успехом у обычных читателей, он должен содержать полезные для них материалы. Если вы выбрали в качестве контента не художественные рассказы собственного сочинения, а информацию о каких-то событиях, технических устройствах или жизни каких-либо сообществ, вряд ли надо стараться, чтобы все материалы в блоге были вашими авторскими. На наш взгляд, человеческое общество сильно не тем, что каждый его член заново изобретает колесо, а тем, что, познакомившись с изобретениями других людей, каждый привносит что-то свое, и за счет этого все продвигаются вперед.

Однако каждый из ваших потенциальных читателей заинтересован в том, чтобы, во-первых, находить максимально полную информацию по вопросу, которым он занимается, во-вторых, обнаруживать ее как можно быстрее, а в-третьих, тратить на это минимум времени. И если ваш сайт или блог поможет читателю в этом, то он будет приходить к вам снова и снова.

С технической точки зрения эта проблема решена. Сегодня есть бесплатные или просто недорогие инструменты, которые позволяют автоматизировать поиск новых данных среди массива тематической информации. Однако выделение самого этого тематического массива по-прежнему представляет сложности. Более того, эти сложности постоянно увеличиваются, поскольку объем Интернета стремительно растет, а значит, увеличивается и уровень информационного шума.

Если составить поисковый запрос, который будет отфильтровывать в Интернете нужную вам информацию, вы получите замечательный инструмент, позволяющий быстро наполнять ваш блог или сайт тематическим контентом.

И вновь напомним: не забывайте, пожалуйста, об авторских правах на информацию. Интернет значительно упростил процессы ее сбора и размещения, поэтому и проблемы нарушения авторских прав обострились. Практика показывает, что в большинстве случаев конфликт возникает из-за того, что люди просто забывают дать ссылку на источник информации, размещенной ими. В Интернете очень немного ресурсов, которые запрещают использовать их публикации. Да и то, как правило, они не делают запрет полным. Большинство подобных запретов идет от сетевых СМИ. Вот, например, выдержка из правил использования материалов газеты «Ведомости», помещенных на сайте этого издания.

Под использованием понимается любое воспроизведение, распространение, переработка и другие способы, предусмотренные Законом РФ «Об авторском праве и смежных правах»…
Действие настоящих Правил распространяется на информационные агентства, пользователей электронной и печатной версии газеты «Ведомости», официальные интернет-узлы компаний тематические интернет-узлы и интернет-СМИ, еженедельники ежемесячники и прочие печатные издания, газеты, журналы физических лиц и других пользователей (далее Пользователи)…
Любой Пользователь вправе свободно:
– составлять без гиперссылки на источник дайджест любого количества материалов из каждого номера газеты «Ведомости» используя только лид публикаций (полужирный текст, предваряющий текст статьи)
– бесплатно цитировать любое количество материалов газеты «Ведомости» из каждого номера при условии, что объем цитирования составляет не более 50 % новой публикации, в которой оно используется, и для цитирования используется не более 25 % исходной статьи или другого материала газеты «Ведомости»…
До публикации извещать редакцию о намерении использовать материал путем заполнения на сайте http://vedomosti.ru следующей электронной Формы….[60]

Подавляющее большинство интернет-ресурсов не налагает ограничений на перепечатку своих материалов при условии, что на источник дана гиперссылка и имя автора материала указано. Это связано с тем, что всем нужны входящие гиперссылки на их сайт, а перепечатка материала сайта со ссылкой на него – идеальный способ получить «честные» входящие ссылки.

Если вы не хотите или не можете придерживаться тех правил, которые указаны автором материалов, то следует отказаться от размещения их копий. Но это не значит, что вы не можете их размещать у себя никаким способом вообще – речь идет об отказе от размещения именно копии.

У вас есть как минимум два законных варианта использования текстов, которые вам понравились, но которые вы по тем или иным причинам не можете скопировать на свои интернет-страницы. Прежде всего вы можете процитировать небольшой фрагмент текста для того, чтобы его обсудить или проиллюстрировать им свою мысль. При этом вы должны заключить цитируемый текст в кавычки и указать его автора.

Наконец, вы можете пересказать текст своими словами. В этом случае кавычки не нужны, однако вы все равно должны указать, чье произведение пересказываете.

Рассмотрим в качестве примера фрагмент текста Михаила Шолохова, о котором мы уже говорили, изучая операторы языка запросов Гугла. Покажем варианты законного использования текста Шолохова на вашем интернет-ресурсе.

Пример цитирования:

«За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали как огненные язычки».
(Михаил Шолохов, «Тихий Дон»)

Другой пример цитирования:

Михаил Шолохов говорил в своем произведении «Тихий Дон»: «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали как огненные язычки».

Третий пример корректного использования чужого текста:

Михаил Шолохов писал в своем романе «Тихий Дон» о ласковой и тихой осени, прижившейся в лесу. Он рассказывал о том, что листья тополей шелестели, опадая с деревьев. Кусты шиповника писатель сравнивал с пламенем, а немногочисленные ягоды на них – с огненными язычками.

Мы рекомендуем всегда ссылаться на автора того текста, с которым работаете. Это ничуть не умалит вашей собственной роли в глазах читателей, но поможет предотвратить возможные конфликты.

Формы расширенного поиска в поисковых системах. Создатели поисковых машин понимают, что не все, кто пользуется их услугами, хотят изучать язык поисковой машины. Тем более что при всей принципиальной схожести синтаксис запросов конкретных поисковых машин отличается друг от друга, а некоторыми из них приходится пользоваться нечасто, поэтому нет смысла изучать этот язык глубоко для каждой поисковой машины.

Форма расширенного поиска дает возможность детализировать запрос. После ее заполнения поисковая машина автоматически расставляет операторы запроса и выдает соответствующий результат. Такая простота в обращении позволяет пользователю добиваться приемлемых результатов с небольшими усилиями.

Однако оборотная сторона использования такой формы составления поискового запроса – невозможность его тонкой настройки. Как показывает практика, человек, знающий язык запросов поисковой машины, составит запрос существенно точнее, чем алгоритм, записанный в форме расширенного поиска.

Именно поэтому мы предлагаем использовать форму расширенного поиска только на тех поисковых машинах, которыми приходится пользоваться нечасто, и то лишь в том случае, когда вас устраивает получение неисчерпывающего результата.

Как правило, в форме расширенного поиска пользователь может задать расположение слов запроса на странице: в заголовке страницы, тексте или ссылке на страницу. Можно также запретить образование словоформ.

Помимо этого, обычно имеется возможность задать поиск в определенном регионе или на определенном сайте. Ну и, наконец, можно затребовать выдачу документов только определенного формата или на определенном языке. Ограничение поиска конкретным сайтом и документами определенного формата позволяет, например, собрать все презентации, размещенные на сайте, или все документы в формате Microsoft Word (.doc). Иногда эти документы дают возможность получить информацию о противнике, помогающую получить перевес в информационной войне.

Формы расширенного поиска способны создавать относительно простые запросы. Но по-настоящему сложный, тонко настроенный запрос с помощью такой формы обычно составить нельзя.

Поиск картинок. Самый простой способ поиска картинок – искать в специализированных разделах Яндекса, Гугла или других поисковых машин. А смешные картинки, столь востребованные в информационной войне, – на специализированных сайтах, где в огромных количествах представлены «фотоприколы», «карикатуры», «gif-анимация», «плакаты» (по этим словам и без специального поискового запроса вы найдете в поисковиках картинки, подходящие для любой ситуации).

Переход в раздел «Картинки» находится выше поисковой строки (как в Гугле) или ниже ее (как в Яндексе). Перейдите в раздел «Картинки» и ищите в нем, вводя ключевые слова в поисковую строку. Не забудьте, что подписи к картинкам не всегда выполняются на русском языке, поэтому пишите нужные вам слова и по-русски, и по-английски, и транслитом.

Например, поиск в «Картинках» Гугла по слову «машина» мы рекомендуем дополнить поиском по словам «car» и «mashina».

Однако не забудьте дать ссылку на источник картинки, поскольку у нее, еще раз напомним, как правило, есть автор.

В принципе в Интернете существуют и сайты, на которых выложены свободные от авторских прав изображения. Алекс Экслер в своем блоге приводит такие ресурсы, содержащие фотографии или картинки, которые можно использовать бесплатно.

Бесплатные фотобанки:
www.adigitaldreamer.com/gallery/index.php
www.netcarshow.com/; www.everystockphoto.com/index.php
www.kavewall.com/stock/; www.pbase.com/;
www.freephotosbank.com
www.yotophoto.com/
www.morguefile.com/;
www.pro.corbis.com/sectionfront/royaltyfree.aspx

Каталоги бесплатных фотобанков:
www.pstutorialsblog.com/?p=44;
www.graphicsngraphicdesign.com/freestockphotos-graphicdesigners/;
www.exler.ru/blog/item/1569/[61]

А для того чтобы увидеть огромные подборки аватаров, сегодня достаточно в любую крупную поисковую машину ввести простейший запрос: «аватары».

Инструменты автоматизации мониторинга изменений на сайтах. Как мы уже неоднократно говорили, найти сайт-источник информации – не самая большая проблема. Сложнее сделать так, чтобы автоматически узнавать об изменениях на нем. Рассмотрим, как эта проблема решается.

Итак, Интернет позволяет получить доступ на любой сайт, открытый для посещений.

Использование языка запросов поисковых машин, о котором мы подробно говорили выше, дает возможность оперативно и качественно выбрать из массива информации в Интернете те сайты, которые представляют для вас и ваших читателей интерес. Однако простого знания адресов сайтов, которые вам нужны, недостаточно. Просматривать каждую страницу в поисках изменений хотя бы раз в день – очень трудоемко. Сегодня появились технические средства, позволяющие в значительной степени решить эту проблему. Из всего многообразия таких средств мы бы рекомендовали несколько, которые проверены нами в работе и хорошо себя зарекомендовали.

RSS-агрегаторы

Как мы уже говорили в самом начале книги, это приложения, которые позволяют собирать RSS-потоки с разных блогов и сайтов, и читать их все в одном месте, без необходимости посещать первоисточники. RSS-агрегатор автоматически через заданный в настройках интервал времени посещает определенные пользователем сайты и проверяет, не появились ли там новости. Если они появились, RSS-агрегатор уведомляет об этом пользователя и показывает контент. Кроме того, RSS-агрегаторы, как правило, сохраняют принесенные новости в своем архиве.

Сначала появились программы, требующие установки на компьютер пользователя, а затем и он-лайновые сервисы. Рассмотрим их подробнее.

RSSBandit (www.rssbandit.org/). Эта программа устанавливается на компьютер. Она позволяет разнести разные RSS-потоки или группы потоков в разные папки и настроить для этих папок различное время обновления. Программа удобна тем, что информация, собранная с ее помощью, оказывается рассортированной по темам или сайтам, с которых она поступает. Например, можно разместить новости с сайтов, посвященных блогам, в одну папку и задать ей частоту обновления каждые 15 минут, а новости, посвященные компьютерам, – в другую папку, с частотой обновления один раз в три часа. За счет того, что информация поступает в заранее определенные для нее папки, пользователь, получая сообщение, что произошло обновление информации, заранее знает, какого рода новости он получил. Соответственно он может принять решение – надо ли ему читать их прямо сейчас.

RSS Bandit – бесплатная программа. Единственный ее недостаток, на наш взгляд, заключается в том, что она требует установки на компьютере, поэтому с другого компьютера увидеть свою ленту новостей невозможно. Для тех, кто пользуется более чем одним компьютером, это серьезный недостаток. В остальном, по нашему мнению, программа может считаться одним из лучших RSS-агрегаторов.

Яндекс. Лента (www.lenta.yandex.ru/). Это он-лайновый сервис Яндекса, который доступен после вводе логина и пароля пользователя Яндекса. Как и остальные он-лайновые службы Яндекса, Яндекс. Лента бесплатна. Когда она появилась, уже существовало довольно много он-лайновых RSS-агрегаторов, поэтому ее создатели имели возможность взять лучшее от конкурентов, избежав при этом уже известных ошибок. В результате получился продукт, достойный по праву претендовать на лидерство среди русскоязычных он-лайновых RSS-агрегаторов.

Пользоваться Яндекс. Лентой очень легко. После ввода логина и пароля на доступ к почте Яндекса и другим его службам пользователь переходит по адресу Ленты, добавляет туда те сайты и блоги, изменения и новости с которых его интересуют, и больше ничего ему предпринимать не требуется.

Если еще установить в браузер Тулбар от Яндекса (Yandex Toolbar), который автоматически предлагается скачать каждому пользователю браузера Mozilla Firefox при посещении главной страницы Яндекса, то информация об обновлениях начинает поступать автоматически во всплывающем окошке, а доступ к Яндекс. Ленте становится возможен одним нажатием кнопки на панели браузера.

Вот что пишет о Яндекс. Ленте сам Яндекс:

Яндекс. Лента – это новая служба Яндекса для тех, кто хочет читать все интересные новости и блоги на одном сайте.
Яндекс. Лента позволяет объединять RSS-потоки в одну ленту и читать их, отмечая полюбившиеся сообщения. Кроме этого, здесь можно подписаться на поисковые запросы из поиска по блогам и форумам и поиска по новостям.
Как начать пользоваться Яндекс. Лентой? Просто! Выбирайте подходящий вариант:
Начать с чистого листа
Вы можете добавить в свою ленту RSS-потоки, указав их адрес (или адрес их сайта), журналы пользователей и сообществ Livejournal, подписаться на поисковые запросы в поиске по новостям и поиске по блогам и форумам.
Читать ленту друзей
Livejournal – это популярная служба для ведения блогов. Если вы пользуетесь этой службой, то Яндекс. Лента поможет вам лучше организовать ленту друзей. Кроме того, здесь же вы сможете читать и другие блоги.
Читать подписки на новости
Пользователям Яндекс. Новостей: мониторинг СМИ теперь доступен в удобном веб-интерфейсе.[62]

Несомненные преимущества Яндекс. Ленты – удобный и очень простой интерфейс, возможность искать сообщения в Ленте с помощью встроенного поиска и, конечно же, возможность доступа из любой точки земного шара и с любого компьютера, подключенного к Интернету, в том числе со смартфона.

Недостаток у Яндекс. Ленты, на наш взгляд, один – невозможность сортировки RSS-потоков по разным папкам. Там вообще папок нет, это действительно непрерывная лента, в которой каждое новое сообщение располагается выше предыдущего. Информация с разных сайтов идет в том порядке, в котором она поступала, и перемешивается в Ленте. Избежать этого можно лишь одним способом – завести себе несколько разных Лент, но тогда потребуется каждый раз выходить из своего аккаунта и входить в другой.

Тем не менее Яндекс. Лента настолько удобна, что даже пользователи Живого Журнала все чаще переносят в нее свою ленту друзей (френдленту) и читают ее в Яндекс. Ленте вместе с информацией с остальных интересующих их сайтов.

Особо надо отметить, что, помимо RSS-потоков, можно направить в Яндекс. Ленту и информацию по любому поисковому запросу, введенному в Яндекс. То есть, например, если вы введете в поисковую строку Яндекса запрос, по которому будут выдаваться документы о смартфонах, то можете подписаться на новости по запросу, и вся новая информация, поступающая по вашему запросу в Яндекс, будет автоматически один раз в день размещаться в Яндекс. Ленте.

Подписки на новую информацию, появляющуюся в поисковых машинах, без использования RSS-агрегаторов

В первую очередь речь идет о подписке на так называемые новости Яндекса по поисковому запросу. Это не новости в их обычном понимании – как последние события, происшедшие в мире. К новостям Яндекса относятся те новые ресурсы, которые недавно проиндексированы Яндексом. Реальный срок публикации этих документов в Интернете может быть достаточно давним, однако для Яндекса они считаются новинками и поэтому попадают в новости Яндекса.

От Яндекс. Ленты эта услуга отличается тем, что новости приходят по электронной почте в виде гиперссылки на документ и небольшого фрагмента текста документа, тогда для чтения Ленты пользователь должен переходить на ее сайт.

Блоггеру или веб-администратору, который ищет новый контент или новые идеи, появляющиеся в Сети, надо иметь возможность своевременно и точно отслеживать изменения на нужной интернет-страничке. Каждый может себе представить, насколько сложная, а чаще всего и вовсе не осуществимая задача встает в таком случае перед специалистом. Вряд ли даже самый внимательный и скрупулезный человек в состоянии быстро и точно оценить изменения в тексте, занимающем несколько страниц.

Для решения этой проблемы несколькими компаниями разработано специальное программное обеспечение – так называемые сторожевые роботы. Это программы, которые, посетив страницу в первый раз, сохраняют ее образ в своей базе данных, а при повторном посещении сравнивают актуальное состояние страницы с этим образом. Если изменения выявлены, программа отмечает изменившиеся места (они становятся похожи на выделенные маркером на бумажном носителе фрагменты текста). Более того – те фрагменты, которые из текста удалены, также обозначаются во многих программах этого класса – как правило, внизу страницы, дабы не мешать восприятию пользователем информации. Подобные программы могут запускаться пользователем вручную, а могут и работать автоматически, по расписанию.

Их главный недостаток заключается в том, что они платные. Правда, стоимость их в момент написания книги колебалась в пределах 20–40 долларов США и повторная оплата не требовалась, поэтому, на наш взгляд, человеку, который вступил в информационную войну и нацелен на победу в ней, вполне по силам заплатить такую сумму, чтобы сэкономить свое время и повысить качество своего блога или сайта – ведь от этого зависит победа в информационном противостоянии в Интернете.

Давайте рассмотрим эти программы более подробно.

Сторожевой робот WebSite-Watcher. Программа выпущена в Германии, ее официальный сайт www.aignes.com Стоимость продукта составляет около 40 долларов США за индивидуальную лицензию. Кроме того, пользователю дается тридцатидневная полнофункциональная версия, чтобы он успел удостовериться в нужности этого программного обеспечения. Заплатить за WebSite-Watcher требуется лишь один раз, после чего все обновления становятся доступны бесплатно и на неограниченный срок.

Интерфейс программы поддерживает русский и украинский языки, однако раздел «Помощь» до выхода в свет версии 4.06 был написан на английском. После появления версии 4.06 на сайте программы по адресу: www.aignes.com/wswtrans.htm стал доступен exe-файл (wswhelp_russian.exe), который присоединяет к WebSite-Watcher справочную информацию на русском языке. Работа с русским языком не вызывает у программы никаких проблем, она довольно часто обновляется. Так, на момент написания книги была доступна версия 4.33. Программа работает со всеми версиями Windows – начиная с Windows’95 и заканчивая Vista.

WebSite-Watcher работает как клиент на компьютере пользователя. Это значит, что все закладки и конфигурации хранятся локально на жестком диске компьютера и сервер производителя не участвует в процессе поиска.

Ниже перечислено, что именно может проверять программа (приводится по данным производителя).

1. Любые веб-страницы с текстовым содержанием, независимо от расширения файла. То есть статичные страницы (страницы с расширением файла. htm или. html) и динамичные (с расширением файла. asp, php, и т. д.). WebSite-Watcher также выделит цветом все изменения в тексте.

2. RSS/Atom feeds: RSS/Atom преобразовываются в читаемый html-формат и могут обрабатываться как обычные веб-страницы.

3. Страницы, защищенные паролем, – для защищенных паролем страниц вы можете записать макрокоманду, после автоматического выполнения которой страница будет проверена на обновление.

4. Форумы, которые обрабатываются как обычные страницы с небольшой оптимизацией, например, специальной технологией подсветки изменений.

5. Страницы с Javascript – для страниц, содержание которых отображается с Javascript, WebSite-Watcher поддерживает отдельную и более сложную технологию преобразования динамически сгенерированного содержания страницы в статичное содержание.

6. Изображения – если вы отслеживаете изображение, WebSite-Watcher способен обнаружить обновление этого изображения. Изменения в изображении не подсвечиваются.

7. Двоичные (бинарные) файлы – WebSite-Watcher может обнаруживать обновление двоичных файлов (например, файлы zip или exe) сравнением даты файла, размера файла и/или части его содержания (двоичные файлы не будут полностью загружаться при проверке на обновление).

8. Файлы PDF и Flash – файлы PDF и Flash-анимации обрабатываются как двоичные файлы. WebSite-Watcher не подсвечивает изменения в их содержании.

9. FTP-файлы и каталоги – WebSite-Watcher поддерживает отсле живание FTP-файлов и каталогов. FTP-файлы могут проверяться по дате/размеру файла или по содержанию.

10. Интранет – все страницы в сети Интранет могут быть проверены подобно обычным веб-страницам.

11. Локально хранящиеся файлы – WebSite-Watcher может отслеживать любой файл на вашем жестком диске.

После того как WebSite-Watcher установлен и запущен на компьютере, в правом верхнем углу всех наиболее распространенных браузеров (в частности, Internet Explorer, Mozilla Firefox, Opera) появляется значок программы, представляющий собой стилизованный глаз. Вы увидите его в правом верхнем углу браузера левее кнопки, которая позволяет свернуть открытое окно.

Добавление закладки в перечень закладок может производиться двумя способами.

Способ 1. Непосредственно из браузера. Так можно добавить к закладкам ту страницу, которая в настоящий момент загружена в браузере. При нажатии хоть правой, хоть левой кнопкой мыши на значок «WebSite-Watcher» в правом верхнем углу браузера появляется всплывающее меню, первый пункт которого – «Добавить в закладки» (рис. 29).

Рис. 29. Добавление страницы в закладки сторожевого робота WebSite-Watcher.

После того как выбирается этот пункт, появляется окно, в котором URL страницы уже автоматически внесен в соответствующее поле. Пользователю остается только ввести вручную имя страницы (это имя не имеет никакого значения для компьютера, а служит только для того, чтобы пользователь смог определить, для чего нужна та или иная закладка, и поэтому может назначаться произвольно). Начиная с версии 4.10 можно обойтись даже без ручного ввода названия страницы, поскольку программа может автоматически брать это название на самой странице.

ВНИМАНИЕ! После того как URL страницы и имя закладки внесены в это окно, требуется нажать клавишу «ПРОВЕРИТЬ!», а не кнопку «ОК». В этом случае WebSite-Watcher отправится на страницу и сохранит в своем архиве ее образ, с которым и будет при следующем посещении страницы проводить сравнение. В главном окне программы WebSite-Watcher после этого напротив имени закладки появится надпись «ОК, инициализировано».

Если же пользователь выберет кнопку «ОК» вместо кнопки «ПРОВЕРИТЬ!», то WebSite-Watcher сохранит закладку в меню, однако не будет посещать страницу, и соответственно не будет и сохранять в архиве ее копию.

Способ 2. Из главного меню программы WebSite-Watcher. Для этого надо открыть окно добавления новой закладки, щелкнув либо по второй слева кнопке на верхней панели программы (она называется «Мастер» и выглядит как жезл с икрящимся наконечником), либо по третьей слева кнопке в той же панели (она называется «Новая закладка» и выглядит как лист бумаги с размещенным на нем знаком «плюс»). Нажатие кнопки «Мастер» предпочтительно, когда проверяемая страница защищена паролем, поскольку там предусмотрен макрос, позволяющий вводить этот пароль автоматически. В остальных случаях мы предпочитаем кнопку «Добавить закладку».

Программа WebSite-Watcher позволяет проверять изменения на странице как вручную, так и автоматически.

Очень легко организовать новые папки и подпапки для систематизации закладок. Причем папки можно перемещать в новые места, просто перетаскивая их мышью.

Кроме того, в программе предусмотрены фильтры, которые позволяют исключать из проверки определенные строки (например, постоянно меняющееся время или дату в углу страницы либо афоризм, который некоторые оптимизаторы сайтов любят постоянно менять на странице). Использование фильтров позволяет исключать неинформативные сообщения о наличии изменений на странице.

Архивирование страницы непосредственно в программе WebSite-Watcher не предусмотрено, однако производитель вместе с ней поставляет бесплатную программу Local WebSite Archive, которая как раз и создает архивную копию странички Интернета. При этом Local WebSite Archive может запускаться из того же меню, встроенного в браузер, что и WebSite-Watcher.

Подробное описание этих и других возможностей программы WebSite-Watcher приведено в разделе «Помощь» этой программы, поэтому мы не будем останавливаться на них более детально.

Программа Check&Get. Это отечественный продукт. Преимуществом российского происхождения программы является не только корректная поддержка русского языка, но и возможность ее приобретения за российские рубли, а также доступность создателя программы, если к нему появляются вопросы. Причем техническая поддержка при этом также русскоязычная, в отличие от программ-конкурентов.

Мы подтверждаем, что Дмитрий Скорняков (press@activeurls. com) – человек, который создал и поддерживает программу Check& Get, действительно всегда готов помочь разобраться с проблемой, если таковая возникает. Так, одному из авторов этой книги пришлось столкнуться с ситуацией, когда ни одна из приведенных здесь программ не смогла отследить изменения на сайте некоего российского университета. Попытавшись понять причины этой проблемы, в бессилии расписались как создатели и администраторы проблемного сайта, так и служба технической поддержки WebSite-Watcher. И только Дмитрий Скорняков внимательно изучил проблемный сайт, разобрался в причинах возникшей ситуации и дал рекомендации, которые позволили устранить проблему. На наш взгляд, это немаловажное обстоятельство, говорящее в пользу программы Check&Get.

Скачать программу можно по адресу: www.activeurls.com/ru/download.php

Вот что говорит о возможностях программы сам ее создатель:

При обнаружении на веб-странице новой информации, Check&Get автоматически сохраняет «снимок» этой страницы в локальную базу данных и информирует Вас указанным Вами способом. Check&Get может послать Вам сообщение электронной почты с содержанием измененной веб-страницы, при этом изменения на странице будут «подсвечены» для их легкой идентификации. Также программа может вывести сообщение на экран или проиграть звуковой файл, информируя Вас об изменениях.
Check&Get автоматически извлекает названия и описания веб-страниц при создании закладки, проверяет Вашу коллекцию на наличие «мертвых» ссылок, находит дублирующиеся ссылки в Вашей коллекции закладок. Check&Get работает с Internet Explorer, Netscape, Mozilla, Opera, позволяя Вам импортировать, экспортировать и синхронизовать закладки. Благодаря этому Вы всегда имеете в выбранном браузере актуальную и организованную коллекцию ссылок.
Список ссылок также может быть импортирован и добавлен к Вашим закладкам из буфера обмена Windows, окна браузера, HTML-файла или офисного документа.
В дополнение ко всему, Check&Get позволяет конвертировать Вашу коллекцию закладок в файл HTML с легкой и удобной навигацией. Это дает Вам возможность опубликовать свои закладки на веб-сайте или создать в Интернет свой мини-портал буквально за пару минут.
На наш взгляд, способность программы импортировать все закладки или их часть в HTML-файл – интересная находка автора. В ряде случаев эта функция открывает очень полезные возможности. Такой файл может быть использован на сайте как страница с работающими гиперссылками. Причем если его обработать в любом редакторе HTML-файлов, например, в Frontpage или в Dreamweaver, то можно снабдить первоначальный документ необходимыми текстовыми пояснениями или иллюстрациями.
Кроме того, программа Check&Get позволяет одним кликом мыши извлечь все гиперссылки, которые есть на странице.
Полезна и функция удаления «мертвых» и дублирующихся ссылок.
Стоимость программы для частного лица на момент написания книги составляла 580 рублей.
Существует 30-дневная ознакомительная версия программы.[63]

Сторожевые роботы для больших массивов информации. Программы, о которых мы говорили выше, отлично зарекомендовали себя при мониторинге до 500 закладок ежедневно. При большем количестве закладок, как правило, возникают проблемы, связанные с тем, что занесение результатов мониторинга в базу данных делается вручную, чаще всего путем копирования материалов в текстовые файлы – ведь у сторожевых роботов нет собственной базы данных – они лишь показывают изменения по сравнению с предыдущим посещением сайта. При большом объеме работы это становится очень трудоемким занятием. А крупным компаниям и в «мирное» время, и во время информационной войны в Интернете приходится отслеживать значительное количество интернет-источников.

Для таких случаев существует целая линейка программ «Аваланч» (Avalanche),[64] созданных российским специалистом Андреем Масаловичем, который по праву считается одним из лучших в мире специалистом по созданию аналитического программного обеспечения, а «Аваланч» имеет несколько патентов в разных странах.

В отличие от программ WebSite-Watcher и Check&Get, «Аваланч» умеет не только показывать изменения на сайтах, но и сохраняет эти изменения в собственную базу данных, которая может просматриваться непосредственно в программе «Аваланч», а может быть импортирована в Microsoft Access.

Работа с «Аваланчем» выглядит следующим образом. Сначала настраивается собственный паук программы, которому «объясняют», на какие сайты ему надо ходить за информацией. Он может посещать как отдельные разделы сайтов, так и страницы поисковых машин по запросу (например, если на мониторинг поставлена первая страница Гугла по интересующему вас поисковому запросу). Затем настраиваются так называемые умные папки, которые из массива принесенной пауком информации выбирают ту, что относится к определенной теме, и забирают эту информацию к себе. Таким образом, «умные папки» автоматизируют процесс сортировки собранной информации. Эта рассортированная информация хранится в базе данных «Аваланча» и доступна для работы в любой момент.

Более сложные версии «Аваланча», помимо описанной работы, способны к обучению. В простом варианте тексты собираются в Интернете и затем сортируются в программе по прямо указанным ключевым словам. В более сложных версиях они выбираются и сортируются в контексте поставленной задачи, даже если ключевых слов на странице не содержится. Например, если некоторое время вручную помещать материалы, не содержащие ключевых слов, в «умные папки», то со временем, анализируя самостоятельно каждый раз эти тексты, «умные папки» смогут сами распознавать, какие материалы владелец хочет видеть в данной рубрике. Наиболее продвинутые версии «Аваланча» умеют маскироваться под обычный браузер, не давая таким образом объекту возможности вообще понять, что его мониторят «Аваланчем», а также умеют пользоваться анонимайзерами, скрывающими истинный IP-адрес. Объект изучения пребывает в таком случае в уверенности, что к нему заходил обычный посетитель и не распознает город или страну, откуда вы на самом деле посещали его сайт.

Работа самой продвинутой версии «Аваланча», с точки зрения пользователя, выглядит так. Рано утром «просыпается» паук и идет собирать материал. Когда он заканчивает работу, «просыпаются» «умные папки», анализируют собранное и раскладывают по тематическим рубрикам. Затем на компьютере пользователя создается автоматически локальный сайт, который показывает на экране компьютера руководителя все новые сообщения, рассортированные по рубрикам, а также предоставляет возможность сделать запрос к базе данных и посмотреть архив, оценить ситуацию в динамике.

Существует также версия «Аваланча», которая собирает не только изменения, но всю информацию по теме, даже если она повторяется. В ряде случаев пользователям бывает нужна именно такая функция.

Но самая простая и недорогая версия «Аваланча» похожа на WebSite-Watcher, дополненный автоматической сортировкой найденных материалов и базой данных, позволяющей их хранить и анализировать. На наш взгляд, «Аваланч» – возможно, лучшее решение на сегодня для автоматического мониторинга и анализа больших массивов информации в Интернете.

Оглавление