Как Google определяет первоисточник контента

Дорогие друзья, в эфире мой новый перевод видеоматериалов с англоязычного канала Google для вебмастеров GoogleWebmasterHelp.

В сегодняшнем видео Мэтт Каттс, руководитель Google Webspam team, расскажет о том, как Google определяет первоисточник контента.

И что можно сделать, если другие ресурсы занимаются плагиатом по отношению к вашему сайту.

Мое пояснение: в англоязычном интернете в случаях плагиата вебмастера могут действовать по Закону о защите авторских прав в цифровую эпоху (DMCA).

Ссылка на него приведена в тексте поста.

Как Google определяет первоисточник контента

Для отображения переведенных мной русских титров после запуска видео нужно выбрать “Russian”, кликнув по показанной иконке:

Перевод на русский

 

Если перейти на страницу видео на Youtube, кликнув по его названию, и раскрыть описание ролика, то можно увидеть фразу “Russian subtitles provided by Mike Shakin”. Там же можно найти ссылки на информацию, упомянутую в сегодняшнем выпуске.

Вопрос: Сегодняшний вопрос от Кунала Прадхана. Я родом из восточной части штата Кентукки, поэтому приношу извинения, что порой могу неправильно произносить имена.

Вопрос следующий: “Google посещает сайт A каждый час и сайт B один раз в сутки. Сайт B пишет статью, сайт A копирует ее, при этом изменяя дату публикации. Робот Googlebot посещает сайт A первым. Контент какого сайта Google будет считать первоисточником и у какого сайта позиции будут выше? И если это будет сайт A, то как ему восстановить справедливость по отношению к сайту B?”

Мэтт Каттс: Я могу рассказать много интересного о том, как происходит индексирование интернета. К примеру, частоту Найквиста нужно измерять два раза.

Но на практике вы в любой момент можете изменить страницу своего сайта. Вся идея индексации страниц состоит в том, что проиндексировать весь интернет и получить идеальную копию каждого сайта на текущий момент практически невозможно, потому что в любой момент мы можем получить только ограниченное число страниц.

Если мы будем пытаться проиндексировать все страницы интернета, наша архитектура позволяет это сделать, то интернет может не выдержать такого количества запросов. Мы стараемся индексировать сайты в более щадящем режиме.

Мы также расставляем приоритеты, основанные на таких моментах, как page rank каждой отдельной страницы, или, возможно, PageRank главной страницы сайта.

Вернемся к вопросу о том, что если сайт A чаще посещается роботом, но оригинальная статья была опубликована на сайте B, то можно ли считать, что сайт A занимается плагиатом по отношению к сайту B?

Для того, чтобы противостоять этому, существуют специальные методы. Например, если вы сделаете ретвит в Твиттере, то люди его увидят, и, возможно, поделятся вашей ссылкой, и мы сможем перейти по ссылке быстрее, чем если бы мы обнаружили материал на другом сайте.

Другой вариант - вы можете использовать такой сервис, как Pub SubHubbub, который позволяет пинговать различные интернет ресурсы. Мы пока не используем этот сервис в полной мере в плане улучшения индексации сайтов, но это может измениться со временем. Это хороший способ для тогo, чтобы сообщать о том, что на вашем блоге опубликован новый пост.

Но давайте все-таки поиграем в этот гипотетический сценарий. Если сайт A скопировал вашу статью и изменил дату публикации, то это является обманом, особенно если они заявляют о том, что это они написали эту статью.

Вы можете сделать две вещи. Первая - если вы автор, этой статьи, то вы всегда можете действовать в соответствии с Законом о защите авторских прав в цифровую эпоху, где вы высылаете соответствующий DMCA запрос. Вы можете найти необходимую информацию по адресу google.com/DMCA.html. Все, что вам нужно сообщить, это то, что этот сайт скопировал вашу статью, но вы являетесь ее автором.

Данный сайт либо может обжаловать это, если они будут с этим не согласны. Они могут сказать, что это они написали эту статью. За это существуют наказания в случае, если это окажется неправдой. Или они могут не спорить с вашим утверждением и просто удалить ваш материал со своего сайта.

Если кто-либо копирует ваши материалы, вы всегда можете действовать по Закону о защите авторских прав в цифровую эпоху. Если ваши статьи использует какой-либо автонаполняемый сайт, который ворует статьи и других людей, вы также можете сообщить об этом. Это некачественные сайты и мы не хотим, чтобы ресурсы такого рода находились в нашем индексе.

Но давайте рассмотрим ситуацию с другой стороны. Теоретически возможно, что мы найдем статью на одном сайте быстрее, чем на другом. Но мы прикладываем максимум усилий для того, чтобы правильно определять первоисточник любой части контента, но я бы пока не сказал, что мы достигли в этом полного совершенства. Мы усиленно работаем по определению первоисточников и даем возможность вебмастерам сообщать о том, что это именно они написали контент.

В новостном сервисе Google News мы недавно представили два новых тега для эксперимента, чтобы увидеть, какой это даст эффект. Это направлено именно для улучшения определения первоисточника контента.

Мы также находимся в поиске новых способов определения первоисточников. В данный момент теоретически возможно, что первоисточник статьи может быть определен неправильно. На практике это встречается редко и у вас есть возможность исправить ситуацию, от составления DMCA запроса до сообщения о поисковом спаме. Надеюсь, это вам поможет.

Это был мой перевод видео Мэтта Каттса.

Источник: shakin.ru

12 Ноября 2012
« предыдущая статья К списку статей

Наши социальные каналы:

Подписаться на рассылку