Archive for the “Uncategorized” Category
Яндекс насчитал в Рунете 15 миллионов сайтов
Осенью 2009 года на Рунет пришлось 6,5 процента всех интернет-сайтов мира. Это означает, что каждый пятнадцатый сайт Сети находится в российском сегменте интернета. Всего же в этом самом сегменте 15 миллионов сайтов. Целых десять страниц подобных данных опубликовал 11 ноября Яндекс в своем отчете “Контент Рунета”.
Основой для исследования послужил, конечно, индекс самого Яндекса как крупнейшего поисковика Рунета. В Рунет Яндекса попали русские, украинские, белорусские сайты, а также все ресурсы в доменах .am, .az, .by, .ge, .kg, .kz, .md, .ru, .su, .tj, .ua и .uz. Таким образом, Яндекс более чем широко трактует понятие Рунета, в который обычно включают лишь сайты в зонах .ru и .su.
Другая немаловажная деталь заключается в том, что все цифры приводятся по “открытому” Рунету, то есть ресурсам, для захода на которые не нужен пароль. Это верхушка огромного айсберга, потому что под водой скрываются такие гиганты, как “Одноклассники” и “Вконтакте”. Чем живут тамошние обитатели и каким контентом они обмениваются, робот Яндекса доподлинно не знает.
Рунетчиков Яндекс, кстати, самостоятельно считать не стал, удовлетворившись оценкой ФОМ в 37,5 миллиона человек. Для оценки всего населения интернета были взяты июньские данные Internet World Stats, где говорится, что в Сеть выходят 1,7 миллиарда человек. Поделив одно на другое, Яндекс выяснил, что рунетчиков насчитывается лишь 2,2 процента от всех пользователей интернета. То есть в Рунете на каждого пользователя приходится в три раза больше сайтов, чем в среднем по миру.
Так как Рунет в таком формате Яндекс оценивает впервые (ранее были обзоры блогосферы и медиасферы), сравнивать не с чем. В документе говорится, что за десять лет Рунет вырос в триста раз, однако как изменился контент, понять из отчета непросто. Поэтому исследование пестрит поражающими воображение числами и обходится без выводов.
В индексе Яндекса хранится 140 тысяч гигабайт текстовых данных или, если считать иначе, 2,3 триллиона слов. Это примерно по 60 тысяч слов на каждого рунетчика, то есть по стандартной книжке из 280 страниц на нос. Если все это распечатать, выйдет состоящий из 10,5 миллиарда страниц куб высотой с девятиэтажный дом.
Каждая четвертая веб-страница, хоть и содержит текст, бесполезна. Это поисковый спам, целью которого является перенаправление пользователя с поисковиков на нужные авторам сайты. Не блещет смыслами свыше половины сайтов Рунета – 56 процентов из них состоят всего лишь из одной страницы.
Информация в Рунете вообще распределена очень неравномерно. 88 процентов информации сконцентрировано менее чем в одном проценте сайтов. Таким образом, хотя Яндекс и сообщает, что средний сайт состоит из 255 страниц, 159 тысяч слов и 204 картинок, этот показатель не отражает типичные случаи. У тех сайтов, которые содержат больше одной страницы, среднее значение, очевидно, гораздо выше.
В основном в Рунете говорят на двух языках – русском (91 процент) и английском (3 процента). Два процента сайтов выполнены на украинском, еще один – на белорусском. Остальные проценты приходятся на все другие языки.
Яндекс рассказал не только о текстах. В российском сегменте Сети поисковик насчитал 2,1 миллиарда изображений, тридцать процентов из которых приходится на крупнейшие фотохостинги – Photofile.ru, Radikal.ru, Фото Mail.ru и Яндекс.Фотки. Там хранится 800 миллионов картинок.
Кроме того, к осени 2009 года в Рунете скопилось 7,2 миллиона видеороликов. Их вставили в веб-страницы 19,1 миллиона раз, а всего они крутятся на 2,4 процента сайтов Рунета. Еще 0,7 процента сайтов практикуют прямые ссылки на видеофайлы. Наконец, музыку в открытом доступе Яндекс нашел только на каждом двухсотом сайте Рунета.
Чтобы сделать отчет немного веселее, Яндекс рассчитал доли позитивных и негативных слов. Как оказалось, позитивных в Рунете вдвое больше, а сайтов с веселыми смайликами аж в 2,5 раза больше, чем с грустными.
Исследование контента завершается кратким обзором норм русского языка. В целом, все осталось на своих местах – кофе в сознании рунетчиков как был, так и остается мужского рода, слово “брачующиеся” не уступило равноправным с ним “брачащимся”, а такие слова, как “тег”, “флеш”, “бренд” и “тренд”, спешно избавляются от иногда употребляющихся букв “э”. И даже опечаток, по данным Яндекса, оказалось в Рунете не слишком много.
“Контент Рунета” – довольно странный отчет. Он интересен не тем, что в нем написано, а самим фактом своего существования. Яндекс, который недавно убрал точку отсчета из блогосферы, теперь пытается поставить ее в исследованиях Рунета.
Другое дело, что считать число слов в российском сегменте Сети – занятие на любителя. Нам бы знать, о чем рассказывает этот бумажный девятиэтажный куб.
Александр Амзин
Источник: Lenta.ru
No Comments »
Сегодня появилась информация о новом алгоритме ранжирования выдачи в ПС Яндекс под названием “Снежинск“.
Разработчики приглашают всех желающих протестировать его работу на буках.
Промониторив выдачу могу добавить, что выдача стала все же намного релевантнее, чем это есть в настоящей версии алгоритма.
Надеюсь Снежинск приживется 
Ссылка на официальный источник – тут
No Comments »
Представленный ниже скрипт поможет вам генерировать уникальные комбинации из цифр и букв, которые можно использовать в качестве логинов/паролей.
В зависимости от параметров, на выходе можно получать различные варианты комбинаций. Вот основные правила:
1. [A-Z-x], будет сгенерирована последовательность состоящая из заглавных букв в диапазоне от “A” до “Z” и длиной “х”.
2. [a-z-x], работает аналогично, с той лишь разницей, что диапазон будет от “a” до “z”.
3. [a-Z-x], последовательность будет содержать символы в диапазоне от “a” до “z” и от “A” до “Z”.
4. [0-9-x], сгенерирует последовательность из чисел.
Вот сам скрипт:
<?php
$line = "[A-Z-1][a-z-12][0-9-2][a-z-2]";
$line = preg_replace_callback('@\[(.*?)\]@is', create_function('$matches','
$q = explode("-", $matches[1]);
for($i=0; $i<$q[2]; $i++){
if(($q[0]=="a")&&($q[1]=="Z")){
$s=rand(65,122);
while(($s>=91)&&($s<=96)) $s=rand(65,122);
$str.=chr($s);
}else{
$str.=chr(rand(ord($q[0]),ord($q[1])));
}
}
return $str;
'), $line);
print_r($line);
?>
П.С.: эти последовательности можно “разбавлять” статическими символами, например:
$line = “QWE[A-Z-1]asd[a-z-12]123[0-9-2][a-z-2]“;
No Comments »
Представляю на ваш суд статистику посещения моего блога за прошлый месяц (картинка кликабельная).
Как видно из графика, с момента “воскрешения” блога суммарное количество посещений перевалило за 1600. Считаю, что это довольно не плохой показатель, учитывая что на ведение блога уделялось лишь несколько минут в конце дня.
Самыми популярными страницами стали:
1. конкурс маула – кто знает, тот поймет
2. халявный доступ к депозиту
По первому пункту, в принципе, ничего сверхъестественного и не ожидал, но вот количество трафика с поста о доступе к депозиту, честно говоря, очень порадовало. Вывод – народ очень любит халяву и ищет ее очень тщательно: суммарно 249 низкочастотных запросов собрали почти 400 уников!!!
No Comments »
До конца этого месяца нужно успеть сделать еще 15 сателлитов, иначе могу потерять крупный заказ. Так что до ноября скорее всего не появлюсь.
До скорых встреч. Ушел в работу….
No Comments »
Вышло очередное обновление для CMS WordPress, теперь доступна версия 2.8.5
В официальном заявлении на сайте разработчиков говорится о таких изменениях:
1. Улучшена защита от Trackback атак
2. Почищены некоторые уязвимые места php кода
3. Загрузка файлов, по умолчанию, теперь разрешена для всех пользователей, включая админов
4. За ненадобностью из старых плагинов убрали 2 импортера Tag-данных
Как видим, разработчики делают уклон в первую очередь на защищенность своей CMS-ки, и это не может не радовать в связи с недавно нашумевшими событиями о взломе очень большого количества блогов.
Так что не задумываясь обновляйте свои блоги/сайты до самой свежей версии, к тому же это делается всего в пару кликов.
P.S.: хочу выразить отдельное спасибо всем тем, кто помогал перевести перечень новшеств этой версии вордпресса с английского языка на русский. А именно, спасибо Веталю и Питону
1 Comment »
Сегодня я расскажу вам о том, как можно получить бесплатно (ну или почти бесплатно) домены с ТИЦ.
Некоторое время назад, от нечего делать, я решил покопать тему по созданию сателлитов не прокачивая их с помощью покупных ссылок, прогона по каталогам и прочего…
Суть в том, чтобы заливать готовый сателлит на уже “прокаченный” домен. Но где их взять? На самом деле, каждый день очень много доменов не продлевают или забывают продлить, и есть большие шансы перерегистрировать их по быстрому на свое имя.
Исходя из этого я написал на ПХП небольшой скрипт, который парсит уже освободившиеся домены с ТИЦом из сервиса “expire.ru-monitor.ru”, затем проверят не являются ли они зеркалом другого домена и напоследок проверят свободен ли домен в данный момент через сервис whois на сайте mchost.ru.
Вот, собственно, сам скрипт:
<?php
set_time_limit(0);
$links = array();
$content = file_get_contents("http://expire.ru-monitor.ru/archive.html?sortby=yandex_tic&a=1");
if (!$content) continue;
if (preg_match('@<b>Страницы:</b>.*?<a href="(.*?)</a>.*?</td></tr>@is', $content, $matches)) {
if (preg_match_all('@<a href="\?sortby=yandex_tic&page=(.*?)"@is', $matches[0], $link)) {
$maxpage=$link[1][count($link[1])-1];
}
}
for ($j=1; $j<=$maxpage; $j++) $links[]="http://expire.ru-monitor.ru/archive.html?sortby=yandex_tic&page=".$j;
for ($j=0; $j<count($links); $j++){
$content = file_get_contents($links[$j]);
if (!$content) continue;
if (preg_match_all('@<td class="table-domain" nowrap><a href="(.*?)".*?http:\/\/search.yaca.yandex.ru.*?">(.*?)</a></td>@is', $content, $matches)) {
$rawdomain=$matches[1];
$domaintic=$matches[2];
$domaintic[$i]=trim($domaintic[$i]);
for ($i=0; $i<count($rawdomain); $i++) {
$rawdomain[$i]="http://expire.ru-monitor.ru/".preg_replace('@\/(.*?)\/@is', '', $rawdomain[$i]);
$content = file_get_contents($rawdomain[$i]);
if (!$content) continue;
if (preg_match_all('@Домен является зеркалом\?</a></td><td class="table-domain">.*?class="table-domain">(.*?)</a></td>@is', $content, $matches)) {
if ($matches[1][1]=="Нет") $domain[]=preg_replace('@http:(.*?)domain=@is', '', $rawdomain[$i]).";".$domaintic[$i];
if ($domaintic[$i]=="0") { $j=count($links); $i=count($rawdomain); }
}
}
}
}
for ($j=0; $j<(count($domain)-1); $j++){
$param=explode(';', $domain[$j]);
$host="www.mchost.ru";
$port="80";
$path="/whois/";
$data = "domainName=".$param[0]."&Submit=%CF%F0%EE%E2%E5%F0%E8%F2%FC";
$packet="POST ".$path." HTTP/1.0\r\n";
$packet.="Host: ".$host."\r\n";
$packet.="Content-Length: ".strlen($data)."\r\n";
$packet.="Referer: http://".$host.$path."\r\n";
$packet.="Content-Type: application/x-www-form-urlencoded\r\n";
$packet.="Connection: keep-alive\r\n";
$packet.="Cache-Control: no-cache\r\n\r\n";
$packet.=$data."\r\n\r\n";
$ock=fsockopen(gethostbyname($host),$port);
fputs($ock,$packet);
$html='';
while (!feof($ock))
{
$html.=fgets($ock);
}
fclose($ock);
if (preg_match('@<font color="#FF0000" size="3"><strong>(.*?)</strong></font>@is', $html, $domaincheck)) {
if($domaincheck[1]==("Домен ".$param[0]." свободен!")) print_r("Домен - <b>".$param[0]."</b> - Yandex ТИЦ - <b>".$param[1]."</b> - Свободен!<br>");;
}
}
?>
Лучше всего запускать его на локальной машине из под денвера.
На выходе вы получите список свободных доменов с ТИЦом от 10. Вот пример того что вы увидите:

Но помните, что методов проверки на забаненость яндексом доменов, которые не стоят на хостинге, нет.
Завтра выложу скрипт для поиска доменов с гугл ПР от 1
15 Comments »
Сегодня произошел очередной апдейт ТИЦ, с чем вас и поздравляю.
Прошел он не так хорошо, как хотелось бы, но всё же кой-какую полезную информацию я получил.
И так, проверив все свои сайты я пришел к выводу, что сайты находящиеся под фильтром Яндекса АГС-17 не зависимо от того велись по ним какие-либо работы или нет, получили некий штраф в виде урезанного ТИЦа.
Например,
50>10
40>10
40>10
30>10
…
Не так давно на сеопульт-ТВ был выложен ролик в котором говорилось, что “фильтрованные” сайты передают ссылочное даже из выпавших из индекса страниц, но в какой степени пока не выяснено.
Не смотря на это заявление, хочу обратить ваше внимание на то, что при выборе доноров при покупке ссылок тщательно анализируйте их на фильтр, иначе просадите деньги впустую.
No Comments »
Собственно сабж.
Не вижу ни какого смысла писать о том, что уже написано много раз.
И поэтому в дальнейшем буду публиковать на блоге что-то новое и уникальное.
И еще: теперь блог будет обновляться значительно чаще
No Comments »
|