Пока тематика этого бложика не определена, можно пописать в блог все подряд о том, что делается с рейтингом. Может показаться, что ничего. Почти так и есть (:

На самом деле, за прошедшие полгода было сделано вот что:

  1. Написан скрипт, который берет все подряд в блоги с первых 3360 страниц рейтинга Яндекса по блогам и обновляет данные в нашем рейтинге, или добавляет новый блог, если необходимо. Это очень хорошо работает для топовых блогов. И не очень топовых, с авторитетностью больше 1000.
  2. Другой скрипт проверяет блоги с авторитетностью меньше 1000, или которые давно не обновлялись (например, потому что вылетели из тех 3360 страниц), но не каждый по отдельности, а так же, по страницам. Это позволило ускорить процесс обновления, ведь на одной странице может быть сразу много блогов из нашей базы.
  3. Еще один скрипт начал просматривать профили ЖЖ и твиттера и записывать в базу местоположение, указанное в них.
  4. Для всех этих скриптов была произведена оптимизация БД, теперь там все летает.

О последнем подробней. Скрипт обработал уже почти 190 тысяч блогов из 307 тысяч в базе. Понятно, что не у всех указано местоположение, и не у всех оно указанно корректно (например, «Мир где всё мягко»). Когда обработаются все блоги, будет написан еще скрипт, который будет разбираться в этом множестве написаний регионов и выставлять блогу регион. И вот тогда тысячи новых блогов появятся в рейтинге, и будет интересно. Сейчас там всего лишь 6191 добавленных в ручную блогов.

Теоретически можно вытянуть и всю базу рейтинга Яндекса, но кому нужны эти миллионы ботов и профили ВКонтакте с низкой авторитетностью?

Базы в 300 тысяч блогов пока хватит для какой-нибудь интересной статистики с диаграммами. Например, распределение количества блогов и их авторитетности по регионам, соотношений ЖЖ/автономных/твиттера и многое другое, еще не придуманное.

Надеюсь, такие новости станут регулярными.