Nigma посчитала объем Рунета

    В пресс-релизе, выпущенном сегодня, участники проекта Nigma.ru сообщили свою оценку количества документов в Рунете. Оценка проводилась путем сравнения объемов выдачи всех поисковых систем с выдачей эталонной системы, о которой известны данные по размеру базы.
    Результат, оглашенный в пресс-релизе таков — по состоянию на 16-е мая 2005 годв в Интернете имеется примерно 1 миллиард 52 миллиона 227 тысяч 229 русскоязычных документов.
    Виктор Лавренко, руководитель проекта Nigma.ru, комментирует полученный результат:
    — Это вторая попытка группы посчитать размер Рунета — первая окончилась
    неудачно, т.к. предложенный тогда алгоритм не обладал т.н. “устойчивостью” — при изменении некоторых параметров, оценка количества документов не колебалась около т.н. “равновесного решения”, а резко изменялась. Новый алгоритм лишен этого недостатка.
    — Как учитывалось наличие дублей в выдачах систем?
    — Склейка дублей первоначально была организована по url и заголовкам, но большого отличия от простой склейки по url алгоритм не давал, поэтому мы пренебрегли этим фактором — это допустимо было сделать, т.к. используя частотный словарь, мы выбирали достаточно редкие документы, у которых мало дублей.
    — А насколько большое количество документов, по вашей оценке, не проиндексировано вообще ни одной системой — и не попало в сообщенное вами число?
    — По косвенной оценке, оно может составлять от 20 до 30 процентов от названного нами числа — т.е. 200-300 миллионов документов.

    Напомним, что объем базы Яндекса на данный момент составляет 683 406 837 уникальных документа — таким образом, можно говорить, что реально Яндекс проиндексировал лишь половину (с учетом непроиндексированных вовсе документов) Рунета. Объем базы Рамблера системой не разглашается.

    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.