Nigma посчитала объем Рунета

В пресс-релизе, выпущенном сегодня, участники проекта Nigma.ru сообщили свою оценку количества документов в Рунете. Оценка проводилась путем сравнения объемов выдачи всех поисковых систем с выдачей эталонной системы, о которой известны данные по размеру базы.
Результат, оглашенный в пресс-релизе таков - по состоянию на 16-е мая 2005 годв в Интернете имеется примерно 1 миллиард 52 миллиона 227 тысяч 229 русскоязычных документов.
Виктор Лавренко, руководитель проекта Nigma.ru, комментирует полученный результат:
- Это вторая попытка группы посчитать размер Рунета - первая окончилась
неудачно, т.к. предложенный тогда алгоритм не обладал т.н. “устойчивостью” - при изменении некоторых параметров, оценка количества документов не колебалась около т.н. “равновесного решения”, а резко изменялась. Новый алгоритм лишен этого недостатка.
- Как учитывалось наличие дублей в выдачах систем?
- Склейка дублей первоначально была организована по url и заголовкам, но большого отличия от простой склейки по url алгоритм не давал, поэтому мы пренебрегли этим фактором - это допустимо было сделать, т.к. используя частотный словарь, мы выбирали достаточно редкие документы, у которых мало дублей.
- А насколько большое количество документов, по вашей оценке, не проиндексировано вообще ни одной системой - и не попало в сообщенное вами число?
- По косвенной оценке, оно может составлять от 20 до 30 процентов от названного нами числа - т.е. 200-300 миллионов документов.

Напомним, что объем базы Яндекса на данный момент составляет 683 406 837 уникальных документа - таким образом, можно говорить, что реально Яндекс проиндексировал лишь половину (с учетом непроиндексированных вовсе документов) Рунета. Объем базы Рамблера системой не разглашается.

Обновление мета-поисковика Dogpile

InfoSpace запустил новую версию метапоисковика Dogpile. Новый сайт выглядит гораздо аккуратнее, гораздо понятнее объясняет, что результаты поиска берутся из Google, Yahoo

Оборот поискового рынка Великобритании оценивается почти в 600 миллионов фунтов стерлингов

Согласно результатам проведённого E-consultancy исследования, к концу года совокупный оборот компаний, занятых в поисковом секторе Великобритании, составит порядка 598...

Покупатели используют поисковые системы при покупке услуг в области финансов

Compete, Inc. и Yahoo Search Marketing опубликовали результаты нового исследования, которое показало важность проведения рекламной кампании в поисковиках для фирм, продающих...

Официально выпущен MSN Toolbar с возможностью настольного поиска

Корпорация Microsoft выпустила финальную версию поисковой панели для настольного поиска, закончив пятимесячное бета-тестирование

Keyhole покрывает Землю

Как сообщается, Keyhole заявил о том, что его база данных содержит изображения всей планеты с разрешением в 15 метров

Gigablast проиндексировал более 2 миллиардов страниц

В последнее вермя “паук” Мэтта Уэллса (Matt Wells) работал весьма интенсивно, что нашло отражение на домашней станице Gigablast: база данных поисковика предоставляет доступ к...