Поисковые машины: лучше, быстрее, точнее? Блиц-опрос

10 октября 2003г.

С момента нашего последнего опроса на эту тему прошло более двух лет -- по идее, огромный срок для такой отрасли, как поиск в Internet. Что изменилось за это время, какие новые технологии и сервисы были внедрены в поисковые порталы?

Стал ли по иск от этого более удобным и, что называется, более релевантным? Комментируют представители и разработчики поисковых порталов.

Джессика Келлер (Jessica Keller)
специалист по связям с прессой агентства Waggener Edstrom,
PR-представителя Microsoft

Если говорить об общих тенденциях последних двух лет в мире поисковых машин, в первую очередь стоит упомянуть о появлении возможности поиска по заголовкам новостей и их текстовому содержанию.

Что касается удобства, здесь можно отметить коррекцию орфографии и подсказки с целью сужения поиска по конкретным темам, когда в запросе присутствуют термины, приобретающие разные значения в зависимости от контекста.

Немало функций, упрощающих поиск в Internet, компания Microsoft интегрировала в броузер Internet Expl orer. К таким относятся автопоиск, помощь в навигации и панель для быстрого поиска. Для повышения релевантности мы пользуемся услугами группы редакторов, которые самостоятельно отбирают качественные сайты для каталога.

Дэвид Крейн (David Krane)< /b>
директор департамента PR компании Google

За последние два года наша компания провела большой объем интересной инновационной работы в области Web-поиска.

Так, например, сегодня Google индексирует 4 млрд. документов, что не сравнимо с показателями двухлетней давности. Увеличен не только объем, но и частота индексации, которая сейчас исчисляется миллионами страниц ежедневно.

Кроме этого, интересно наблюдать за тем, как технологии Web-поиска постепенно перетекают в технологии для Internet-рекламы. Это происходит и в Google, так как мы стараемся сделать рекламу своих клиентов максимально оперативной, целенаправленной и действенной.

Две основные задачи наших программистов -- это релевантность результатов и удобство поиска. За последние два года мы подретушировали Web-интер фейс поисковика (добавили ссылки на поиск иллюстраций, новостей, конференций Usenet и каталога). Алгоритмы для определения релевантности находятся в состоянии постоянного обновления -- ежемесячно мы внедряем несколько новых механизмов, призванных улучшит ь качество поиска.

Дарси Маллин (Darcy Mullin)
специалист по связям с прессой Dotted Line Communications,
PR-представителя компании Ask Jeeves

Самая интересная новая технология в области Web-поиска -- это возможность анализа Web-сообществ. Мы пытаемся рассматривать Всемирную Паутину как группу сообществ и таким образом определять релевантность поиска. Честно говоря, с момента выхода на арену Google никаких серьезных подвижек в мире Web-поиска не произошло.

Мы стараемся угадать мотивацию пользователя, стремимся повысить эффективность и интуитивность поисковой машины.

Так, сегодня вместо стандартно го поиска по ключевым словам многие поисковики пытаются найти именно нужную информацию. Зайдите, например, на Ask.com и задайте вопрос "The date of Mother's Day" -- вы получите дату этого праздника, спросите "What time is it?" -- и ва м скажут, который сейчас час, сделайте запрос "Zip code for Danville, CA" -- и Ask.com выдаст почтовый индекс этого города.

Илья Сегалович
технический директор "Яндекс"

Последние два года для нас были весьма плодотворными.

В сентябре 2001 г. мы запустили в поисковой части портала "Яндекс-Энциклопедии" (на данный момент 250 тыс. статей, 270 посетителей в неделю), в декабре того же года обновили клиентскую программу поиска "Янд екс-Бар", что дало возможность обмена информацией с "Яндексом" в реальном времени (сейчас ею пользуется 230 тыс. человек в день). В апреле 2002 г. мы кардинально изменили дизайн поисковой выдачи, а в июне открыли поиск изображений "Ян декс.Картинки", который стал крупнейшей базой русскоязычного поиска в своей категории (34 млн. картинок в базе, 900 тыс. пользователей в неделю). Мы также переработали "Яндекс.Каталог" -- вторая версия содержит новое представление классифи кации Рунета (вышла в июле 2002 г., и сейчас ее посещают 1,7 млн. человек в неделю). "Яндекс" был первым из русских поисковиков, который начал индексировать документы не-Web-форматов. Так, в феврале этого года мы добавили поиск по форматам .rtf и .pdf, а в июне --.doc.

Серьезной общемировой проблемой Internet-поиска является сложность эффективного выявления очень похожих документов, так называемых "почти-дубликатов". Для ее решения в первой половине 2002 г. мы внедрили проц едуру чистки базы на основе оригинального алгоритма, который регулярно сокращает размеры индекса на 15--20%. Этот механизм позволил существенно повысить качество поиска, выявления спама и т. д.

Вторым по важности направлением после поиска для нас я вляется почтовая служба. Так, за последние два года мы включили тотальную проверку электронных сообщений антивирусом (октябрь 2001 г.); с помощью алгоритмов, заимствованных из поисковых технологий, начали эффективно фильтровать массовые рассылки (август 2002 г.); предложили возможность отключения рекламы (январь 2003 г.); повысили эффективность спам-фильтрации (апрель 2003 г.).

Особо хотелось бы отметить сложный проект, потребовавший от нас интенсивного процесса алгоритмической разработки, -- вторая версия "Яндекс-Новостей". Сейчас этот раздел посещает 750 тыс. человек в неделю, и мы считаем, что потенциал для дальнейшего роста велик. В целом это уникальный проект для Рунета, который полностью автоматически объединяет сюжеты, ранжир ует и аннотирует сообщения 150 русскоязычных Internet-СМИ. В ходе его создания были использованы оригинальные методы социального анализа: учет интересов пользователей поисковой системы, учет текстуальной близости индивидуальных сообщений и даже близости Internet-изданий.

В секции электронной коммерции мы модернизировали экспертную систему "Яндекс-Гуру" (сентябрь 2001 г.), совместно с PayCash запустили систему цифровой наличности "Яндекс-Деньги" (июль 2002 г.), первыми в России получили лицензию Центробанка на предоплаченные финансовые продукты (ноябрь 2002 г.) и, наконец, соединили "Яндекс-Товары" и "Яндекс-Гуру" в единый проект "Яндекс-Маркет" (декабрь 2002 г.), который сейчас насчитывает 500 тыс. посетителей в неделю.

Если говорить о других проектах, то, не считая проведения уникальных в своем роде соревнований-кубков по поиску, мы открыли лицензию на использование нашей идеи (июль 2003 г.), внедрили вторую версию словаря "Янд екс-Лингво" (сентябрь 2002 г., 135 тыс. пользователей в неделю), а также "Яндекс-Игрушки" (апрель 2002 г., сейчас 200 тыс. посетителей в неделю).

Кроме того, портал отметил несколько важных вех: мы перешли границу в терабайт проиндек сированных текстов (март 2002 г.), отсудили у "Адвокатуры.Ру" домен yandex.com (июнь 2002 г.), отметили пятилетие своего запуска (сентябрь 2002 г.), вышли на самоокупаемость (ноябрь 2002 г.), обработали 150 млн. запросов в месяц (май 2003 г.).< /p>

Алексей Чуксин
директор по маркетингу и рекламе компании "МЕТА"

В 2001 г. нами было разработано новое программное ядро поисковой системы, основным достоинством которого стал координатный индекс, учитывающий взаимное расположение слов в документе при поиске, что позволяет более точно находить не просто отдельные слова, а и словосочетания. Кроме этого, появилась возможность группировки результатов поиска по серверам, реконструкции содержания докум ентов непосредственно на нашем сервере; расширен язык запросов. Новое ядро стало базой для создания целой линейки продуктов: корпоративной поисковой системы, поисковой системы для сайтов, CD, ПК и локальных сетей.

За последние два года у нас появил ась возможность полнотекстового поиска по заданным регионам Украины, новостям, справочнику "Бизнес-Украина", нескольким электронным магазинам. "МЕТА" научилась понимать новые форматы документов, такие, как .doc, .xls, .rtf, .zip, .rar и т. п. Сейчас эти возможности доступны только нашим корпоративным клиентам, но в текущем году они будут внедрены и на "большом" поисковом портале.

В дополнение к используемым в системе словарным морфологическим анализаторам были разработаны модули "вероятностной морфологии" для украинского, русского и английского языков. Они позволяют с очень высокой точностью склонять "несловарные" слова (фамилии, аббревиатуры, неологизмы и т. п.).

За истекший пе риод количество запросов к системе увеличилось в пять раз, в то время как поисковый индекс вырос почти в десять раз. Чтобы успевать за таким ростом, приходится постоянно развивать программную часть и наращивать аппаратные мощности. Так, например, летом э того года "МЕТА" перешла на кластерную технологию, в результате чего поисковый индекс был разнесен на несколько компьютеров -- это позволило существенно повысить производительность системы и сократить время полного обновления индекса примерно д о одного месяца.

Основные шаги, предпринимаемые нами сейчас в целях повышения качества поиска, заключаются в учете взаимной "ссылаемости", тематической принадлежности сайтов и борьбе с поисковым спамом.

Источник: ITC Online

Вернуться к списку статей