воскресенье, 14 октября 2012 г.


Стратегія лідерства




      У минулому році проходила активна конкурентна боротьба за лідерство між пошуковими системами. На перше місце виходив, то Google, то Яндекс.

      Яндекс був лідером за якістю пошуку оригінальних джерел даних, за повнотою російського та українського індексів, за якістю підказок. Якщо порівнювати з даними попереднього року, в цьому році Яндекс краще став фільтрувати ресурси із неприпустимим змістом. Тому співпраця Рамблера з цією пошуковою системою пішло останньому на користь. Стрімко покращилися показники пошукової видачі Mail.Ru. Тут його розробки перевершують Google. Найбільша кількість «дорослих» сайтів знаходилося в пошуку Bing.

    Через свою популярность пошуковики-лідери більше відчувають на собі результати роботи оптимізаторів і несуть велике рекламне навантаження. Yahoo! Найкраще вдалося відфільтрувати сайти, насичені рекламою. Цікаво, що в BingРамблерАпорт і Яндексі цей показник приблизно знаходиться на одному рівні. Найбільше сайтів з великою кількістю реклами можна знайти в пошуку Mail.Ru і Google.
     Найшвидшими пошуковиками цього року виявилися Google і Mail.Ru. Швидкість роботи пошуку «Яндекса» далеко не найкраща, і при цьому спостерігається погіршення ситуації на протязі року. За швидкістю індексації Google лідирує (майже 90% нових сторінок виявляються у видачі протягом місяця). Яндекс займає друге місце, але постійно покращує цей показник.
    Підсумовуючи всі дані аналізаторів, Яндекс і Google мають найкращі результати. Загальна якість пошуку в них знаходиться на рівні 80%. У жовтні «Яндексу» вдається з мінімальним відривом вийти на перше місце, хоча це не повністю заслуга «Яндекса» - якість пошуку Google погіршилася.
Тому яку пошукову систему обрати для використання вирішувати вам!
Як обрати пошукову систему?
      Пошукові системи вже давно стали невід'ємною частиною Інтернету. Пошукові системи зараз - це величезні і складні механізми, що представляють собою не тільки інструмент пошуку інформації, але і привабливі можливості для роботи та навчання. Тому дуже важливо обрати дійсно потужну систему пошуку інформації.
        При пошуку в Інтернеті важливі дві складові - повнота (нічого не втрачено) і точність
(не знайдено нічого зайвого). Зазвичай це все називають одним словом - релевантність, тобто
відповідність відповіді питанню.

      1. Охоплення і глибина. Обсяг бази пошукової машини

        Під охопленням мається на увазі обсяг бази пошукової машини: який вимірюється 3-ма
показниками:
  • загальним обсягом проіндексованої інформації;
  • кількістю унікальних серверів;
  • кількістю унікальних документів. 
       Під глибиною розуміється - чи існує обмеження на кількість сторінок або на глибину вкладеності директорій на одному сервері.

      Як перевірити
      Деякі машини пишуть на своєму сайті статистику робота. Але можна перевірити і самому -
треба задати кілька пошукових запитів, що складаються з одного слова (щоб виключити вплив мови запитів, у тому числі - різного трактування пробілу), і при цьому дивитися на статистику результатів, що видається машиною - зазвичай на початку списку вказано, скільки всього було знайдено документів. Крім того, що слова мають бути з різних областей, добре ще взяти слова різних "терезів" - рідкісні, "середні" і "важкі" (частотні), і порівняти кількість знайденого. Важкі слова, зокрема, тестують повнотекстової (Індексацію всіх слів документа) пошукової машини.
     Глибину ходіння робота перевірити складніше - для цього треба взяти якісь сайти, наприклад, з розгалуженою структурою архівів, і перевірити, проіндексовані чи документи, на які можна потрапити тільки, наприклад, за 6 переходів по посиланнях.

       2. Швидкість обходу і актуальність посилань

       Швидкість обходу Мережі показує, наскільки швидко відбувається індексація свіжо-доданого ресурсу і наскільки швидко оновлюється інформація в базі. Важливим показником якості пошукової машини (її робота) є не тільки "захоплення" нових територій: але і відстеження стану вже охоплених. Сервера зникають і з'являються, сторінки на них оновлюються. Посилання, які видає пошукова машина в списку знайденого, повинні, по-перше, існувати, і, по-друге, їх зміст повинен відповідати запиту.

        Як перевірити
      Об'єктивну інформацію можна отримати, проаналізувавши логи серверів - робот пошукової машини представляється зазвичай ім'ям своєї машини (або схожим чином), так що можна побачити, як часто він буває на сервері, скільки сторінок переглядає і т.д. На жаль, зазвичай для вивчення буває доступний лог тільки свого сайту, тому залишається експериментальний спосіб.
Для визначення швидкості обходу треба створити де-небудь сторінку тексту, додати її в пошуковики і подивитися, як швидко вона почне знаходитися. Або змінити вже наявну сторіночку. Для визначення актуальності посилань - перевірити документи хоча б на першій сторінці списку знайденого по декількох запитах. Повідомлення "Not Found" свідчить про те, що документ більш не існує.

    3. Якість пошуку 

     Кожна пошукова машина має свої алгоритм сортування результатів пошуку. Чим ближче до
початку списку виявляється потрібний вам документ, тим краще працює релевантність.

     Як перевірити:
    Тільки шляхом експерименту. Рекомендується для порівняння робити запити різної довжини.
Можна також використовувати мову запитів, при цьому ті, кому неохота читати опис, можуть
скористатися розгорнутою сторінкою запиту ("розширений пошук" в Апорт і Яндексі, "Детальний запит" у Ремблер - варіанти перекладу на російську мову "advanced search").

    Крім релевантності, існують важливі користувальницькі характеристики.

    Швидкість пошуку
    Якщо пошукова машина відповідає повільно, працювати з нею неефективно. Варто додати,
що видима користувачу швидкість залежить не тільки від самої пошукової машини, але і від Інтернет-каналів.

   Як перевірити
   Шляхом експерименту - треба пошукати запити різної довжини, різної <тяжкості> слів і в
різний час доби (завантаження серверів істотно нерівномірна по добі, пік - близько 3-4 годинb дня).

    Пошукові можливості (робота з мовою документу, мова запитів)
    Ще один пункт порівняння - що саме і як пошукова машина вносить в індекс.
    Повнотекстова пошукова машина індексує всі слова відомого користувачеві тексту. Наявність морфології дає можливість знаходити шукані слова у всіх відмінах або дієвідміни. Крім цього, в мові HTML існують теги, які також можуть оброблятися пошуковою машиною (заголовки, посилання, підписи до картинок і т.д.).
     Мова запитів у вигляді стандартних логічних операторів (І, АБО, НЕ) є практично у всіх машин. Деякі вміють шукати словосполучення чи слова на заданій відстані - це часто важливо для отримання розумного результату. Додатковою можливістю є пошук в зонах документа - заголовках, засланнях, ключових словах (META KEYWORDS) і т.д. Додаткова можливість мови запитів - природно-язиковий запит, який не вимагає знання операторів.

     Як перевірити
     Зазвичай ця інформація публікується на сервері пошукової машини (у Help'е). Тим не менш,
рекомендується перевірити на реальних запитах, оскільки іноді бажане видається за дійсне.

       Додаткові зручності
     Це додаткові можливості, які надає користувачам пошукова машина. Сюди входить всілякі варіанти пошуку (спеціалізовані сторінки, пошук схожих документів, обмеження області пошуку), і список знайдених серверів, і пошук по датах і серверам, і зручний інтерфейс пошукової машини, і можливість його персоналізації.

      Як перевірити
     Інформація може бути частково опублікована на сервері пошукової машини, але краще всього спробувати самому попрацювати з цими можливостями.

      Зрозуміло, що запропонована дослідницька програма займе деякий час. Крім цього, пошукові машини, як і весь Інтернет, не стоять на місці. Але "пошуковик" - один із засобів вашої роботи, тому варто приділити її вибору деяку увагу - в будь-якому випадку, не меншу, ніж організації свого робочого місця.

Бажаю успіху в пошуку!