Пошукові cистеми зазвичай мають три компоненти:
- агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;
- база даних(індексатор) яка містить інформацію, що зібрано павуками;
- пошуковий механізм(пошукова машина), який користувачі використовують як інтерфейс для взаємодії з базою даних.
Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів.
1. Спайдери (Spider, Crawler, Robot) — програма, що відвідує веб-сервери, зчитує й індексує цілком або частково їхній вміст і далі рухається через посилання, знайдені на сервері. Спайдер повертається через визначені періоди часу, наприклад, кожного місяця, і повторює індексацію сторінок.
Кожний пошуковий механізм має власний набір засобів, завдяки якому визначається збір документів. Зупинимось коротко на їх особливостях.
• Агенти є найінтелектуальнішими з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача, а також шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для отримання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.
• Павуки здійснюють загальний пошук інформації в Інтернеті. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також можуть переглядати заголовки, деякі посилання і відправляти про- індексовану інформацію до бази даних пошукового механізму.
• Кроулери переглядають заголовки і повертають користувачу тільки перше посилання.
• Роботи можуть бути запрограмовані таким чином, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.
2. Усе, що знаходить і зчитує спайдер, попадає в індекси пошукової системи.Індексатор системи — гігантське сховище інформації, де зберігаються копії текстової складової усіх сторінок, що відвідав і проіндексував спайдер.
Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем визначають, які сайти або типи сайтів агенти мають відвідати та проін- дексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.
Користувачі можуть розміщувати власну інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли користувач хоче знайти інформацію, доступну в Інтернеті, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.
База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в списку будуть такі документи, що є найбільш релевантними до запиту користувача.
3. Пошуковий механізм - це програма, що відповідно до запиту користувача перебирає індекси пошукової системи в пошуках інформації і видає йому в порядку зменшення релевантності знайдені документи.
Релевантність визначає, наскільки повно той або інший документ (зміст знайденої веб-сторінки) відповідає критеріям, зазначеним у запиті користувача. Але комп'ютер — не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантності.
Теоретичних методів визначення релевантності веб-сторінок існує більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Rambler, Hndex) і статистичне (Google). Основні російські пошукові системи (зокрема Rambler) використовують лінгвістичний напрям, коли пошуковий робот, переглядаючи сторінку, звертає увагу на «літературність» її написання (наприклад, «чом ти не прийшов» буде більш релевантною, ніж «чом ти не травень прийшов»).
Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:
• Кількість слів запиту, який є у текстовому вмісті документу (тобто в html-коді).
• Теги, в яких ці слова розташовуються.
• Місцеположення шуканих слів у документі.
• Питома вага слів, відносно яких визначається релевантність сторінки, у загальній кількості слів документу.
Вище вказані принципи застосовуються всіма пошуковими системами, в той час як наведені нижче використовуються лише деякими, але достатньо відомими (наприклад, AltaVista).
• Час — тобто як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Ін- тернеті існує багато веб-сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, то це означає, що його власник є досвідченим за певною темою. Вірогідно, що користувачу більше підійде веб-сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж тематикою.
• Індекс цитованості показує як багато посилань на дану веб- сторінку ведеться з інших сторінок, що зареєстровані у базі пошукової системи.
База даних виводить ранжований таким чином перелік документів з html-кодами і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отриманого переліку — деякі відображають лише посилання, інші — виводять посилання з декількома першими реченнями документу чи заголовок документу разом з посиланням. Коли користувач звертається до посилання на один з документів, цей документ завантажується з сервера, на якому він знаходиться.
Зрозуміло, далеко не завжди документ, визнаний пошуковою системою найбільш релевантним, буде таким на думку самого користувача.
У кожній пошуковій системі працює власний спайдер, кожна система індексує сторінки своїм особливим способом і пріоритети при пошуку за індексами теж відмінні. Тому запит на основі визначених ключових слів або виразів у кожній з пошукових систем зазвичай породжує різні результати.
Немає коментарів:
Дописати коментар