понеділок, 8 квітня 2013 р.

Механізм пошуку в ІПС


Пошукові cистеми зазвичай мають три компоненти:
  • агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;
  • база даних(індексатор) яка містить інформацію, що зібрано павуками;
  • пошуковий механізм(пошукова машина), який користувачі використовують як інтерфейс для взаємодії з базою даних.
Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів. 

1. Спайдери (Spider, Crawler, Robot) — програма, що відвідує веб-сервери, зчитує й індексує цілком або частково їхній вміст і далі ру­хається через посилання, знайдені на сервері. Спайдер повертається через визначені періоди часу, наприклад, кожного місяця, і повторює індексацію сторінок.
Кожний пошуковий механізм має власний набір засобів, завдяки якому визначається збір документів. Зупинимось коротко на їх осо­бливостях.
• Агенти є найінтелектуальнішими з пошукових засобів. Вони мо­жуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача, а також шукати сайти специфіч­ної тематики і повертати списки сайтів, відсортованих за їх відвід­уваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для отримання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.
• Павуки здійснюють загальний пошук інформації в Інтернеті. Павуки повідомляють про зміст знайденого документа, індексу­ють його і добувають підсумкову інформацію. Вони також мо­жуть переглядати заголовки, деякі посилання і відправляти про- індексовану інформацію до бази даних пошукового механізму.
• Кроулери переглядають заголовки і повертають користувачу тільки перше посилання.
• Роботи можуть бути запрограмовані таким чином, щоб пере­ходити по різним посиланням різної глибини вкладеності, ви­конувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посилан­нями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажа­ють, щоби вони були проіндексовані.
2. Усе, що знаходить і зчитує спайдер, попадає в індекси пошу­кової системи.Індексатор системи — гігантське сховище інформації, де зберігаються копії текстової складової усіх сторінок, що відвідав і проіндексував спайдер.
Агенти збирають та індексують різні види інформації. Деякі, на­приклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному до­кументі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу ви­значає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем ви­значають, які сайти або типи сайтів агенти мають відвідати та проін- дексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.
Користувачі можуть розміщувати власну інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли користувач хоче знайти інформацію, доступну в Інтернеті, він відвідує сторінку пошукової системи і заповнює форму, що деталі­зує потрібну йому інформацію. Тут можуть використовуватись клю­чові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.
База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в спис­ку будуть такі документи, що є найбільш релевантними до запиту ко­ристувача.
3. Пошуковий механізм - це програма, що відповідно до запиту корис­тувача перебирає індекси пошукової системи в пошуках інформації і видає йому в порядку зменшення релевантності знайдені документи.  
Релевантність визначає, наскільки повно той або інший документ (зміст знайденої веб-сторінки) відповідає критеріям, зазначеним у за­питі користувача. Але комп'ютер — не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантності.
Теоретичних методів визначення релевантності веб-сторінок іс­нує більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Rambler, Hndex) і статистичне (Google). Основні російські пошукові системи (зокрема Rambler) використовують лінгвістичний напрям, коли пошуковий робот, переглядаючи сторінку, звертає увагу на «лі­тературність» її написання (наприклад, «чом ти не прийшов» буде більш релевантною, ніж «чом ти не травень прийшов»).
Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:
• Кількість слів запиту, який є у текстовому вмісті документу (тобто в html-коді).
• Теги, в яких ці слова розташовуються.
• Місцеположення шуканих слів у документі.
• Питома вага слів, відносно яких визначається релевантність сторінки, у загальній кількості слів документу.
Вище вказані принципи застосовуються всіма пошуковими сис­темами, в той час як наведені нижче використовуються лише деяки­ми, але достатньо відомими (наприклад, AltaVista).
• Час — тобто як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Ін- тернеті існує багато веб-сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, то це означає, що його власник є досвідченим за певною темою. Вірогідно, що користу­вачу більше підійде веб-сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж тематикою.
• Індекс цитованості показує як багато посилань на дану веб- сторінку ведеться з інших сторінок, що зареєстровані у базі по­шукової системи.
База даних виводить ранжований таким чином перелік докумен­тів з html-кодами і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отримано­го переліку — деякі відображають лише посилання, інші — виводять посилання з декількома першими реченнями документу чи заголовок документу разом з посиланням. Коли користувач звертається до по­силання на один з документів, цей документ завантажується з серве­ра, на якому він знаходиться.
Зрозуміло, далеко не завжди документ, визнаний пошуковою системою найбільш релевантним, буде таким на думку самого корис­тувача.
У кожній пошуковій системі працює власний спайдер, кожна сис­тема індексує сторінки своїм особливим способом і пріоритети при пошуку за індексами теж відмінні. Тому запит на основі визначених ключових слів або виразів у кожній з пошукових систем зазвичай по­роджує різні результати.

Немає коментарів:

Дописати коментар