понеділок, 8 квітня 2013 р.

Види пошукових служб



За принципом дії розрізняють кілька видів пошукових систем:
·         пошукові каталоги;
·         рейтингові системи;
·         індексні бази даних. 

Пошукові тематичні каталоги
Принцип дії таких каталогів дуже нагадує організацію тематичних каталогів великих бібліотек. Звернувшись на адресу пошукового каталогу, користувач знаходить на його основній сторінці перелік тематичних категорій, наприклад таких як Освіта, (Education), Наука (Science), Бізнес (Business), Мистецтво (Art) тощо.
Як правило, такі каталоги є ієрархічними гіпертекстовими меню з пунктами і підпунктами, які визначають тематику сайтів, адреси яких містяться в цьому каталозі, з поступовим (від рівня до рівня) уточненням теми.
Працювати з пошуковими каталогами просто. У них пошук інформації відбувається на інтуїтивному рівні і практично завжди закінчується успіхом. Однак за цією простотою приховується найвища складність створення і ведення каталогу. Пошукові каталоги створюються, як правило, вручну. Висококваліфіковані редактори особисто переглядають інформаційний простір Веб, відбираючи те, що на їхню думку становить загальний інтерес, і заносять адреси до каталогу.
Найбільшим пошуковим каталогом світу є Yahoo! Українська meta.ua.
Рейтингова система
Ідея цієї системи полягає у тому, що на головній сторінці розміщується перелік найважливіших тем, які, в свою чергу, містять список тематичних розділів. Вибравши потрібну тему, користувач отримує обмежений перелік веб-ресурсів, присвячених даній темі. Поруч з кожним веб-ресурсом висвітлюється оцінка його популярності, яка вимірюється в кількості переглядів цього ресурсу за останню добу. Проте, потрібно пам’ятати, що не завжди високий рейтинг об’єктивно відповідає якості веб-ресурсу.
В Україні основним засобом рейтингового пошуку є Top Ping - topping.com.ua,
В Росії це: Рамблер - www.rambler.ru.

Індексні пошукові системи
Більшість пошукових систем світу - індексні пошукові системи, які ще називають пошуковими покажчиками, пошуковими серверами, словниковими пошуковими системами, автоматичними індексами, пошуковими машинами, Search Engines - в англомовних джерелах тощо. Їхнє призначення – якнайкраще охопити інформаційних веб-простір і подати його користувачам у зручному вигляді.
Принцип роботи з індексними пошуковими системами (ІПС) засновано на ключових словах. Розпочинаючи пошук інформації з певної теми, користувач має ввести ключові слова у рядок пошуку, які описують його тему і вибрати кнопку Знайти (або Найти, Go, Search), яка розташована поряд з рядком пошуку.
Після вибору кнопки Знайти, ключова фраза посилається на сервер і пошукова система починає пошук у своїх базах даних адреси веб-ресурсів, які містять вказані ключові слова. Як здійснюється пошук, користувач не може бачити, він лише побачить результат запиту – нове вікно в якому відображається перелік веб-ресурсів, які містять ключові слова. 


Порівняльна таблиця різних видів пошукових служб




Пошукові тематичні каталоги
Рейтингова система
Індексні пошукові системи
Принцип дії
Принцип дії таких каталогів дуже нагадує організацію тематичних каталогів великих бібліотек. Звернувшись на адресу пошукового каталогу, користувач знаходить на його основній сторінці перелік тематичних категорій, наприклад таких як Освіта, (Education), Наука (Science), Бізнес (Business), Мистецтво (Art) тощо.
Як правило, такі каталоги є ієрархічними гіпертекстовими меню з пунктами і підпунктами, які визначають тематику сайтів, адреси яких містяться в цьому каталозі, з поступовим (від рівня до рівня) уточненням теми.
Працювати з пошуковими каталогами просто. У них пошук інформації відбувається на інтуїтивному рівні і практично завжди закінчується успіхом. Однак за цією простотою приховується найвища складність створення і ведення каталогу. Пошукові каталоги створюються, як правило, вручну. Висококваліфіковані редактори особисто переглядають інформаційний простір Веб, відбираючи те, що на їхню думку становить загальний інтерес, і заносять адреси до каталогу.

Ідея цієї системи полягає у тому, що на головній сторінці розміщується перелік найважливіших тем, які, в свою чергу, містять список тематичних розділів. Вибравши потрібну тему, користувач отримує обмежений перелік веб-ресурсів, присвячених даній темі. Поруч з кожним веб-ресурсом висвітлюється оцінка його популярності, яка вимірюється в кількості переглядів цього ресурсу за останню добу. Проте, потрібно пам’ятати, що не завжди високий рейтинг об’єктивно відповідає якості веб-ресурсу.
Більшість пошукових систем світу - індексні пошукові системи, які ще називають пошуковими покажчиками, пошуковими серверами, словниковими пошуковими системами, автоматичними індексами, пошуковими машинами, Search Engines - в англомовних джерелах тощо. Їхнє призначення – якнайкраще охопити інформаційних веб-простір і подати його користувачам у зручному вигляді.
Принцип роботи з індексними пошуковими системами (ІПС) засновано на ключових словах. Розпочинаючи пошук інформації з певної теми, користувач має ввести ключові слова у рядок пошуку, які описують його тему і вибрати кнопку Знайти (або Найти, Go, Search), яка розташована поряд з рядком пошуку.
Після вибору кнопки Знайти, ключова фраза посилається на сервер і пошукова система починає пошук у своїх базах даних адреси веб-ресурсів, які містять вказані ключові слова. Як здійснюється пошук, користувач не може бачити, він лише побачить результат запиту – нове вікно в якому відображається перелік веб-ресурсів, які містять ключові слова.

Приклади
Найбільшим пошуковим каталогом світу є Yahoo! Українська meta.ua.
В Україні основним засобом рейтингового пошуку є Top Ping - topping.com.ua,
В Росії це: Рамблер - www.rambler.ru.

Google
Yandex
Rambler
Yahoo


Класифікація ІПС та їх математичні моделі


Інформаційно–пошукові системи (ІПС) — це різновид автоматизованих інформаційних систем, в яких завершальна обробка даних не передбачається. Ці системи призначені для пошуку текстів (документів, їх частин, фактографічних записів) в сховищах (базах даних) за формальними характеристиками.
Тому в роботі ІПС можна виділити два основних етапи:
  •  перший — збір і зберігання інформації
  •  другий — пошук і видача інформації користувачам
В економіці ІПС можуть використовуватися для зберігання і пошуку нормативних, планових, бухгалтерських та інших документів, даних для наукових досліджень.
ІПС відрізняються одна від одної за багатьма ознаками, але при вирішенні задач збору, зберігання і видачі інформації мають такі спільні процедури:
  •   аналіз документів і їх добір;
  •   створення пошукового образу документів (ПОД);
  •   запис документів і їх пошукових образів на прийняті носії;
  •   зберігання документів і ПОД;
  •   аналіз запитів;
  •   видача документів користувачам.

Як уже зазначалося, на основі ІПМ використовують два основних режими чи методи організації пошуку: з вибірковим розподілом інформації і з ретроспективним пошуком.

При цьому застосовують різні мовні засоби, залежно від категорії користувачів і можливостей мов. Використовують мови, що забезпечують тільки можливості запитів, тобто виведення даних на екран чи друк в необхідному форматі; комплексні мови запитів-обновлень, що як більш розвинені мови дозволяють формулювати запити, які стосуються декількох взаємозв’язаних записів і дозволяють поновляти дані так же легко, як і формулювати запити; генератори звітів, що дозволяють вибирати необхідні дані і форматувати їх у вигляді потрібних форм документів; графічні мови, що дозволяють виводити інформацію у вигляді різних графіків і діаграм та інших зображувальних засобів.
При створенні ІПС неминуче виникає потреба у створенні тезаурусу системи, тобто набору спеціальних термінів для кодування понять та зв’язків між ними. Тезаурус дозволяє виражати зміст документів та запитів формалізованою інформаційною мовою.
Найбільш поширеними в сучасних автоматизованих ІПС є тезауруси з використанням мов дескрипторного типу, на відміну від тезаурусів з мовами класифікаційного типу, що використовуються, наприклад, в бібліотечно-бібліографічній класифікації з фіксованим обмеженим списком слів і словосполучень. Дескрипторами можуть бути окремі слова або словосполучення із групи синонімічних чи близьких за значенням слів, що використовуються в системі для контрольованого індексування (кодування) змісту документів і запитів встановленням відповідності між текстом документа і набором ключових дескрипторів.

Пошукова система — онлайн-служба, яка надає можливість пошуку інформації на сайтах в Інтернеті.




Математичні моделі пошукових систем

Математична модель – це спрощений опис реальності за допомогою математичних понять, в результаті якого отримується формула, яка дозволяє вважати документи знайденими та ранжувати їх. 

Основні типи математичних моделей 

Булева математична модель 

Булева (boolean, булевая, двійкова) математична модель – це модель пошуку, що спирається на операції перетину, об'єднання і вирахування множин. 

Іншими словами можемо сказати так, знайшли відповідне слово – документ можна вважати знайденим, інакше – не знайденим. 

Таким чином дана математична модель не підходить для пошукових систем, коли з’являється робота з великими числами (з великою кількістю документів). 

Векторна математична модель 

Векторна модель (англ. vector space model) – це представлення колекції документів векторами з одного спільного для всієї колекції векторного простору. 
Векторна модель є основою для вирішення багатьох завдань інформаційного пошуку, таких як: пошук документа за запитом, класифікація документів, кластеризація документів. 

Документ у векторній моделі розглядається як невпорядкований набір термів. Термами в інформаційному пошуку називають слова, з яких складається текст. 

Різними засобами можна визначити вагу терма в документі – "важливість" слова для ідентифікації даного тексту. Наприклад, можна просто підрахувати кількість вживань терма в документі, так звану частоту терма, – чим частіше слово зустрічається в документі, тим більша у нього буде вага. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю. 
Всі терми, що зустрічаються в документах певної колекції, можна впорядкувати. Після цього для деякого документу можна виписати по порядку вагу всіх термів, включаючи ті, яких немає в цьому документі, вийде вектор, який і буде представленням даного документа у векторному просторі. Розмірність цього вектора, як і розмірність простору, дорівнює кількості різних термів у всій колекції, і є однаковою для всіх документів. 

Більш формально можна записати 
dj = (w1j, w2j, …, wnj)

де dj – векторне представлення j-го документа, wij – вага i-го терма в j-м документі, n – загальна кількість різних термів у всіх документах колекції. 

Маючи в своєму розпорядженні такі дані для всіх документів, можна, наприклад, знаходити відстань між точками простору і тим самим вирішувати проблему подібності документів – чим ближче розташовані точки, тим більш схожі відповідні документи. У разі пошуку документа за запитом, запит теж представляється як вектор того ж простору, таким чином можна обчислювати відповідність документів запиту. 

Для повного опису векторної моделі для пошукової системи необхідно вказати, яким саме чином буде розраховуватись вага терма в документі. Існує декілька стандартних способів вирахування функції зважування. 

Методи зважування термів 
• булева вага – дорівнює 1, якщо терм зустрічається в документі і 0 – у противному разі; 
• tf (term frequency, частота терма) – вага визначається як функція від кількості входжень терма в документ; 
• tf-idf (term frequency - inverse document frequency, частота терма –обернена частота документа) – вага визначається як добуток функції від кількості входжень терма в документ та функції від величини оберненої кількості документів колекції, в яких зустрічається цей терм. 
TF * IDF, 
де TF – кількість входжень терма в документ, IDF – рідкість терма в колекції. 
Зазначена модель використовується всіма пошуковими системами. 

Імовірнісна математична модель 

Підбір видачі за допомогою асесорів – це самостійне визначення людино-релевантності сторінок, порівнюючи з заздалегідь визначеними еталонними документами. 

Недолік цієї моделі полягає в тому, що зазвичай дуже важко підібрати певну кількість еталонних документів на кожне існуюче слово та слово сполучення. 

Як оцінювати результат роботи математичної моделі 

Критерії якісної роботи математичної моделі 
• точність – доля релевантних документів в результаті видачі; 
• щільність – доля знайдених релевантних документів в загальній кількості релевантних документів колекції; 
• актуальність – відповідність посилань в результаті релевантних документів Інтернету. 

Отже ми вже знаємо, що окрім автоматичного оцінювання роботи пошукової системи, результат видачі ще оцінюють і люди – асесори. Вони використовують чітко описані правила та порівнюють з еталонними документами.

Механізм пошуку в ІПС


Пошукові cистеми зазвичай мають три компоненти:
  • агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;
  • база даних(індексатор) яка містить інформацію, що зібрано павуками;
  • пошуковий механізм(пошукова машина), який користувачі використовують як інтерфейс для взаємодії з базою даних.
Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів. 

1. Спайдери (Spider, Crawler, Robot) — програма, що відвідує веб-сервери, зчитує й індексує цілком або частково їхній вміст і далі ру­хається через посилання, знайдені на сервері. Спайдер повертається через визначені періоди часу, наприклад, кожного місяця, і повторює індексацію сторінок.
Кожний пошуковий механізм має власний набір засобів, завдяки якому визначається збір документів. Зупинимось коротко на їх осо­бливостях.
• Агенти є найінтелектуальнішими з пошукових засобів. Вони мо­жуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача, а також шукати сайти специфіч­ної тематики і повертати списки сайтів, відсортованих за їх відвід­уваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для отримання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.
• Павуки здійснюють загальний пошук інформації в Інтернеті. Павуки повідомляють про зміст знайденого документа, індексу­ють його і добувають підсумкову інформацію. Вони також мо­жуть переглядати заголовки, деякі посилання і відправляти про- індексовану інформацію до бази даних пошукового механізму.
• Кроулери переглядають заголовки і повертають користувачу тільки перше посилання.
• Роботи можуть бути запрограмовані таким чином, щоб пере­ходити по різним посиланням різної глибини вкладеності, ви­конувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посилан­нями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажа­ють, щоби вони були проіндексовані.
2. Усе, що знаходить і зчитує спайдер, попадає в індекси пошу­кової системи.Індексатор системи — гігантське сховище інформації, де зберігаються копії текстової складової усіх сторінок, що відвідав і проіндексував спайдер.
Агенти збирають та індексують різні види інформації. Деякі, на­приклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному до­кументі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу ви­значає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем ви­значають, які сайти або типи сайтів агенти мають відвідати та проін- дексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.
Користувачі можуть розміщувати власну інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли користувач хоче знайти інформацію, доступну в Інтернеті, він відвідує сторінку пошукової системи і заповнює форму, що деталі­зує потрібну йому інформацію. Тут можуть використовуватись клю­чові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.
База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в спис­ку будуть такі документи, що є найбільш релевантними до запиту ко­ристувача.
3. Пошуковий механізм - це програма, що відповідно до запиту корис­тувача перебирає індекси пошукової системи в пошуках інформації і видає йому в порядку зменшення релевантності знайдені документи.  
Релевантність визначає, наскільки повно той або інший документ (зміст знайденої веб-сторінки) відповідає критеріям, зазначеним у за­питі користувача. Але комп'ютер — не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантності.
Теоретичних методів визначення релевантності веб-сторінок іс­нує більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Rambler, Hndex) і статистичне (Google). Основні російські пошукові системи (зокрема Rambler) використовують лінгвістичний напрям, коли пошуковий робот, переглядаючи сторінку, звертає увагу на «лі­тературність» її написання (наприклад, «чом ти не прийшов» буде більш релевантною, ніж «чом ти не травень прийшов»).
Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:
• Кількість слів запиту, який є у текстовому вмісті документу (тобто в html-коді).
• Теги, в яких ці слова розташовуються.
• Місцеположення шуканих слів у документі.
• Питома вага слів, відносно яких визначається релевантність сторінки, у загальній кількості слів документу.
Вище вказані принципи застосовуються всіма пошуковими сис­темами, в той час як наведені нижче використовуються лише деяки­ми, але достатньо відомими (наприклад, AltaVista).
• Час — тобто як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Ін- тернеті існує багато веб-сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, то це означає, що його власник є досвідченим за певною темою. Вірогідно, що користу­вачу більше підійде веб-сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж тематикою.
• Індекс цитованості показує як багато посилань на дану веб- сторінку ведеться з інших сторінок, що зареєстровані у базі по­шукової системи.
База даних виводить ранжований таким чином перелік докумен­тів з html-кодами і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отримано­го переліку — деякі відображають лише посилання, інші — виводять посилання з декількома першими реченнями документу чи заголовок документу разом з посиланням. Коли користувач звертається до по­силання на один з документів, цей документ завантажується з серве­ра, на якому він знаходиться.
Зрозуміло, далеко не завжди документ, визнаний пошуковою системою найбільш релевантним, буде таким на думку самого корис­тувача.
У кожній пошуковій системі працює власний спайдер, кожна сис­тема індексує сторінки своїм особливим способом і пріоритети при пошуку за індексами теж відмінні. Тому запит на основі визначених ключових слів або виразів у кожній з пошукових систем зазвичай по­роджує різні результати.

ІПС мережі Інтернет

Більше як 80% всього пошуку в Інтернеті доводитися на 3 основні системи: Google, Yahoo!, MSN.

GOOGLE

HTTP://WWW.GOOGLE.COM


Є пошуковою машиною з рейтингом сайтів

З невеликої компанії, яка заснована у вересні 1998 року Ларрі Пейджем і Сергієм Бріном, Google перетворилася на найбільший галузевий концерн, що пропонує послуги простого і швидкого пошуку інформації в Інтернеті по більш ніж 8 млрд. мережних адрес, плюс множина інших, не менш цікавих сервісів. За ці роки багато що змінилося, але незмінною і зростаючою залишилася динаміка розвитку Google. Особливо вражає успішне і послідовне зростання компанії на тлі поголовного краху, що зачепів в минулі роки більшість дот-комів.
Нині феноменальний успіх Google пов'язують не лише з вибраною бізнес-моделлю і вдалим напрямом діяльності. Карколомний успіх компанії не був би досягнутий без тонкого підбору співробітників і вмілого керівництва. З серпня 2001 року на посту CEO компанії знаходиться Ерік Шмідт, якій перейшов в Google з Novell і поставив за головну мету збільшення капіталізації за рахунок виходу на нові ринки. Минулі роки підтвердили правильність вибраної стратегії і тепер Google є тим, чим є – близько 5 тисяч співробітників у всьому світі, бренд, що відомий без коментарів в будь-якому куточку земної кулі.
Бренд Google було введено як співзвуччя математичному терміну Googol (гугол), придуманому Мілтоном Сироттой, племінником американського математика Едварда Каснера. Він позначає одиницю з сотнею нулів і чудово ілюструє невичерпні можливості Інтернету, які компанія Google постійно систематизує і організовує, полегшуючи доступ до різних даних.
Спочатку була поставлена мета по організації всієї світової інформації, щоб зробити її максимально доступною і корисною для кожного відвідувача Інтернету. Для цього засновники компанії Леррі Пейдж і Сергій Брін розробили новий алгоритм пошуку. Ідея створення універсального пошуковика і стала запорукою нинішнього успіху компанії. Більш того, в нинішньому своєму втіленні пошуковий движок доступний не лише з головної сторінки Google: можна вести пошук через панель інструментів Google, через Google Deskbar в панелі завдань Windows без відкривання браузера, а також з різних мобільних платформ, включаючи телефони в режимах WAP та І-mode.
Оскільки пошуковик Google є безкоштовним, основний дохід компанії складається з надання рекламодавцям можливості поширювати рекламу, що є релевантною до інформації на даній сторінці. Тисячі рекламодавців використовують програму Google AdWords для просування своїх товарів і послуг за допомогою цілеспрямованих оголошень, тисячі менеджерів сайтів використовують Google AdSense для показу оголошень, що є релевантними до змісту сайтів. 
Від початку розробники Google відмовилися від типового використання потужностей декількох серверів, продуктивність яких зменшується при пікових навантаженнях, і почали використовувати можливості розподілених у мережі комп’ютерів. 
Пошуковий движок Google проводить серії одночасних розрахунків тривалістю частки секунди і використовує технологію PageRank для вивчення всієї структури посилань Інтернету та об'єктивного визначення найважливіших сторінок шляхом розрахунку рівняння з більше як 500 змінними і 2 мільярдами термінів. Пошуковик Google аналізує якісний зміст сторінок - шрифти, підрозділи, точне місцеположення кожного слова, плюс зміст сусідніх сторінок для забезпечення максимальної релевантності результатів пошуку. 
В компанії Google створено технологію пошуку для бездротових пристроїв з моментальним перетворенням HTML у формати для режимів WAP, І-mode, J-SKY і EZWeb. 
Результатом багаторічного розвитку пошукової системи Google стала поява національних пошукових сервісів: підтримується різномовний інтерфейс і алгоритму пошуку адаптуються до локальних особливостей. Коли пошуковий сервіс Google стартував в Китаї, то, не дивлячись на численні складнощі, пов'язані з своєрідним трактуванням свободи слова китайськими властями (Google.com не доступний китайським користувачам приблизно 10% часу; Google News зовсім не працює, Google Images доступний лише час від часу), сервіс працює і набирає популярність.
Google забезпечує пошук по гіпертекстових документах, що знаходяться в різних мовних зонах - українською, російською, англійською, німецькою і ін. Пошукова система Google має власні піддомени для більшості країн, наприклад, для України - google.com.ua, для Росії - google.ru. Це одна з найбільших пошукових баз в світі. 

ПЕРЕВАГИ

  • Використання механізму PageRank, який відображає "важливість" сайту і впливає на видачу результатів пошуку. PageRank схожий на індекс цитування у Яндекса (теж залежить від кількості і якості посилань на ресурс). Але на відміну від Яндекса, вплив PageRank у Google не настільки значний, тому люди в Google знаходять саме те, що і шукають.
  • Google шукає не лише гіпертекстові файли (html), але і файли у форматі PDF, DOC, PostScript, Corel Word Perfect і ін.
  • Пошукова система Google має можливість пошуку зображень. При цьому у запиті можна вказати бажаний розмір, глибину кольору, формат файлу.
  • На відміну від багатьох пошуковиків, роботи Google індексують всі сторінки, а не лише найголовніші.
  • Всі сторінки Google кешує (заносить в свою базу), і дозволяє користувачеві переглядати документ у кеші Google, не відкриваючи його в першоджерелі (що зазвичай є набагато швидше).
  • Google дозволяє обрати мову інтерфейсу, мовні зони для пошуку, кількість повідомлень при видачі результатів та ін.
  • Користувачі Microsoft Internet Explorer, Mozilla Firefox і Opera можуть встановити собі програму Google Toolbar, яка створює нову панель інструментів, що дозволяє шукати в Google, не заходивши на сам сайт.
  • Рядок пошуку в Google можна використати і як калькулятор. Якщо ввести (48-26)*21, Google видасть правильний результат.

СЕРВІСИ GOOGLE

Можливості Google не обмежені лише традиційним "джентльменським набором" пошуковика з розширеними налаштуваннями та новинами. Нижче наведено короткий і неповний список сучасних сервісів Google:
  • Google Local - знаходить місцеві підприємства та послуги в Інтернеті
  • Google Mac - пошук по сайтах тематики Apple/Macintosh
  • Google’s University Search - пошук по університетах
  • Google Linux - пошук по сайтах тематики Linux
  • Google GOV - пошук по всіх державних (*.gov) і військових (*.mil) сайтах
  • Froogle - пошук товарів/продукції
  • Google Options – опції
  • Google Map Site - карта сайту
  • Google Features - перелік різноманітних особливостей
  • Google Microsoft - пошук по сайтах Microsoft
  • Google Labs – сервіси
  • Hacker Style Google - у оригінальному стилі
  • Google BSD - пошук по BSD-сайтах
  • Google Наоборот - google в дзеркальному відображенні
  • Google Schoolar - пошук серед статей, книг, оглядів наукової літератури та підручників
  • Google Firefox - для фанатів Mozilla Firefox
  • Google Fight - поєдинок: потрібно ввести два слова, і пошуковик покаже яке з них посилається на більшу кількість сторінок
  • Google Suggest - можливі варіанти того, що потрібне, з показом кількості сторінок по даному запиту
  • Cheatoogle - пошук по читам і кодах до ігор
  • Google Easter - пасхальний кролик
  • Gmail - пошта від Google
  • Video google - пошук відео
  • Google для мобильников и КПК - міні-версія для зручної роботи з мобільних телефонів і КПК
  • Mobie Google - сервіс для мобільного зв’язку
  • Google Fan Logos - сайт з логотипами на тему Google
  • Google Hiliday Logos - святкові логотипи
  • Офіційні та Неофіційні - логотипи Google
  • Google April Fools - пошук про все, що пов'язане з днем дурнів
  • Google Maps - пошук по картах
  • Google Blog - офіційний блог Google
  • Google News - новини від Google
  • Google Print - пошук Google по мільйонах оцифрованих книг бібліотек Гарварду, Стенфорда, Оксфорда, Мічігану, а також з Нью-йоркської Публічної бібліотеки
  • Google Earth - програма для огляду Землі з космосу
  • Can’t find on google - сайт із переліком запитів, у відповідь на які видається не те, що потрібне
  • GoogleGulp- напої від Google
  • Uncle Sam - "патріотичний" пошуковик
  • Blogsearch - пошук по блогам і ЖЖ
  • Google Webmasters Guidelines - інформація та поради Google для веб-розробників
  • Google Reader - Google Reader
  • Google Code - для кодерів, відкриті ісходники і т.д.
  • Google VPN - безкоштовний VPN-сервіс від Google
  • Google Alerts - відстежує появу нових сторінок на пошуковий запит і повідомляє про це на e-mail
  • Google Answers- можна задати запитання, вказати суму винагороди за відповідь і дочекатися відповіді
  • Personalized Google Search- пошук з врахуванням налаштувань та потреб користувача
  • GoogleStore- магазин з аксесуарами в стилі і з логотипами Google
  • Google Trade Catalogs - каталог товарів
  • Google Personalize Homepage - підлаштування пошуку та зовнішнього вигляду Google під себе ;)
  • Google Base - база даних від Гугл, можна завантажити будь що
І це далеко не повний перелік можливостей, сервіси Google постійно поповнюються, а їх якість вдосконалюється.

  

Yahoo було засновано в 1994, і на сьогоднішній день це найстаріший і якнайповніший каталог Інтернет-ресурсів. 
Ця неймовірно популярна система, що обслуговує мільйони запитів щодня, зародилася як проста колекція закладок, яку поповнювали всього 2 людини - Девід Філо і Джері Янг. 
Yahoo є найпопулярнішим пошуковим засобом і секрет його успіху Yahoo криється в людях. Над складанням та редагуванням вмісту каталогів Yahoo працюють понад 150 редакторів. Yahoo має базу даних в більш, ніж 1 млн. проіндексованих сайтів. Також, у разі браку власної бази даних, Yahoo використовує базу даних Google (до липня 2000 року Yahoo користувався базою даних Inktomi).

Російська версія не містить пошукового каталогу, рейтингової системи.
Є виключно пошуковою машиною

RAMBLER.RU (СПРОЩЕНО - HTTP://WWW.R0.RU)


 ПОШУКОВИЙ КАТАЛОГ+РЕЙТИНГ+ПОШУКОВА МАШИНА.

Цей пошуковик займає сьогодні друге місце серед пошуковиків Ренета. Він був першою пошуковою програмою, що створено спеціально для російського Інтернету програмістом компанії Stack Ltd Дмитром Крюком у 1996 році. Слово "Rambler" перекладається як «гуляща людина», «бродяга» по Інтернету. 
Rambler постійно вдосконалює свій пошуковий алгоритм. Проводяться роботи по оптимізації роботи системи для точності та актуальності пошуку. Як і більшість російських пошукових машин, Rambler враховує морфологію російської мови. При видачі результатів вплив має положення сайту в рейтингу Rambler's Top100. Rambler індексує сайти в зонах ru .su, .ua, .by, .kz, .kg, .uz, .ge, а також славяномовні сайти в доменах .com, .net або .org. 
На сьогодні Rambler є в величезним інтернет-холдингом, до складу якого входять портал Рамблер, новинна інтернет-газета Лента.ру, медичний сайт Doctor.ru, онлайновий клуб батьків Mama.ru, картографічний сервіс NaKarte.ru, телекомунікаційний підрозділ "Рамблер Телеком". 
На Рамблері реалізовано розумну систему, яка виводить в результатах пошуку слова, які є синонімами запиту. Ще однією функцією системи є видача контекстної реклами не лише за конкретними ключовими словами, але і за фразами, що тісно пов'язані з ними. 
Реєстрація знаходиться за адресою http://www.rambler.ru/doc/add_site_form.shtml. Не реєструються сайти в доменах .com, .net, або .org. Якщо ж зміст сайту з цих зон має відношення до російськомовного Інтернету, то користувач має відправити лист на search.support@rambler-co.ru з проханням проіндексувати сайт. 
Рамблер (на відміну від інших пошукачів) вміє витягувати гіперпосилання з об'єктів Macromedia Flash. Якщо сайт має заставку або навігаційні панелі, що виконані з використанням цієї технології, Рамблер обробляє їх, знаходить адреси всіх сторінок сайту і індексує весь сайт. Тексти flash-об'єктів не індексуються. Для сайтів, які цілком складаються з flash-об'єктів, рекомендується створити HTML-копію і зареєструвати її в пошуковій машині. Роботи Рамблера також справляються з конструкціями фреймів. 
Роботи Рамблера ігнорують більшість мета-тегів. Коментарі в документі роботи Рамблера теж не сканують, але більшої уваги звертають на заголовки і виділення в документі. Базові поняття і ключові для даного сайту слова доцільно включати в наступні HTML-теги (у порядку значущості): "title", "h1"..."h4", "b", "strong", "u". 
Максимальний розмір документа для роботів складає 200 кілобайт. Документи більшого розміру усікаються до вказаної величини. 


APORT.RU

  ПОШУКОВИЙ КАТАЛОГ, ПОШУКОВА МАШИНА.

Пошукову систему "Апорт!" було розроблено компанією "Агама" за підтримки Intel і вперше продемонстровано в лютому 1996 року на прес-конференції "Агамы" з приводу відкриття "Російського клубу". Тоді вона шукала лише по сайту russia.agama.com. 
Найважливішими особливостями першої версії "Апорту" були переклад запиту і результатів пошуку англійською мовою і зворотно, а також відновлення всіх проіндексованих сторінок з власної бази (що надає можливість переглядання сторінок, вже неіснуючих в оригіналі). 
До кінця 1999 року було представлено нову версію Апорт - "Апорт 2000", який став першим російським пошуковиком, що побудований на основі видачі результатів по окремо взятих сайтах. "Апорт 2000" практично реалізував дві базові технології американської пошукової машини Google: облік "рангу сайту" (Page Rank), і обробка запиту, орієнтуючись на HTML-код сторінки. Серед недокументованих особливостей - більший пріоритет сайтам, які мають вищу та елітну лігу у каталозі AtRus. 
Aport є повнотекстовою пошуковою системою, тобто вона індексує всі слова, які б побачила на екрані людина, що переглядатиме конкретну сторінку. В результаті будь-яке слово з тексту документів може бути критерієм для подальшого пошуку. Апорт також індексує тексти гіперпосилань на документ з інших сторінок, що знаходяться, як всередині сайту, так і за його межами, а також складені (або перевірені) редакторами описи сайтів з каталогу. 
Результати пошуку впорядковуються за частотою використання шуканих термінів. Разом з посиланням відображається фрагмент тексту, де зустрічається термін, вказується індекс відповідності до запиту і дата останньої модифікації файлу. "Апорт!" у виданому фрагменті тексту виділяє червоним кольором запитані слова.
Реєстрація сайту в Апорті проводиться із сторінки http://www.aport.ru/addurl.asp. Ця сторінка доступна з будь-якої сторінки Апорту, наприклад, з головної сторінки Апорту. Додавати в пошукову систему Апорт слід російськомовні сайти, а також сайти, що мають безпосереднє відношення до російського Інтернету. У разі відмови в автоматичному додаванні сайту можна звернутися з проханням про додавання сайту за addurl-nr@aport.ru.
З моменту додавання сайту в Апорт до моменту його появи в пошуковій базі проходить від двох-трьох днів до двох тижнів. 
При перегляданні вмісту сервера для індексування Апорт обов'язково перевіряє файл ROBOTS.TXT. Отже можна його використати, щоб обмежити 'діяльність' Апорту на своєму сервері. Апорт за умовчанням не індексує динамічні документи, в адресах яких зустрічається символ '?'. 
Для документів HTML, окрім основного тексту документа індексуються також: заголовок документа "TITLE", ключові слова "KEYWORDS", описи сторінок "DESCRIPTION" і підписи до картинок "ALT". Апорт пропонує декілька варіантів направленої реклами http://www.aport.ru/adv, проте немає можливості купити вищі місця для свого сайту в результатах пошуку. 
Ключові слова не мають визначального значення при визначенні релевантности документа. Але розумне використання цього тега рекомендується. 
На відміну від багатьох інших пошукових систем, Апорт не застосовує спеціальних санкцій до сайтів, що намагаються обдурити пошукову систему за допомогою спаму, але досягнути подібним чином бажаного результату не вийде. Тому не варто писати невидимі тексти, набирати сотні ключових слів, що не мають жодного відношення до змісту документа і т.д. 
Ось перелік основних критеріїв, які Апорт враховує при сортуванні сайтів: густина ключових слів, відстань між ключовими словами в тексті документа, місце, де зустрічаються пошукові слова (заголовок, опис, мета-тег і т.п.), зовнішній вигляд шрифту, яким набрані ключові слова (розмір, грубість, колір), кількість посилань з Інтернету на даний документ, використання ключового слова в тексті посилань з Інтернету на даний документ. Остаточний відсоток відповідності документа до запиту будується як певна функція від всіх цих показників. 




УКРАЇНСЬКА ПОШУКОВА СИСТЕМА "МЕТА"

ПОШУКОВИЙ КАТАЛОГ, ПОШУКОВА МАШИНА.



Українська пошукова система "МЕТА" є найвідомішим проектом компанії -  ЗАТ «МЕТА» - розробника пошукових і інформаційних рішень. Сьогодні "МЕТА" — один з найбільш відвідуваних українцями сайтів і найбільший рекламний майданчик України.
«Мета.ua» – проект український, він створений і працюватиме тільки для України.
А технології, які були створені в процесі роботи, цілком можуть бути використані в інших країнах.
Пошукові технології компанії працюють у внутрішніх мережах Верховної Ради і кабінету міністрів України, на сайтах національного банку України, фонду Разумкова, сайті Віктора Ющенка. 
За 2005 рік аудиторія збільшилася більш ніж в два рази. 
«Мета» – це безкоштовний сервіс, який не має ніяких зобов'язань перед власниками сайтів і не гарантує «правильного» місця видачі.
Нові сервіси пошукової системи "МЕТА" можна поділити на три типи: пошукові, інформаційні і комунікаційні. 
З пошукових сервісів хочеться відзначити «Метановини». Це найпопулярніший розділ після великого пошуку і каталогу. Зараз там збираються новини від більше як 200 українських інтернет-джерел, близько 10 000 новин в день. Весь цей масив в режимі реального часу індексується, групується по темах і стає доступним для пошуку.
«Пошук рефератів». Практично єдиний сервіс в СНД, що дозволяє шукати не тільки по назві і опису, але і по всьому тексту. В період сесій і іспитів студенти і школярі активно користуються цим сервісом.
З останніх пошукових проектів – інтерфейс до бази законодавства України, що розроблено спільно з апаратом Верховної Ради. У базі більш як 80 000 різних юридичних документів. Автоматичний переклад запитів дає можливість задавати запит на російській або українській мовах.
З інформаційних сервісів цікавими є «Карти» і «Розклади потягів». В «Картах» зібрано найбільшу кількість карт по містах і областях України, що є доступними в Інтернеті, а «Розклади» – є найповнішими та найточнішими.
Комунікаційні сервіси – форум, який став найбільшим українським неполітичним форумом. Поштовий сервіс розроблявся значно пізніше за тих, що є зараз на ринку,  тому в ньому вдалося обійти відомі недоліки і він вийшов зручним і функціональним. Пошта зараз самий швидкозростаючий сервіс на «Мете». 
Пошуковому сервісу доводиться збільшувати потужність одночасно в двох площинах – з одного боку збільшується кількість запитів, з іншої - зростає об'єм індексу. З схожими проблемами працює всього декілька компаній в світі, і тому на вирішення технічних проблем, пов'язаних з швидким зростанням витрачається багато зусиль. Впроваджено і відпрацьовано технологію, що дозволяє швидко масштабувати систему, Мета може без проблем збільшити розмір індексу і обробити число запитів на порядок більше.
З останніх вдосконалень – «перевірка» правопису в запитах і додавання нових форматів документів – doc, pdf, xls, ppt.
«Повільна індексація» - це вже легенда, яка залишилася у минулому. Черги на розміщення в каталог зараз немає, бо технічних потужностей вистачає. Якщо сайт через 4-5 днів після додавання в каталог не потрапив в індекс, це означає, що він є або недоступним, або не піддається індексації. Окрім цього є спеціальний кластер, документи в якому оновлюються двічі у день. 



Пошуковий каталог, база об'яв по продажу/аренді нерухомості . Не містить пошукової машини.

Каталог українських ресурсів з рейтингом сайтів та пошуковою системою.