Інформаційно–пошукові системи (ІПС) — це різновид автоматизованих інформаційних систем, в яких завершальна обробка даних не передбачається. Ці системи призначені для пошуку текстів (документів, їх частин, фактографічних записів) в сховищах (базах даних) за формальними характеристиками.
Тому в роботі ІПС можна виділити два основних етапи:
ІПС відрізняються одна від одної за багатьма ознаками, але при вирішенні задач збору, зберігання і видачі інформації мають такі спільні процедури:
При цьому застосовують різні мовні засоби, залежно від категорії користувачів і можливостей мов. Використовують мови, що забезпечують тільки можливості запитів, тобто виведення даних на екран чи друк в необхідному форматі; комплексні мови запитів-обновлень, що як більш розвинені мови дозволяють формулювати запити, які стосуються декількох взаємозв’язаних записів і дозволяють поновляти дані так же легко, як і формулювати запити; генератори звітів, що дозволяють вибирати необхідні дані і форматувати їх у вигляді потрібних форм документів; графічні мови, що дозволяють виводити інформацію у вигляді різних графіків і діаграм та інших зображувальних засобів.
При створенні ІПС неминуче виникає потреба у створенні тезаурусу системи, тобто набору спеціальних термінів для кодування понять та зв’язків між ними. Тезаурус дозволяє виражати зміст документів та запитів формалізованою інформаційною мовою.
Найбільш поширеними в сучасних автоматизованих ІПС є тезауруси з використанням мов дескрипторного типу, на відміну від тезаурусів з мовами класифікаційного типу, що використовуються, наприклад, в бібліотечно-бібліографічній класифікації з фіксованим обмеженим списком слів і словосполучень. Дескрипторами можуть бути окремі слова або словосполучення із групи синонімічних чи близьких за значенням слів, що використовуються в системі для контрольованого індексування (кодування) змісту документів і запитів встановленням відповідності між текстом документа і набором ключових дескрипторів.
Основні типи математичних моделей
Булева математична модель
Булева (boolean, булевая, двійкова) математична модель – це модель пошуку, що спирається на операції перетину, об'єднання і вирахування множин.
Іншими словами можемо сказати так, знайшли відповідне слово – документ можна вважати знайденим, інакше – не знайденим.
Таким чином дана математична модель не підходить для пошукових систем, коли з’являється робота з великими числами (з великою кількістю документів).
Векторна математична модель
Векторна модель (англ. vector space model) – це представлення колекції документів векторами з одного спільного для всієї колекції векторного простору.
Векторна модель є основою для вирішення багатьох завдань інформаційного пошуку, таких як: пошук документа за запитом, класифікація документів, кластеризація документів.
Документ у векторній моделі розглядається як невпорядкований набір термів. Термами в інформаційному пошуку називають слова, з яких складається текст.
Різними засобами можна визначити вагу терма в документі – "важливість" слова для ідентифікації даного тексту. Наприклад, можна просто підрахувати кількість вживань терма в документі, так звану частоту терма, – чим частіше слово зустрічається в документі, тим більша у нього буде вага. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю.
Всі терми, що зустрічаються в документах певної колекції, можна впорядкувати. Після цього для деякого документу можна виписати по порядку вагу всіх термів, включаючи ті, яких немає в цьому документі, вийде вектор, який і буде представленням даного документа у векторному просторі. Розмірність цього вектора, як і розмірність простору, дорівнює кількості різних термів у всій колекції, і є однаковою для всіх документів.
Більш формально можна записати
де dj – векторне представлення j-го документа, wij – вага i-го терма в j-м документі, n – загальна кількість різних термів у всіх документах колекції.
Маючи в своєму розпорядженні такі дані для всіх документів, можна, наприклад, знаходити відстань між точками простору і тим самим вирішувати проблему подібності документів – чим ближче розташовані точки, тим більш схожі відповідні документи. У разі пошуку документа за запитом, запит теж представляється як вектор того ж простору, таким чином можна обчислювати відповідність документів запиту.
Для повного опису векторної моделі для пошукової системи необхідно вказати, яким саме чином буде розраховуватись вага терма в документі. Існує декілька стандартних способів вирахування функції зважування.
Методи зважування термів
• булева вага – дорівнює 1, якщо терм зустрічається в документі і 0 – у противному разі;
• tf (term frequency, частота терма) – вага визначається як функція від кількості входжень терма в документ;
• tf-idf (term frequency - inverse document frequency, частота терма –обернена частота документа) – вага визначається як добуток функції від кількості входжень терма в документ та функції від величини оберненої кількості документів колекції, в яких зустрічається цей терм.
TF * IDF,
де TF – кількість входжень терма в документ, IDF – рідкість терма в колекції.
Зазначена модель використовується всіма пошуковими системами.
Імовірнісна математична модель
Підбір видачі за допомогою асесорів – це самостійне визначення людино-релевантності сторінок, порівнюючи з заздалегідь визначеними еталонними документами.
Недолік цієї моделі полягає в тому, що зазвичай дуже важко підібрати певну кількість еталонних документів на кожне існуюче слово та слово сполучення.
Як оцінювати результат роботи математичної моделі
Критерії якісної роботи математичної моделі
• точність – доля релевантних документів в результаті видачі;
• щільність – доля знайдених релевантних документів в загальній кількості релевантних документів колекції;
• актуальність – відповідність посилань в результаті релевантних документів Інтернету.
Отже ми вже знаємо, що окрім автоматичного оцінювання роботи пошукової системи, результат видачі ще оцінюють і люди – асесори. Вони використовують чітко описані правила та порівнюють з еталонними документами.
Тому в роботі ІПС можна виділити два основних етапи:
- перший — збір і зберігання інформації
- другий — пошук і видача інформації користувачам
ІПС відрізняються одна від одної за багатьма ознаками, але при вирішенні задач збору, зберігання і видачі інформації мають такі спільні процедури:
- аналіз документів і їх добір;
- створення пошукового образу документів (ПОД);
- запис документів і їх пошукових образів на прийняті носії;
- зберігання документів і ПОД;
- аналіз запитів;
- видача документів користувачам.
Як уже зазначалося, на основі ІПМ використовують два основних режими чи методи організації пошуку: з вибірковим розподілом інформації і з ретроспективним пошуком.
При цьому застосовують різні мовні засоби, залежно від категорії користувачів і можливостей мов. Використовують мови, що забезпечують тільки можливості запитів, тобто виведення даних на екран чи друк в необхідному форматі; комплексні мови запитів-обновлень, що як більш розвинені мови дозволяють формулювати запити, які стосуються декількох взаємозв’язаних записів і дозволяють поновляти дані так же легко, як і формулювати запити; генератори звітів, що дозволяють вибирати необхідні дані і форматувати їх у вигляді потрібних форм документів; графічні мови, що дозволяють виводити інформацію у вигляді різних графіків і діаграм та інших зображувальних засобів.
При створенні ІПС неминуче виникає потреба у створенні тезаурусу системи, тобто набору спеціальних термінів для кодування понять та зв’язків між ними. Тезаурус дозволяє виражати зміст документів та запитів формалізованою інформаційною мовою.
Найбільш поширеними в сучасних автоматизованих ІПС є тезауруси з використанням мов дескрипторного типу, на відміну від тезаурусів з мовами класифікаційного типу, що використовуються, наприклад, в бібліотечно-бібліографічній класифікації з фіксованим обмеженим списком слів і словосполучень. Дескрипторами можуть бути окремі слова або словосполучення із групи синонімічних чи близьких за значенням слів, що використовуються в системі для контрольованого індексування (кодування) змісту документів і запитів встановленням відповідності між текстом документа і набором ключових дескрипторів.
Пошукова система — онлайн-служба, яка надає можливість пошуку інформації на сайтах в Інтернеті.
Математичні моделі пошукових систем
Математична модель – це спрощений опис реальності за допомогою математичних понять, в результаті якого отримується формула, яка дозволяє вважати документи знайденими та ранжувати їх.Основні типи математичних моделей
Булева математична модель
Булева (boolean, булевая, двійкова) математична модель – це модель пошуку, що спирається на операції перетину, об'єднання і вирахування множин.
Іншими словами можемо сказати так, знайшли відповідне слово – документ можна вважати знайденим, інакше – не знайденим.
Таким чином дана математична модель не підходить для пошукових систем, коли з’являється робота з великими числами (з великою кількістю документів).
Векторна математична модель
Векторна модель (англ. vector space model) – це представлення колекції документів векторами з одного спільного для всієї колекції векторного простору.
Векторна модель є основою для вирішення багатьох завдань інформаційного пошуку, таких як: пошук документа за запитом, класифікація документів, кластеризація документів.
Документ у векторній моделі розглядається як невпорядкований набір термів. Термами в інформаційному пошуку називають слова, з яких складається текст.
Різними засобами можна визначити вагу терма в документі – "важливість" слова для ідентифікації даного тексту. Наприклад, можна просто підрахувати кількість вживань терма в документі, так звану частоту терма, – чим частіше слово зустрічається в документі, тим більша у нього буде вага. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю.
Всі терми, що зустрічаються в документах певної колекції, можна впорядкувати. Після цього для деякого документу можна виписати по порядку вагу всіх термів, включаючи ті, яких немає в цьому документі, вийде вектор, який і буде представленням даного документа у векторному просторі. Розмірність цього вектора, як і розмірність простору, дорівнює кількості різних термів у всій колекції, і є однаковою для всіх документів.
Більш формально можна записати
dj = (w1j, w2j, …, wnj)
де dj – векторне представлення j-го документа, wij – вага i-го терма в j-м документі, n – загальна кількість різних термів у всіх документах колекції.
Маючи в своєму розпорядженні такі дані для всіх документів, можна, наприклад, знаходити відстань між точками простору і тим самим вирішувати проблему подібності документів – чим ближче розташовані точки, тим більш схожі відповідні документи. У разі пошуку документа за запитом, запит теж представляється як вектор того ж простору, таким чином можна обчислювати відповідність документів запиту.
Для повного опису векторної моделі для пошукової системи необхідно вказати, яким саме чином буде розраховуватись вага терма в документі. Існує декілька стандартних способів вирахування функції зважування.
Методи зважування термів
• булева вага – дорівнює 1, якщо терм зустрічається в документі і 0 – у противному разі;
• tf (term frequency, частота терма) – вага визначається як функція від кількості входжень терма в документ;
• tf-idf (term frequency - inverse document frequency, частота терма –обернена частота документа) – вага визначається як добуток функції від кількості входжень терма в документ та функції від величини оберненої кількості документів колекції, в яких зустрічається цей терм.
TF * IDF,
де TF – кількість входжень терма в документ, IDF – рідкість терма в колекції.
Зазначена модель використовується всіма пошуковими системами.
Імовірнісна математична модель
Підбір видачі за допомогою асесорів – це самостійне визначення людино-релевантності сторінок, порівнюючи з заздалегідь визначеними еталонними документами.
Недолік цієї моделі полягає в тому, що зазвичай дуже важко підібрати певну кількість еталонних документів на кожне існуюче слово та слово сполучення.
Як оцінювати результат роботи математичної моделі
Критерії якісної роботи математичної моделі
• точність – доля релевантних документів в результаті видачі;
• щільність – доля знайдених релевантних документів в загальній кількості релевантних документів колекції;
• актуальність – відповідність посилань в результаті релевантних документів Інтернету.
Отже ми вже знаємо, що окрім автоматичного оцінювання роботи пошукової системи, результат видачі ще оцінюють і люди – асесори. Вони використовують чітко описані правила та порівнюють з еталонними документами.
Немає коментарів:
Дописати коментар