Сучасні способи пошуку інформації. Індуктивний метод інформаційного пошуку. Процес пізнання з використанням індукції відбувається від одиничних суджень та фактів до загальних правил та узагальнення, у яких виражається загальна закономірність. проведення пошуку

Відеоурок: Як створити запити в Microsoft Access за 10 хвилин

Лекція: Використання інструментів пошукових систем (формування запитів)

Найважливішими функціями при роботі з базами даних є фільтр інформації, пошук та запит.


Сортування- Це процес упорядкування інформації за деякою ознакою. Буває зростаюча і спадна сортування. Якщо база даних має числову інформацію, то як сортування використовують ранжування, а якщо йдеться про текстову інформацію, то користуються сортуванням за абеткою.


При розгляді сортування систем управління базами даних в MS Access сортування здійснюється в межах одного поля. Якщо використовується нове сортування, то попередні його результати губляться. Якщо сортування вкладене, виконати його можна за допомогою запиту.


Фільтр- Це відбір інформації, необхідної користувачеві. Можна встановити складні умови відбору.

Щоб знайти деякі дані, можна використовувати спеціальні символи, які називаються маскою:


* – означає, що можна вибрати будь-яку кількість символів.

? – замість цього знака може бути будь-який символ, який можна використовувати.

# – замість цього символу може стояти будь-яка цифра.

– будь-які символи, що стоять у дужках.

- – будь-який символ, який відповідає вибраному діапазону.

! – будь-який символ, крім тих, що укладені у квадратних дужках.

Даний фільтр за знаками можна використовувати для всієї таблиці, або вже відібраної за деякими критеріями частини даних.

Запит- дана функція носить масштабний характер і може містити як сортування, так і фільтрацію. Ця функція дозволяє проводити відбір даних у кількох полях та таблицях. Можна створювати бібліотеку запитів, яка зберігається для майбутнього використання. Існує спеціальна мова запитів SQL – структурована.


Вивчивши цю тему, ви дізнаєтесь і повторіть:

Навіщо потрібні пошукові сервери;
- Призначення основних частин пошукових серверів;
- які види пошуку інформації існують в Інтернеті;
- основні правила формування запиту у пошуковій системі Яндекс.

Пошук за адресами URL

Найшвидший і найнадійніший вид пошуку інформації в Інтернеті – пошук за адресами URL. Багато хто з них наводиться в друкованих виданнях, спеціальних довідниках, звучить в ефірі популярних радіостанцій та з екранів телевізора.

♦ Фанати футбольного клубу «Зеніт» знають напам'ять адресу www.fc-zenit.ru.
♦ Прихильникам гурту «Король і блазень» добре відомий офіційний сайт цього гурту www.korol.spb.ru.
♦ Любителі телеканалу НТВ легко знайдуть його сайт за адресою www.ntv.ru. Для швидкого доступу до вищеназваних ресурсів достатньо запустити браузер, наприклад Internet Explorer, і набрати знайому адресу URL у рядку адреси.

Пошукові системи

В Інтернеті зосереджено безліч документів. Щоб полегшити пошук потрібної інформації, створюються спеціальні пошукові машини.

Пошукові машини- це автоматичні системи, що опитують сервери, підключені до глобальної мережі, і зберігають у базі інформацію про наявних на серверах даних. По спеціально сформульованому запиту пошукові машини надають інформацію у тому, де можна отримати необхідні дані.

Як правило, пошукові машини складаються з трьох частин: робота, індексу та програми обробки запиту.

Робот (Spider, Robot або Bot)- це програма, яка відвідує веб-сторінки та зчитує (повністю або частково) їх вміст. Роботи пошукових систем відрізняються індивідуальною схемою аналізу вмісту веб-сторінки.
Індекс пошукової системи- це сховище пошукових образів, відвіданих роботами сторінок. Пошуковий образ документа (у тому числі й веб-сторінки) - це опис змісту документа спеціальною інформаційно-пошуковою мовою. Цей опис містить коди ключових слів документа, що відображають його зміст та зміст. Індекси в кожній пошуковій системі розрізняються за обсягом та способом організації збереженої інформації. Бази даних провідних пошукових машин зберігають відомості про десятки мільйонів документів, а обсяг їх індексу становлять сотні гігабайт. Індекси періодично оновлюються і доповнюються, тому результати роботи однієї пошукової машини з тим самим запитом можуть відрізнятися, якщо пошук проводився в різний час.

Програма обробки запиту- це програма, яка відповідно до запиту користувача «переглядає» індекс щодо наявності потрібної інформації та повертає посилання на знайдені документи. Багато посилань на виході системи розподіляється програмою в порядку зменшення релевантності у тобто від максимально відповідності посилання запиту до найменшої.

В даний час найпопулярнішими для російських користувачів Інтернету є три великі пошукові системи індексного типу:

Ці системи враховують граматичні особливості російської, тому результати їхнього пошуку в російськомовних ресурсах відрізняються вищою якістю, ніж у західних систем.

Пошукові машини відрізняються за охопленням інформаційних ресурсів:

♦ пошукові машини загальної тематики мають базу даних за всіма напрямками знань і відрізняються великим індексом і великим обсягом інформації, що накопичується;
♦ пошукові машини спеціального призначення переглядають лише сайти за певною тематикою, наприклад, музичні або музейні.

Основними характеристиками пошукових машин є:

♦ обсяг документів в індексі;
♦ частота оновлення інформації;
♦ інформаційний простір, що охоплює робот пошукової машини, та різноманітність типів документів, про які збирається інформація;
♦ швидкість обробки запиту;
♦ критерій визначення релевантності (відповідності знайденого документа пошуковому запиту);
♦ можливість деталізації та уточнення запиту.

Пошук за рубрикатором пошукової системи

Пошукові каталоги є систематизованою колекцією (підбіркою) посилань на інші ресурси Інтернету. Посилання організовані як тематичного рубрикатора, що є ієрархічну структуру, переміщаючись якою, можна знайти необхідну інформацію.

Наведемо як приклад структуру пошукового інтернет-каталогу Яндекс. Це каталог загального призначення, тому що в ньому представлені посилання на ресурси Інтернету практично за всіма можливими напрямками. У цьому каталозі виділені такі теми:

♦ Бізнес та економіка;
♦ Довідники та посилання;
♦ Суспільство та політика;
♦ Дім та сім'я;
♦ Наука та освіта;
♦ Розваги та відпочинок;
♦ Комп'ютери та зв'язок;
♦ Культура та мистецтво.

Кожна тема включає безліч підрозділів, які, своєю чергою, містять рубрики тощо.

Припустимо, ви готуєте захід до Дня перемоги та хочете знайти в Інтернеті слова відомої військової пісні Булата Окуджави «Ви чуєте, гуркочуть чоботи». Пошук можна організувати так: Яндекс Каталог Культура та мистецтво Музика Авторська пісня.

Такий спосіб пошуку є досить швидким та ефективним. Насамкінець вам пропонується всього 5 посилань, серед яких є посилання на сайти з піснями відомих бардів. Залишається знайти на сайті архів з текстами пісень Б. Окуджави і вибрати в ньому потрібний текст.

Інший приклад. Припустимо, ви маєте намір придбати мобільний телефон і хочете порівняти характеристики апаратів різних фірм. Пошук міг би вестись за наступними рубриками каталогу: Яндекс Каталог Комп'ютери та зв'язок Мобільний зв'язок Мобільні телефони.

Отримавши обмежену кількість посилань, можна досить оперативно їх переглянути та вибрати телефон, дослідивши характеристики по фірмам та модифікаціям апаратів.

Пошук за ключовими словами

Більшість пошукових машин мають можливість пошуку за ключовими словами. Це один із найпоширеніших видів пошуку. Для пошуку за ключовими словами необхідно ввести у спеціальному вікні слово або кілька слів, які слід шукати, та клацнути на кнопці Пошук. Пошукова система знайде у своїй базі та покаже документи, що містять ці слова. Таких документів може бути безліч, але багато в даному випадку не обов'язково означає добре.

Проведемо кілька експериментів із будь-якою з пошукових систем. Припустимо, що ми вирішили завести акваріум і нас цікавить будь-яка інформація на цю тему.

На перший погляд найпростіше – це пошук за словом «акваріум». Перевіримо це, наприклад, у пошуковій системі Яндекс. Результатом пошуку буде понад 460 000 сторінок на 3500 сайтах - величезна кількість посилань. Причому, якщо подивитися уважніше, серед них опиняться сайти, що згадують групу Б. Гребенщикова «Акваріум», торгові центри та неформальні об'єднання з такою самою назвою, та багато іншого, що не має відношення до акваріумних рибок.

Неважко здогадатися, що такий пошук не може задовольнити навіть невибагливого користувача. Занадто багато часу доведеться витратити на те, щоб відібрати серед усіх запропонованих документів ті, що стосуються потрібного нам предмета, і особливо на те, щоб ознайомитися з їх вмістом.

Можна відразу зробити висновок, що вести пошук за одним словом, як правило, недоцільно, адже за одним словом дуже складно визначити тему, якій присвячено документ, веб-сторінку або сайт. Виняток становлять рідкісні слова та терміни, які практично ніколи не використовуються поза своєю тематичною сферою.

Спробуємо уточнити умови пошуку та введемо словосполучення «акваріумні рибки». Результатом пошуку будуть трохи більше 20 ТОВ сторінок та близько 650 сайтів. Як бачимо, кількість посилань зменшилася більш ніж у 20 разів. Цей результат нас влаштовує більше, але все одно серед запропонованих посилань можуть зустрітися, наприклад, російські сувенірні набори сірникових етикеток із зображеннями рибок, колекції заставок для Робочого столу комп'ютера, каталоги акваріумних рибок з фотографіями, магазини акваріумних аксесуарів.

Очевидно, що слід продовжити рух у напрямку уточнення умов пошуку.

Щоб зробити пошук більш продуктивним, у всіх пошукових системах існує спеціальна мова формування запитів зі своїм синтаксисом. Ці мови багато в чому схожі. Вивчити їх все досить складно, але будь-яка пошукова машина має довідкову систему, яка дозволить вам освоїти потрібну мову.

Наведемо десять простих правил формування запиту у пошуковій системі Яндекс.

1. Ключові слова у запиті слід писати малими (маленькими) літерами. Це забезпечить пошук всіх ключових слів, а не тільки тих, що починаються з великої літери.

2. Під час пошуку враховуються всі форми слова за правилами російської мови, незалежно від форми слова у запиті. Наприклад, якщо в запиті було вказано слово «знаю», то умови пошуку задовольнятимуть і слова «знаємо», «знаєте» тощо.

3. Для пошуку стійкого словосполучення слід укласти слова в лапки, наприклад «порцеляновий посуд».

4. Для пошуку точної словоформі перед словом треба поставити знак оклику. Наприклад, для пошуку слова «вересень» у родовому відмінку слід написати «!вересня».

5. Для пошуку всередині однієї пропозиції слова в запиті поділяють пробілом або знаком &: «пригодницький роман» або «пригодницький роман». Декілька набраних у запиті слів, розділених пробілами, означають, що вони повинні входити до одного речення шуканого документа.

6. Якщо ви бажаєте, щоб були відібрані лише ті документи, в яких зустрілося кожне слово, вказане в запиті, поставте перед кожним із них знак плюс +. Якщо ви, навпаки, хочете виключити будь-які слова з результату пошуку, поставте мінус «-» перед цим словом. Знаки «+» і «-» треба писати через пробіл від попереднього і разом з наступним словом. Наприклад, за запитом "Волга-автомобіль" будуть знайдені документи, в яких є слово "Волга" і немає слова "автомобіль".

7. При пошуку синонімів або близьких за значенням слів між словами можна встановити вертикальну межу «|». Наприклад, за запитом «дитина | малюк немовля» буде знайдено документи з будь-яким із цих слів.

8. Замість слова в запиті можна підставити цілий вираз. Для цього його треба взяти в дужки, наприклад «(дитина | малюк | діти | немовля) + (догляд | виховання)».

9. Знак *~» (Тільда) дозволяє знайти документи з пропозицією, що містить перше слово, але не містить друге. Наприклад, за запитом "книги ~ магазин" будуть знайдені всі документи, що містять слово "книги", поруч із яким (у межах пропозиції) немає слова "магазин".

10. Якщо оператор повторюється один раз (наприклад, & або ~), пошук здійснюється в межах пропозиції. Подвійний оператор (&&, -) визначає пошук у межах документа. Наприклад, на запит «рак - астрологія» будуть знайдені документи зі словом «рак», що не стосуються астрології.

Маючи певний набір найбільш уживаних термінів у потрібній області, можна використовувати розширений пошук. На рис. 3.3 показано вікно розширеного пошуку у пошуковій системі Яндекс. У цьому режимі можливості мови запитів реалізовані як форми. Подібний сервіс, що включає словникові фільтри, пропонується майже всіма пошуковими системами.

Рис. 3.3. Приклад розширеного пошуку у системі Яндекс

За умови правильного вибору бажаних та обов'язкових слів та виключення небажаних термінів такий пошук може дати непогані результати.

Повернемося, наприклад, з акваріумними рибками. Після прочитання кількох запропонованих пошуковою системою документів стає зрозуміло, що пошук інформації в Інтернеті слід починати не з вибору акваріумних рибок. Акваріум - складна біологічна система, створення та підтримання якої потребує спеціальних знань, часу та серйозних капіталовкладень.

На підставі отриманої інформації людина, яка здійснює пошук в Інтернеті, може кардинально змінити стратегію подальшого пошуку, прийнявши рішення вивчити спеціальну літературу, що стосується досліджуваного питання.

Для пошуку літератури або повнотекстових документів можливий наступний запит:

«+(акваріум | акваріуміст | акваріумістика) +початківцям +(поради | література) +(стаття | теза | повнотекстовий) -(ціна | магазин | доставка | каталог)».

Після обробки запиту пошуковою машиною отримано наступний результат: сторінок – 195, сайтів – не менше 43.

Як видно зі статистики пошуку, результат виявився дуже успішним. Вже перші посилання наводять до шуканих документів:

Розміщення акваріума > Поради акваріумісту, що починає, >
Статті > Aq uascope. ru
http://aquascope.ru/modules/wfsection/article.php?page=l&articleid=49 (32КБ) - сувора відповідність.
ПОРАДИ ПОЧИНАЮЧИМ АКВАРІУМІСТАМ. Як вибрати та встановити акваріум, як...
http://www.aquariums.ru/sovna.htm (2КБ) 23.07.2002 - нечитка відповідність.

Тепер можна підсумувати результати пошуку, зробити певні висновки та прийняти рішення про можливі дії:

♦ Припинити подальший пошук, оскільки з різних причин утримання акваріума вам не під силу.
♦ Прочитати запропоновані статті та розпочати влаштування акваріума.
♦ Пошукати матеріали про хом'яки або хвилясті папужки.

Професійний пошук

Для науковців та фахівців доведеться більш продумано підійти до організації пошуку. При професійному пошуку інформації в Інтернеті повинні дотримуватися таких вимог:

♦ висока швидкість проведення пошуку;
♦ достовірність одержуваної інформації;
♦ повнота охоплення ресурсів під час пошуку.

Швидкість. Швидкість проведення пошуку залежить в основному від двох факторів: від грамотного планування пошуку (вибору пошукових сервісів та інструментів) та навичок роботи з уже вибраним ресурсом (уміння швидко розібратися у його структурі та способах навігації). Для забезпечення швидкості пошуку пошукових індексів недостатньо. Крім них в Інтернеті існує ще ціла низка пошукових ресурсів, використання яких забезпечує виконання професійного пошуку.

Достовірність. Питання достовірності інформації, одержуваної з Інтернету, є дуже актуальним, оскільки будь-яка людина може розмістити там будь-яку інформацію без будь-якого контролю її відповідності дійсності. Це, у свою чергу, призводить до великої кількості недостовірних джерел, якими є, наприклад, реферати та курсові роботи, що затопили Інтернет.

Існують спеціальні пошукові послуги, що дозволяють оцінити надійність джерела інформації в Інтернеті.

Повнота. Необхідною умовою успішного повномасштабного збору інформації є знання основних існуючих на сьогоднішній день типів ресурсів та використання різноманітних пошукових сервісів. Жодна пошукова система не може охопити всі ресурси Інтернету.

Як правило, для досягнення позитивного результату користувач повинен вдатися до послуг кількох пошукових систем. Можна зробити це самостійно, переходячи із системи в систему, а можна доручити цю роботу одній з метапошукових систем (meta - перша складова складних слів, що позначає системи для опису та дослідження інших систем).

Рис. 3.4. Вікна метапошукових систем

Метапошукові системи не мають власних пошукових баз даних і при пошуку використовують ресурси багатьох інших пошукових систем. За рахунок цього можливість знаходження необхідної інформації виявляється дуже високою. Робота в метапошукових системах проводиться за тими самими правилами, що й робота в пошукових системах. Це викликано тим фактом, що метапошукові системи є своєрідною надбудовою до пошукових систем і використовують у роботі їх індексні бази. Зовнішній вигляд метапошукових систем нагадує зовнішній вигляд відомих пошукових машин. На рис. 3.4 представлені вікна метапошукових систем myweb.ru та metabot.ru.

Досвід показує, що у більшості випадків найкращий результат досягається при використанні декількох незалежних пошукових індексів, ніж при використанні однієї метапошукової системи.

Контрольні питання та завдання

1. Яким є призначення програми-браузера?

2. Які програми-браузери вам відомі?

3. Де користувач, який планує пошук в Інтернеті, може знайти URL-адреси?

4. Якою є технологія пошуку за рубрикатором пошукової системи?

5. Яка технологія пошуку за ключовими словами?

6. Яких вимог слід дотримуватися під час професійного пошуку інформації в Інтернеті?

7. Коли в критерії пошуку слід задавати знаки «+» чи «-»?

8. Які критерії пошуку в Яндексі задані наступною фразою:

(няня | вихователь | гувернантка) ++ (догляд | виховання | нагляд).

9. Що означає подвоєння знака (~~ або ++) для формування складного запиту?

10. Що таке релевантність пошуку?

11. Яке призначення метапошукових систем?

Класифікація пошукових інструментів (їх типи та види) Пошукові інструменти можна розділити на: - каталоги або директорії - directories - пошукові системи - search engines. В основі цієї класифікації покладено принцип відбору та обробки інформації для бази даних пошукового інструменту, а саме: наскільки цей процес автоматизований, хто створює базу даних пошукового інструменту: люди або комп'ютери.


Класифікація пошукових інструментів (їх типи та види) Останнім часом різниця між пошуковими системами та директоріями «стирається», оскільки їх творці намагаються не акцентувати увагу користувачів на принципах відбору інформації, а представляють якомога більше схожих сервісних можливостей, працюючи як універсальні портали. Але різниця у відборі та обробці інформації все-таки залишається суттєво важливою та визначальною: – пошукові машини використовують машини-роботи для пошуку, індексації інформації – тобто. Процес повністю автоматизований; - директорії побудовані на тому, що сайт «чекається» бути прийнятим, обробленим та описаним спеціалістом-каталогизатором.


Класифікація пошукових інструментів (їх типи та види) Такі відмінні один від одного принципи роботи пошукових систем та директорій значно впливають на їх обсяг та зміст, а відповідно – і на стратегію пошуку: Пошукові системи індексують вміст того чи іншого сайту повністю та пошук ведеться по всіх його повним текстам. Директорії представляють той чи інший сайт загалом – каталогізатор анотує та систематизує сайт відповідно до його загального змісту та повні тексти не індексуються. Пошукові системи індексують велику кількість сайтів, оскільки роботи, «що переглядають» вміст Мережі діють за принципом «снігової грудки», подорожуючи від посилання до посилання. Директорії ж відрізняються свідомістю та впорядкованістю підбору сайтів у свої бази даних (зазвичай це інформаційно насичені та/або сайти великих фізичних об'єктів).


Класифікація пошукових інструментів (їх типи та види) Отже, деякі пошукові системи: Altavista (Яndex (Google (Rambler (FastSearch (


Класифікація пошукових інструментів (їх типи та види) І директорії (або каталоги): Yahoo (Librarians Index to the Internet (lii.org) List.ru (


Класифікація пошукових інструментів (їх типи та види) Серед перерахованих, як ви помітили, є як універсальні глобальні пошукові інструменти, так і універсальні регіональні (в даному випадку – російські). Наведемо і деякі інші: EuroFerret (Voila (Altavista France (fr.altavista.com)) UKPlus (ukplus.co.uk)


Класифікація пошукових інструментів (їх типи та види) Поділ пошукових інструментів на глобальні та регіональні – не що інше, як класифікація за географічним принципом відбору ресурсів для індексації. Інші пошукові інструменти також змістовно організовують свої бази даних, але з тематики: FindLaw (Whowhere (MusicSearch (HumorSearch (FindBook (


Класифікація пошукових інструментів (їх типи та види) Зауважте, що такі спеціалізовані або тематичні пошукові інструменти можуть використовувати: або власні бази даних для пошуку за вашим запитом, або проводять пошук по всій Мережі, використовуючи інші пошукові системи.


Класифікація пошукових інструментів (їх типи та види) Крім того, існують і метапошукові системи, що пропонують шукати в декількох пошукових системах одночасно. Наприклад: Mamma (Перевага в тому, що в такому випадку видається максимально більша кількість результатів, а недолік у тому, що не всі пошукові системи мають однаковий синтаксис мови запитів (наприклад, лапки підтримуються не кожною пошуковою системою).


Основні елементи мови запитів пошукових систем Перелічимо загальні елементи та особливості мови запитів пошукових систем: Більшість використовують: + або - (включити чи виключити термін із пошукового розпорядження); «лапки» (для позначення фрази, стійкого словосполучення). Деякі замість знаків + або використовують союзи AND, AND NOT.


Основні елементи мови запитів пошукових систем Більшість дозволяють використовувати символи усічення слова зліва * (наприклад: wish* - будуть знайдені: wish, wishes, wishful, wishbone, and wishy-washy) Деякі пошукові системи чутливі до великих і малих літер (наприклад, якщо ви шукаєте матеріали про людей з прізвищем Stone за допомогою Altavista, слід обов'язково використовувати велику літеру, оскільки в іншому випадку будуть знайдені всі сайти, де зустрічається слово stone - камінь).


Основні елементи мови запитів пошукових систем (на прикладі Яndex) ЕлементЩо він означаєПриклад запиту пробіл або & або + логічне І (у межах пропозиції) сімейне право &&логічне І (у межах документа) рецепти&& (плавлений сир) |логічне ІЛІфото | фотографія | знімок | фотозображення


Основні елементи мови запитів пошукових систем (на прикладі Яndex) () групування слів(технологія | виготовлення) (масла | сиру) ~ або - союз І НЕ (у межах пропозиції) дума ~ закон ~~ союз І НЕ (у межах документа) путівник по парижу ~~ (агентство | тур) «» пошук фрази«антологія поезії»


Основні елементи мови запитів пошукових систем (з прикладу Яndex) ! перед словомточна форма слова!реальний!моменту - Цей закон набирає чинності через два тижні з моменту його опублікування. $title («»)Вираження є у полі «Заголовок» (Title) HTML-документа. $title («флора та фауна») - сторінки з назвами схожими з «Флора та фауна Сибіру»


І, на закінчення: 1) Для того, щоб правильно побудувати стратегію пошуку, потрібно перш за все вирішити для себе якусь інформацію ви хочете отримати - якусь загальну, що описує об'єкт або явище в цілому, або якісь деталі, зокрема, які можуть зустрітися у повному тексті якогось документа. У першому випадку – доцільно використати директорію, у другому – пошукову систему. 2) Якщо, починаючи пошук, ви ще не уявляєте точно, що і як багато ви хочете отримати в результатах запиту рекомендується використовувати різні пошукові інструменти в комплексі.

Пошукові інструменти

Пошукові інструменти – це особливе програмне забезпечення, основна мета якого – забезпечити найбільш оптимальний та якісний пошук інформації для користувачів Інтернету. Пошукові інструменти розміщуються на спеціальних веб-серверах, кожен з яких виконує певну функцію:

1. Аналіз веб-сторінок та занесення результатів аналізу на той чи інший рівень бази даних пошукового сервера.

2. Пошук інформації на запит користувача.

3. Забезпечення зручного інтерфейсу для пошуку інформації та перегляду результату пошуку користувачем.

Прийоми роботи, які використовуються під час роботи з тими чи іншими пошуковими інструментами, практично однакові. Перед тим як перейти до їх обговорення, розглянемо такі поняття:

1. Інтерфейс пошукового інструменту представлений у вигляді сторінки з гіперпосиланнями, рядком подання запиту (рядком пошуку) та інструментами активізації запиту.

2. Індекс пошукової системи - це інформаційна база, що містить результат аналізу веб-сторінок, складена за певними правилами.

3. Запит – це ключове слово або фраза, яку користувач вводить у рядок пошуку. Для формування різних запитів використовують спеціальні символи ("", ~), математичні символи (*, +, ?).

Схема пошуку інформації проста. Користувач набирає ключову фразу та активізує пошук, тим самим отримує добірку документів за сформульованим (заданим) запитом. Цей список документів ранжується за певними критеріями так, щоб зверху списку опинилися ті документи, які найбільше відповідають запиту користувача. Кожен із пошукових інструментів використовує різні критерії ранжирування документів, як під час аналізу результатів пошуку, і під час формування індексу (наповнення індексної бази даних web-страниц).

Таким чином, якщо вказати у рядку пошуку для кожного пошукового інструменту однакової конструкції запит, можна отримати різні результати пошуку. Для користувача має велике значення, які документи виявляться у перших двох-трьох десятках документів за результатами пошуку та наскільки ці документи відповідають очікуванням користувача.

Більшість пошукових інструментів пропонують два способи пошуку. simple search(простий пошук) та advanced search(розширений пошук) з використанням спеціальної форми запиту та без неї. Розглянемо обидва види пошуку на прикладі англомовної пошукової машини.

Наприклад, AltaVista зручно використовувати для довільних запитів, "Something about online degrees in information technology", тоді як пошуковий інструмент Yahoo дозволяє отримувати світові новини, інформацію про курс валют або прогноз погоди.

Освоєння критеріїв уточнення запиту та прийомів розширеного пошуку, дозволяє збільшувати ефективність пошуку та досить швидко знайти необхідну інформацію. Насамперед, збільшити ефективність пошуку Ви можете за рахунок використання у запитах логічних операторів (операцій) Or, And, Near, Not, математичних та спеціальних символів. За допомогою операторів та/або символів користувач пов'язує ключові слова у потрібній послідовності, щоб отримати найбільш адекватний запит результат пошуку. Форми запитів наведено у таблиці 1.

Таблиця 1

Простий запит дає кілька посилань на документи, т.к. до списку потрапляють документи, що містять одне зі слів, введених під час запиту, або просте словосполучення (див. таблицю 1). Оператор and дозволяє вказати на те, що до змісту документа повинні бути включені всі ключові слова. Тим не менш, кількість документів може бути ще великою, і їх перегляд займе достатньо часу. Тому в ряді випадків набагато зручніше застосувати контекстний оператор near, що вказує на те, що слова повинні розташовуватися в документі в достатній близькості. Використання близько зменшує кількість знайдених документів. Наявність символу "*" у рядку запиту означає, що здійснюватиметься пошук слова за його маскою. Наприклад, отримаємо список документів, що містять слова, що починаються на gov, якщо в рядку запиту запишемо gov *. Це може бути слова government, governor тощо.

Найбільш розвинений сервіс пошуку російськомовної інформації надає пошуковий сервер Яndex. В Яndex можна просто написати російською фразу, що описує те, що Ви хочете знайти, і система проаналізує та опрацює Ваш запит, а потім постарається знайти все, що відноситься до заданої теми. Ви можете, використовуючи спеціальні оператори, скласти рядок, що пояснює пошуковій системі, яким Вашим вимогам повинна відповідати інформація, що Вас цікавить.

Не менш популярна пошукова система Rambler веде статистику відвідуваності посилань з власної бази даних, підтримуються ті ж логічні оператори. слів, що вводяться в запит.

Давайте розглянемо найпопулярніші технології пошуку інформації в Інтернеті.

Лекція 4. Інструменти інформаційного пошуку

Постійне оновлення інформаційного масиву у поєднанні з приростом обсягу даних вкрай ускладнює облік наявних документів і, відповідно, пошук, який умовно можна поділити на:

  • фактографічний пошук:в енциклопедіях, довідниках, словниках,
  • бібліографічний пошук:бібліотеки, каталоги, програми.
  • документальний пошук:електронні документи, електронні бібліотеки, електронні журнали.

Важливість проблеми інформаційного пошуку призвела до утворення цілої галузі, завдання якої полягає саме у наданні допомоги користувачеві з навігації у кіберпросторі. Складають цю галузь спеціальніпошукові службиабо сервіси. Їх традиційно поділяють на:

  • довідники чи каталоги
  • пошукові системи

Ці різновиди візуально дуже схожі, оскільки«Кожен довідник має власну пошукову систему, а кожна пошукова система - власний довідник». Проте принципи їхньої роботи базуються на абсолютно різних підходах та технологіях. При цьому кожен різновид пошукових сервісів застосовується у вирішенні певного типу задач. Інформаційний пошук має на увазі використання певних стратегій, методів, механізмів та засобів. Поведінка користувача, здійснює управління процесом пошуку, визначається як інформаційної потребою, а й інструментальним розмаїттям системи - технологіями і засобами, наданими системою. Вибором інструменту багато в чому визначаєтьсястратегія пошукової діяльності та пошукові технології.

Пошукові технології- уніфіковані (оптимізовані у межах конкретної інформаційно-пошукової системи) послідовності ефективного використання окремих засобів пошуку у процесі взаємодії користувача із системою.

За використовуваними пошуковими технологіямиінформаційні системи можна розбити на 3 категорії:

  • тематичні каталоги та спеціалізовані каталоги (онлайнові довідники);
  • пошукові машини (повнотекстовий пошук);
  • засоби мета-пошуку.

Тематичні каталогипередбачають опрацювання документів та віднесення їх до однієї з кількох категорій, перелік яких заздалегідь заданий. Фактично це знайоме всім бібліотекаряміндексування на основі класифікації. Спеціалізовані каталогиабо довідники створюються за окремими галузями та темами.Пошукові машини(найрозвиненіший засіб пошуку в Інтернеті) реалізують технологію повнотекстового пошуку. Індексуються тексти, розташовані на серверах, що запитуються.При використанні коштівметапошуку запит здійснюється одночасно кількома пошуковими системами. Результат пошуку поєднується у загальний, упорядкований за рівнем релевантності, список.

Засоби пошуку - взаємозалежний комплекс інформаційно-пошукових мов та мов визначення/управління даними, що забезпечує структурні та семантичні перетворення об'єктів обробки (документів, словників, сукупностей результатів пошуку).

1. Довідники

Пошукові засоби першої групи є електронні довідники, що мають чітку ієрархічну систематичну або логіко-тематичну структуру,багато в чому нагадує структуру систематичного каталогу бібліотеки. Робота з довідниками дозволяє орієнтуватися в Інтернет-ресурсах у межах окремих галузей знання, заглиблюючись від загального до приватного, змінюючи ієрархічні гілки, повертаючись на кілька кроків тому тощо.

Серед російських розробок у цій галузі значаться:

  • Апорт (адреса: www.aport.ru),
  • List.ru (адреса: list.mail.ru ),
  • Weblist (адреса: www.weblist.ru ),
  • Іван Сусанін (адреса: www.susanin.net
  • Равлик (адреса: www.ulitka.ru).

Головною відмінністю довідників є те, що вони зроблені вручну. Редакційні колегії кожного з довідниківза характером праці нагадують відділи каталогізації та систематизації великих бібліотек, регулярно переглядають вміст серверів, що знову з'явилися, і відстежують зміни на вже існуючих. Виявлені дані аналізуються та заносяться до розділів довідника відповідно до прийнятої класифікації. Опис сервера в цілому (або розділу, якщо він представляється цілком самостійним блоком) забезпечується короткою інструкцією, що містить загальні відомості про характер наявної інформації. У деяких випадках заносяться додаткові відомості про мову документів, відвідуваність ресурсу, його фізичне місцезнаходження тощо.

Основними параметрами, що характеризують переваги довідників, є:

  • Об `єм;
  • оперативність відображення нових або ресурсів, що змінилися;
  • логічність та послідовність ієрархічної схеми класифікації;
  • перехресність структури.

Обсягом довідника визначається ступінь його надійності чи «інформаційна міцність». У деяких системах існує спеціальний механізм, який періодично перевіряє доступність сайту і виключає його з переліку при довгому «відсутності» в Мережі. Логічністю (науковістю) застосовуваної схеми класифікації визначається міра простоти, з якою користувачі знаходять необхідні відомості. Системаперехресних посиланьдозволяє виявити інформацію, використовуючи різні підходи (наприклад, територіальний чи галузевий). У цьому випадку схема класифікації повинна автоматично виводити користувача на об'єкт, який шукає, який би шлях пошуку не був обраний.

Можливості складання запиту цього виду пошукових засобів особливої ​​ролі не грають. Складні розшуки, які потребують деталізації запиту, за допомогою каталогів не проводяться.

Довідники призначені для вирішеннятрьох типів завдань:

  • орієнтація у незнайомій галузі знання;
  • розшук великих об'єктів, якими є, наприклад, сервери організацій або значних проектів;
  • отримання готового переліку ресурсів, що мають розмитий пошуковий образ (бібліотек певного типу, транспортних розкладів або сайтів політичних партій тощо)

Іншим прикладом є порівняння довідника ресурсів із систематичним каталогом бібліотеки, в якому від книги (в даному випадку цілого сайту) залишається лише опис та анотація.

2. Пошукові системи

В основу роботи пошукових систем (пошукових машин) закладено зовсім інші технологічні принципи. Завдання пошукових машин - забезпечити детальне розшук інформації, що може бути досягнуто тільки за рахунок обліку (індексування ) змісту максимально можливої ​​кількості веб-сторінок. На відміну від довідників, пошукові системи функціонують в автоматизованому режимі і мають однаковий принцип дії.

Пошукові системи складаються із двох базових компонентів. Перший компонент єпрограму-робот , Завдання якого пересуватися з сервера на сервер і знаходити там нові (або змінилися) документи, завантажуючи їх на головний комп'ютер системи. Робот переглядає вміст документа, знаходить нові посилання - як на інші документи сервера, так і зовнішні сайти. Далі програма самостійно прямує за вказаними посиланнями, знаходить нові документи, після чого процес повторюється знову,нагадуючи добре відомий у бібліографії «метод сніжної грудки». Виявлені документи обробляються (індексуються) другим компонентом пошукової системи. При цьому зазвичай враховується весь зміст сторінки, включаючи текст, ілюстрації, аудіо- та відеофайли. Індексації піддаються усі слова в документі, що дає можливість використовувати пошукові системи для детального пошуку за вузькою тематикою. Утворенііндексні файли , що зберігають інформацію про те, яке ключове слово, скільки разів, у якому документі і на якому сервері використовується, становлять ту базу даних, до якої звертається бібліотекар, що вводить у рядок запиту поєднання ключових слів.

Виведення результатів здійснюється за допомогою спеціального модуля, який виробляєінтелектуальне ранжування результатів . При цьому до уваги береться:

  • розташування терміна в документі (назва, заголовок, основний текст), частота його повторення,
  • відсоткове співвідношення шуканого терміну до тексту сторінки,
  • число та авторитетність зовнішніх посилань на цю сторінку з інших сайтів.

До основним параметрам пошукових системвідносяться:

  • число проіндексованих серверів та окремих документів (обсяг індексних файлів);
  • ступінь оперативності оновлення бази даних за рахунок включення відомостей про нові матеріали та видалення застарілих;
  • можливості для складання запиту;
  • інтелектуальність системи ранжування результатів пошуку;
  • наявність додаткових сервісних функцій, що полегшують роботу користувача.

Можливості пошукового механізму висловлювати запит максимально точно значною мірою визначають якість отриманих результатів. Кожна машина має власну лексику, яка по-різному дозволяє деталізуватипошукове розпорядження.

Всі пошукові машини маютьмодулем ранжування результатів пошуку. Це другий базовий компонент усіх систем. Перелік факторів, що беруться до уваги при визначенні місця документа в переліку посилань, є надзвичайно широким: від розташування слова на сторінці до рейтингу (авторитету) сторінок, які мають посилання на знайдений документ.

  • Google (адреса: www.google.com ),
  • AlltheWeb (адреса: www.alltheweb.com ),
  • Alta Vista (адреса: www.altavista.com).

Подібні пошукові засоби існують і в Росії. Всі вони призначені для роботи з російськомовними документами і мають потужний http://www.metabot.ru).

Висновки на тему лекційного блоку

Пошукова система робить вибірку сторінок з бази даних відповідно до запиту, потім сторінки впорядковуються за рівнем зменшення збігів (прим. А.А.)

У разі спостерігається пряма аналогія з принципами роботи розподілених зведених каталогів бібліотеки. Ключовою можливістюмета-пошуку є здатність розсилати запити користувача одночасно з різних пошукових систем - з наступним підсумовуванням результатів. (Прим. А.А.)

Звертаючись до довідників, бібліотекар може розраховувати отримання лише дуже загальних відомостей за тематикою, і - детальних даних: від сервера великої корпорації, що містить тисячі сторінок, у довіднику буде представлено лише найменування і кілька рядків інструкції.

Завантаження...
Top