تقنيات المعلومات للبحث عن المعلومات. مراحل البحث عن المعلومات

تقنيات المعلومات لاسترجاع المعلومات

البحث عن المعلومات: المفاهيم الأساسية وأنواع وأشكال التنظيم

يعد البحث عن المعلومات أو استرجاعها إحدى عمليات المعلومات الرئيسية. كانت البشرية تفعل ذلك منذ العصور القديمة. لطالما اعتمدت أهداف البحث وإمكانياته وطبيعته على توافر المعلومات وأهميتها وإمكانية الوصول إليها ، فضلاً عن وسائل تنظيم البحث.

تتميز نهاية القرن العشرين - بداية القرن الحادي والعشرين بمصفوفات ضخمة من المعلومات المتنوعة المتزايدة باستمرار والتي يمكن الوصول إليها والتي تهم أوسع شرائح المجتمع. علاوة على ذلك ، فإن تقنيات الإنترنت والبرامج وأدوات الأجهزة ، المتاحة أيضًا لمعظم الناس ، تسمح بتنفيذ هذه العملية في أي وقت ، وفي أي مكان تقريبًا ، لأي طلب.

يبحث- عملية يتم خلالها ، في تسلسل أو آخر ، ربط البحث عن كل كائن مخزّن في المصفوفة. الغرض من أي بحث هو الحاجة أو الحاجة أو الرغبة في العثور على أنواع مختلفة من المعلومات التي تساعد الباحث في الحصول على المعلومات والمعرفة وما إلى ذلك الذي يحتاجه. لتحسين حياتهم المهنية والثقافية وأي مستوى آخر ؛ خلق معلومات جديدة وتكوين معرفة جديدة ؛ اتخاذ القرارات الإدارية ، إلخ.

وفقًا للخبراء ، هناك مليارات المستخدمين على الإنترنت. ومن بين هؤلاء مئات الملايين متصلون بالإنترنت (اللغة الإنجليزية "عبر الإنترنت" - الوصول التفاعلي في أي وقت) وعدد هؤلاء المستخدمين في تزايد مستمر. هذا يجعل من الصعب تنظيم بحث تشغيلي والعثور على المعلومات اللازمة لمثل هذا العدد الكبير من المستخدمين. تنشأ المشاكل بسبب الاحتمالات (أنواع) المختلفة لاسترجاع المعلومات ، والطرق المختلفة لتنفيذها في أنظمة استرجاع المعلومات (IPS) ، ومستويات مختلفة من معرفة المستخدم حول قدرات هذه الأنظمة ، لا سيما في مجال توليد الاستفسارات ومعالجة البيانات التي تم الحصول عليها مثل نتيجة لتنفيذ هذه الاستفسارات وما إلى ذلك.

من المفترض أنه سيتم إنشاء أنظمة معلومات في المستقبل يمكنها التكيف تلقائيًا مع مستوى المعرفة وطلبات مستخدمين محددين ، وإدراك الطلبات بلغة طبيعية ، واستخدام الذكاء الاصطناعي ، ومنحهم المعلومات ذات الصلة وذات الصلة. سيتطلب إنشاء مثل هذه IPS ذكاء ومعرفة مستخدمي IPS محددين أو وسطاء. في غضون ذلك ، هناك حاجة إلى مجموعة واسعة من مستخدمي محركات البحث للحصول على أمر جيد إلى حد ما في هذا المجال.

هناك تفسيرات مختلفة لمصطلح "البحث عن المعلومات" أو "البحث عن المعلومات".

المصطلح "استرجاع المعلوماتقدم "(استرجاع المعلومات باللغة الإنجليزية) عالم الرياضيات الأمريكي ك. مويرز. ولاحظ أن الدافع وراء مثل هذا البحث هو تحتاج المعلومات ، معبرا عنها في شكل طلب معلومات. تصنف K. Muers الوثائق والمعلومات المتعلقة بوجودها و (أو) موقعها والمعلومات الواقعية كأدوات لاسترجاع المعلومات.

كان ممثلو المكتبات هم أول من حل مشاكل البحث الواقعي. لقد طوروا أدوات لاسترجاع المعلومات تسمى " جهاز المرجع والبحث "(الكتالوجات ، الفهارس الببليوغرافية ، إلخ). في الصحافة المحلية المهنية ، يُستخدم هذا المصطلح منذ السبعينيات. يعرف المكتبيون" استرجاع المعلومات "كما في المعلوماتمجموعة من الوثائق المقابلةطلب معلومات من المستخدمين .

من وجهة نظر استخدام تكنولوجيا الحاسوب "استرجاع المعلومات "- مجموعة من العمليات المنطقية والفنية بهدف نهائي هو العثور على المستندات والمعلومات المتعلقة بها والحقائق والبيانات ذات الصلة بطلب المستهلك.

" ملاءمة"- عند التثبيتاسترجاع المعلومات الامتثال لمحتوى الوثيقةطلب معلومات أو البحث عن صورة الوثيقة لوصفة البحث.

هناك تعريفات أخرى كذلك. على أي حال ، فإن استرجاع المعلومات ناتج عن الحاجة إلى تلبية احتياجات المعلومات للمستخدمين الذين يتوقعون الحصول بسرعة على البيانات أو المعلومات التي يحتاجون إليها بمساعدة محركات البحث. إنها طريقة للبحث واسترجاع الوثائق و / أو الحقائق ذات الصلة من مصادر مختلفة للمعلومات ، مثل بنوك البيانات أو أجهزة التخزين. هذه كائنات حية وغير حية تمثل مصادر مختلفة وناقلات للمعلومات.

تسمى الأنظمة التي توفر تنفيذ استرجاع المعلوماتمحركات البحث(ملاحظة). في التقنيات التقليدية ، تمثل PS خزائن الملفات والكتالوجات والعناوين والأدلة الأخرى والفهارس والموسوعات والأجهزة المرجعية للمنشورات والمواد الأخرى.

في عام 1945 ، أثار العالم والمهندس الأمريكي دبليو بوش ، في مقالته بعنوان "آلية ممكنة لتفكيرنا" ، للمرة الأولى على نطاق واسع ، مسألة الحاجة إلى ميكنة استرجاع المعلومات.

منذ الستينيات ، ظهرت محركات البحث الآلي التي تعمل بالمعلومات. منذ هذه الفترة ، تم القيام بعمل مكثف في مجال تشكيل وتنفيذ مبادئ وطرق استرجاع المعلومات.

" محركات البحث"إجراء بحث بين مستندات قاعدة البيانات أو المصفوفات الأخرى للبيانات المقروءة آليًا والتي تحتوي على الكلمات المحددة.

تُمكِّن PS الإلكترونية التي تستخدم محطات تقليدية أو ذكية (PC) المستخدمين من إجراء استعلامات بحث باستخدام العناصر الرسمية وعناصر وصفية المحتوى وباستخدام عوامل منطقية خاصة ؛ إجراء بحث بين مستندات قاعدة البيانات أو المصفوفات الأخرى للبيانات المقروءة آليًا والتي تحتوي على الكلمات المحددة. محركات البحث تسمح فقط بإجراءات البحث والعمليات ذات الصلة.

نظم استرجاع المعلومات

عادةً ما تكون PS مع مجموعة كبيرة من الوظائف والقدرات جزءًا من DBMS وتسمى أنظمة استرداد المعلومات. يتم إنشاؤها واستخدامها أيضًا للعثور على البيانات التي يحتاجون إليها بكفاءة ، بما في ذلك على الإنترنت.

مصطلحيا "نظام استرجاع المعلومات"(" نظام استرجاع المعلومات باللغة الإنجليزية "، IRS) - يمثل نظامًا مصممًا للبحث عن المعلومات وتخزينها ؛ حزمة برامج تنفذ عمليات إنشاء وتحديث وتخزين والبحث في قواعد بيانات المعلومات وبنوك البيانات.

نظام استرجاع المعلومات يتم تفسيره على أنه نظام يوفر البحث عن البيانات الضرورية واختيارها بناءً على لغة استرجاع المعلومات وقواعد البحث المقابلة ، و قاعدة البيانات- كمجموعة من الوسائل والطرق لوصف وتخزين ومعالجة البيانات التي تسهل جمع وتراكم ومعالجة مصفوفات المعلومات الكبيرة. يختلف تنظيم قواعد البيانات المختلفة في نوع كائنات البيانات والعلاقات بينها.

يعتمد عمل IPS الحديث على افتراضين:

    يتم توحيد المستندات المطلوبة من قبل المستخدم من خلال وجود بعض الميزات أو مجموعة من الميزات ؛

    يمكن للمستخدم تحديد هذه السمة.

لم يتم استيفاء هذين الافتراضين في الممارسة العملية ، ولا يمكننا التحدث إلا عن احتمالية تحقيقها. لذلك ، عادة ما تكون عملية استرجاع المعلومات عبارة عن سلسلة من الخطوات تؤدي من خلال النظام إلى بعض النتائج ، وتسمح بتقييم اكتمالها. في الوقت نفسه ، فإن سلوك المستخدم ، كبداية تنظيمية لإدارة عملية البحث ، يكون مدفوعًا ليس فقط بالحاجة إلى المعلومات ، ولكن أيضًا من خلال مجموعة متنوعة من الاستراتيجيات والتقنيات والأدوات التي يوفرها النظام.

لا يمتلك المستخدم عادةً معرفة شاملة بمحتوى المصدر الذي يتم البحث عنه. يمكنه تقييم مدى كفاية تعبير الاستعلام ، وكذلك مدى اكتمال النتيجة التي تم الحصول عليها ، من خلال البحث عن معلومات إضافية ، أو عن طريق تنظيم العملية بحيث يمكن استخدام جزء من نتائج البحث لتأكيد أو نفي كفاية الجزء الآخر. في الوقت نفسه ، يتميز المستخدمون المحترفون باستقرار الملف الشخصي المواضيعي. عندما تكون "موجهة للمعلومات" ، فإنها تتميز بالرغبة والقدرة على تنظيم مساحة المعلومات الخاصة بالمشكلة. هذا يعني أن المستخدم ينشئ بشكل أساسي IR جديدًا "مستقلًا" موجهًا نحو حل المشكلات ، يتم تحديثه وتجديده بشكل فردي ، والذي يتضمن ، بالإضافة إلى مجموعات المستندات ، أيضًا المعلومات الوصفية ، على سبيل المثال ، قواميس المصطلحات المتخصصة ، ومصنفات مجال الموضوع ، والموارد الأوصاف ، إلخ.

إن خصوصية عمل المستخدم في وضع "الخدمة الذاتية" ، في سياق مهمة أتمتة النشاط الكلي ، تعني أن النظام يجب أن يمثل بيئة توفر الدعم لوظائف المستهلك لمعالجة المعلومات الموجودة ، وكذلك مثل تلك المتعلقة تقليديًا بوظائف وسيط المعلومات (تفسير الطلب ، وترجمته إلى لغة البحث المعلوماتي ، واختيار IR ، والبحث الآلي ، والاختيار اليدوي للمواد) ، ولكن أيضًا وظائف "توفير" مثل: تنظيم احتياجات المعلومات ، التكيف المعجمي للاستعلام وتقييم وتنظيم ومعالجة نتائج البحث ، سواء على مستوى كل من وثيقة منفصلة وموارد المعلومات بشكل عام. تسمح القدرات التقنية المتاحة للمستخدم بإنشاء مصدر معلومات - لتشكيل المصفوفات وتنظيم وإنشاء تمثيلات خارجية لمحتواها لاستخدامهم الخاص أو الخارجي.

تنقسم IPS إلى: تقليدية (يدوية ، ميكانيكية ، كهروميكانيكية) وآلية (إلكترونية).

IPS الآلي (AIPS) ، واستخدام برامج وأجهزة وتقنيات الكمبيوتر وتهدف إلى العثور على المعلومات وإصدارها للمستخدمين وفقًا لمعايير محددة. العاملان التاليان حاسمان لفهم طرق أتمتة البحث:

    لا تتم مقارنة الأشياء نفسها ، ولكن الأوصاف - ما يسمى ب "البحث عن الصور" ؛

    العملية نفسها معقدة (مركبة وليست من فعل واحد) وعادة ما يتم تنفيذها من خلال سلسلة من العمليات.

يتم إدخال البيانات في AIPS على أساس تنسيقات الإدخال المطورة خصيصًا. يتم تقديم جميع المعلومات حول كائن واحد في IPS في شكل بيانات منظمة تشكل صفًا واحدًا من الجدول وتسمى سجل . في الوقت نفسه ، إذا كان IS يمثل الكتالوج الإلكتروني للمكتبة ، فإن أي وصف ببليوغرافي (BD) للمستند الموجود فيه هو سجل واحد يتكون من حقول مساوية لعدد عناصر BD. تشكل مجموعة السجلات قاعدة بيانات يتم تخزينها عادةً في ملف واحد. تشكل مجموعة قواعد البيانات التي يوحدها نظام DBMS بنك بيانات.

لأن AIPSأداة يستخدمها الشخص عند البحث (لكن لاآلة البحث الذكية معلومات - حلول جاهزة لمشاكل النشاط الرئيسي) ، تعتمد فعالية استخدامه على مدى معرفة الشخص بطبيعة الأشياء التشغيلية وخصائص الأداة التي يعمل من خلالها مع هذه الكائنات.

استرجاع المعلومات ينطوي على استخدام بعض الاستراتيجيات والطرق والآليات والوسائل. يتم تحديد سلوك المستخدم الذي يدير عملية البحث ليس فقط من خلال الحاجة إلى المعلومات ، ولكن أيضًا من خلال التنوع الفعال للنظام - التقنيات والأدوات التي يوفرها النظام.

استراتيجية البحث - خطة عامة (المفهوم ، التفضيل ، الإعداد) لسلوك النظام أو المستخدم للتعبير عن احتياجات المعلومات الخاصة بالمستخدم وتلبيتها ، بسبب طبيعة الهدف ونوع البحث ، وقرارات النظام "الإستراتيجية" - هندسة قواعد البيانات والأساليب وأدوات البحث في AIPS معين.

اختيار الاستراتيجية في الحالة العامة هو مشكلة تحسين. في الممارسة العملية ، يتم تحديده إلى حد كبير من خلال فن تحقيق حل وسط بين الاحتياجات العملية وإمكانيات الوسائل المتاحة.

طريقة البحث - مجموعة من النماذج والخوارزميات لتنفيذ المراحل التكنولوجية الفردية: بناء صورة استعلام البحث (PRI) ، واختيار الوثائق (مقارنة صور البحث من الاستعلامات والوثائق) ، وتوسيع وإعادة صياغة الاستعلام ، وتعريب الإصدار وتقييمه.

الاستعلام عن صورة البحث- نص مكتوب في ILP يعبر عن المحتوى الدلالي لطلب المعلومات ويحتوي على التعليمات اللازمة للتنفيذ الأكثر فاعلية لاسترجاع المعلومات.

طرق البحث ، أي يعد اختيار مجموعة فرعية من المستندات التي يحتمل أن تحتوي على وصف لحل مشكلة اختيار المستندات (OD) انعكاسًا لعملية إيجاد حل ويعتمد على طبيعة المشكلة ومجال الموضوع.

بالنظر إلى البحث كعملية تكرارية ، فإن طرق تقليل مساحة البحث (للمجموعة الفرعية الممسوحة ضوئيًا) تشكل أساسًا الأساس المنهجي لاستراتيجية البحث ويمكن تقسيمها إلى الفئات التالية - طرق البحث في:

    مساحة واحدة (موضوعية عادة) ؛

    مساحة مرتبة هرميًا ؛

    مساحات بديلة

    مساحة ديناميكية (تتغير أثناء البحث).

يجب أن توفر الطريقة التي تم تنفيذها لإنشاء نقطة بيع طرقًا فعالة لإنشاء استعلام لتحقيق أنواع مختلفة من الأهداف.

آليات البحث - مجموعة من النماذج والخوارزميات المنفذة في النظام لعملية إصدار الوثائق استجابة لاستعلام بحث.

ادوات البحث ، من ناحية ، هو مجمع مترابط من لغات استرجاع المعلومات (IRLs) ولغات تعريف / إدارة البيانات التي توفر تحويلات هيكلية ودلالية لكائنات المعالجة (المستندات والقواميس ومجموعات نتائج البحث) ، وعلى من ناحية أخرى ، كائنات واجهة المستخدم التي توفر تسلسل التحكم في اختيار الكائنات التشغيلية لنظام AIPS معين.

يتم توحيد تقنيات البحث (تحسينها ضمن تسلسل AIPS محدد) من أجل الاستخدام الفعال لأدوات البحث الفردية في عملية تفاعل المستخدم مع النظام للحصول على نتائج نهائية وسيطة مستدامة.

التنقل كتنفيذ لعملية البحث عند الطلب في قاعدة البيانات المختارة - تسلسل مستهدف ومحدد إستراتيجية لاستخدام الأساليب والأدوات والتقنيات الخاصة بـ AIPS محدد للحصول على النتيجة وتقييمها.

أدوات الملاحة تسمح للمستخدم بالتحكم في عملية البحث. يتم توفيرها للمستخدم في النموذجواجهه المستخدم ، والذي يسمح بتنظيم عملية أكثر أو أقل كفاءة للتفاعل مع قاعدة البيانات. في الوقت نفسه ، تتميز "سهولة" الواجهة ليس فقط ببيئة العمل والوضوح ، ولكن أيضًا بالتنوع في اختيار الكائنات التشغيلية.

عملية استرجاع المعلومات هي سلسلة من الخطوات التي تقود النظام إلى نتيجة معينة ، وتسمح بتقييم اكتمالها. نظرًا لأن المستخدم لا يمتلك عادةً معرفة شاملة بمحتوى المعلومات للمصدر الذي يجري فيه بحثًا ، فيمكنه تقييم مدى ملاءمة تعبير الاستعلام ، فضلاً عن اكتمال النتيجة التي تم الحصول عليها ، بناءً على تقديرات خارجية فقط أو على أساس النتائج والتعميمات الوسيطة ومقارنتها ، على سبيل المثال ، بالسابقة.

يمكن تمثيل عملية البحث على أنها المكونات الرئيسية التالية:

    صياغة استعلام بلغة طبيعية ، واختيار محركات البحث والخدمات ، وإضفاء الطابع الرسمي على الاستعلام في ILP المقابل ؛

    إجراء بحث في محرك بحث واحد أو أكثر ؛

    مراجعة النتائج التي تم الحصول عليها (المراجع) ؛

    المعالجة الأولية للنتائج التي تم الحصول عليها: عرض محتوى الروابط ، واستخراج وحفظ البيانات ذات الصلة وذات الصلة ؛

    إذا لزم الأمر ، تعديل الطلب وإجراء بحث (توضيح) متكرر مع معالجة النتائج لاحقًا.

لتقليل حجم المواد المختارة ، تتم تصفية نتائج البحث حسب نوع المصادر (المواقع والبوابات) والموضوعات والأسباب الأخرى.

تقنيات البحث المستخدمة يمكن تقسيم IS إلى 4 فئات:

    كتالوجات مواضيعية

    كتالوجات متخصصة (أدلة على الإنترنت) ؛

    محركات البحث (البحث عن نص كامل) ؛

    أدوات Metasearch.

على الإنترنت ، يتم استضافة IPS على خادم واحد أو أكثر. يقوم نظام المعلومات بجمع وفهرسة وتسجيل المعلومات حول المستندات المتاحة في مجموعة خوادم الويب التي يخدمها النظام. يتم فهرسة جميع الكلمات المهمة في المستندات ، أو الكلمات من العناوين فقط.

كتالوجات مواضيعية تنص على معالجة المستندات وإسنادها إلى فئة من عدة فئات ، قائمة محددة مسبقًا. في الواقع ، هذا هو الفهرسة على أساس التصنيف. يمكن إجراء الفهرسة تلقائيًا أو يدويًا بمساعدة الخبراء الذين يتصفحون مواقع الويب الشهيرة ويجمعون وصفًا موجزًا ​​للمستندات الموجزة (الكلمات الرئيسية ، والملخص ، والملخص).

كتالوجات متخصصة أوالكتب المرجعية تم إنشاؤها بواسطة الصناعات والمواضيع الفردية ، والأخبار ، والمدن ، وعناوين البريد الإلكتروني ، وما إلى ذلك.

محركات البحث (وسيلة البحث الأكثر تقدمًا على الإنترنت) تطبيق تقنية البحث عن النص الكامل. يتم فهرسة النصوص الموجودة على خوادم الاستقصاء. يمكن أن يحتوي الفهرس على معلومات حول عدة ملايين من المستندات. على سبيل المثال ، يحتوي فهرس IPS الشهير "AltaVista" على أكثر من 56 مليون عنوان URL.

عند استخدام الأموالmetasearch يتم تنفيذ الطلب في وقت واحد من قبل العديد من محركات البحث. يتم دمج نتيجة البحث في قائمة مشتركة مرتبة حسب الصلة. يعالج كل نظام جزءًا فقط من عُقد الشبكة ، مما يسمح بتوسيع قاعدة البحث. يتضمن هذا الفصل أيضًا "برامج البحث الشخصية" التي تتيح لك إنشاء أدوات البحث الوصفية الخاصة بك (على سبيل المثال ، الاستعلام تلقائيًا عن المواقع التي تتم زيارتها بشكل متكرر).

يمكن أن تحتوي قواعد بيانات المعلومات على أي نوع من المعلومات تقريبًا ، بما في ذلك أي مجموعة. يتم استرجاع المعلومات من خلال المصطلحات الموجودة في EIR للنص الكامل وعن طريق العناصر الخاصة التي تشكل جزءًا من ILP. لتكوين الاستعلامات ، يتم استخدام لغات استرجاع المعلومات الخاصة.

عادةً ما تحاول IPS ضمن العينة التي تم العثور عليها ترتيب المستندات بترتيب "ملاءمة "، أي القرب من الاستعلام الذي أدخله المستخدم. هناك العديد من المعايير لمثل هذا القرب ، كما أن تحديد المستندات القريبة" من حيث المعنى "من الاستعلام لا يحل مشكلة الحصول على المعلومات في حالة عدم وجود وثيقة ذات صلة. هذا الوضع تافه للغاية ، أيضًا لأن المستخدم غالبًا ما يبحث عن مستند. وتجدر الإشارة إلى أنه نتيجة للبحث ، يمكن للمستخدم الحصول على مصفوفات بيانات فرعية ذات صلة وذات صلة وغير ذات صلة وغير ذات صلة.

IPS هي في الواقعنظم دعم المعلوماتوقواعد البيانات وبنوك البيانات. كماهدفتشمل فردًا أو مؤسسة أو صناعة أو منطقة ، إلخ.موضوع دعم المعلوماتهو عالم كمبيوتر ، أي مستهلك للمعلومات.

منظمة البحث

يُقترح تقسيم إجراء البحث عن المعلومات الضرورية إلى تسع مراحل رئيسية:

    تعريف مجال المعرفة ؛

    اختيار نوع ومصادر البيانات ؛

    جمع المواد اللازمة لملء نموذج المعلومات ؛

    اختيار المعلومات الأكثر فائدة ؛

    اختيار طريقة معالجة المعلومات (التصنيف ، التجميع ، تحليل الانحدار ، إلخ) ؛

    اختيار خوارزمية للبحث عن الأنماط ؛

    البحث عن الأنماط والقواعد الرسمية والعلاقات الهيكلية في المعلومات التي تم جمعها ؛

    التفسير الإبداعي للنتائج التي تم الحصول عليها ؛

    تكامل "المعرفة" المستخرجة.

لإجراء بحث ، يتم تحميل واجهة العمل مع قاعدة البيانات المطابقة مبدئيًا على كمبيوتر المستخدم. يمكن أن تكون قاعدة بيانات محلية أو بعيدة. في البداية ، يجب أن تقرر نوع البحث (بسيط ، متقدم ، إلخ). ثم مع مجموعة من الحقول المعروضة للبحث. قد تقدم IPS واحدًا أو أكثر من حقول الإدخال. في الحالة الأخيرة ، تكون هذه الحقول عادةً: المؤلف ، والعنوان (العنوان) ، والفترة الزمنية ، ونوع المستند ، والكلمات الرئيسية ، والعناوين ، وما إلى ذلك. عند تكوين استعلام ، تسمح جميع الأنظمة تقريبًا باستخدام العناصر المنطقية "و" ، "أو "، "رقم".

تقنيات استرجاع المعلومات

يتم تحديد أدوات وتقنيات البحث المستخدمة لتلبية الاحتياجات من المعلومات حسب نوع وحالة مهمة النشاط الرئيسية التي يقوم المستخدم بحلها: نسبة معرفته وجهله بالكائن قيد الدراسة. بالإضافة إلى ذلك ، يتم تحديد عملية تفاعل المستخدم مع النظام من خلال مستوى معرفة المستخدم بمحتوى المورد (اكتمال التمثيل ، وموثوقية المصدر ، وما إلى ذلك) ووظائف النظام كأداة. بشكل عام ، تنزل هذه العوامل عادة إلى مفهوم "الاحتراف" - معلوماتية (مستخدم مدرب / غير مدرب) وموضوعات (مهنية / غير مهنية) "احترافية ".

عادة ما تكون عملية البحث عن المعلومات ذات طبيعة تجريبية. إنه يمثل سلسلة من الخطوات التي تقود من خلال النظام إلى بعض النتائج ، مما يسمح بتقييم اكتمالها. في الوقت نفسه ، فإن سلوك المستخدم ، كبداية تنظيمية لإدارة عملية البحث ، يكون مدفوعًا ليس فقط بالحاجة إلى المعلومات ، ولكن أيضًا من خلال مجموعة متنوعة من الاستراتيجيات والتقنيات والأدوات التي يوفرها النظام.

عادة ، لا يمتلك المستخدم معرفة شاملة بمحتوى المعلومات للمصدر الذي يجري فيه بحثًا ، لذلك يمكنه تقييم مدى كفاية تعبير الاستعلام ، وكذلك اكتمال النتيجة التي تم الحصول عليها ، من خلال البحث عن معلومات إضافية ، أو عن طريق تنظيم العملية بحيث يمكن استخدام جزء من نتائج البحث لتأكيد أو نفي كفاية الجزء الآخر.

الكائنات التشغيلية التي تشارك بشكل مباشر في تفاعل المستخدمين مع محرك البحث هي صورة البحث الخاصة بالوثيقة (DOI) و DO ، والتي يتم إنشاء المراسلات الخاصة بها بواسطة محرك البحث AIPS على المستوى الرسمي. يتم تحديد مدى ملاءمة الصورة للمحتوى الفعلي للوثيقة من خلال جودة عملية التفاف المعلومات ومستوى المعرفة بموضوع وسائل الانعكاس - المخطط المفاهيمي لمجال الموضوع وقدرات ILP.

وثيقة البحث عن الصورة- وصف الوثيقة ، معبراً عن طريق ILP وتوصيف المحتوى الدلالي الرئيسي أو أي ميزات أخرى لهذه الوثيقة ، ضرورية للبحث عند الطلب.

تقدم معظم PSs للمستخدمين في البداية إما BRs أو روابط لمستندات كاملة أو جزئية ، وأوصافهم ، وغيرها المخزنة في مختلف AIPS. تتيح PS الحديثة إمكانية تحديد مصدر المعلومات الذي يهم المستخدم والإشارة إليه وبأي شكل.

طرق معالجة نتائج البحث

وفقًا لطبيعة التحولات (في سياق الاستخدام الإضافي لنتائج المعالجة) ، يمكن تقسيم طرق معالجة نتائج البحث إلى مجموعتين:

    التحولات الهيكلية

    التحولات البنيوية الدلالية (المعلومات التحليلية ، المنطقية الدلالية).

تنفيذ البحث

شائع البحث على الإنترنت: بيانات شخصية عن الأفراد والمؤسسات ؛ بيانات العنوان المختلفة ؛ مواد محددة (مقالات ، كتب ، صور ، بيانات مرجعية ، برامج ، إلخ) ، بما في ذلك مكان تخزينها ؛ أين وكم تكلفة بعض المواد والخدمات والمنتجات وما إلى ذلك ؛ مواقع وبوابات المعلومات ، إلخ.

من المقبول عمومًا تنظيم البحث حسب الأجزاء الأولية للكلمة (البحث بالاقتطاع الأيمن) ، على سبيل المثال ، بدلاً من كلمة "مكتبة" يمكنك إدخال جزءها "مكتبة *". في هذه الحالة ، سيتم العثور على المستندات التي لا تحتوي فقط على كلمة "مكتبة" ، ولكن أيضًا "مكتبة" ، "أمين مكتبة" ، "أمين مكتبة" ، إلخ. في الخيار المقترح له ، سيتم العثور على عدد أكبر بكثير من المستندات مما كان عليه عند تحديد الكلمة المحددة بالكامل (بدون اقتطاع). في مثل هذه الحالة ، من الممكن إجراء بحث تنقيح في مصفوفة المعلومات المستلمة ، ونتيجة لذلك ، الحصول على بيانات أكثر صلة وذات صلة.

تسجيل النتائج

من وجهة نظر IS ، تكون نتيجة البحث فيه مجموعة (مجموعة فرعية) من المستندات التي تم العثور عليها أو روابط لها. عادة ما يتم تقديمها للمستخدم في شكل قائمة. أي أن أبسط شكل من أشكال الإخراج في هذه الحالة سيكون قائمة من الروابط في شكل BRs كاملة أو جزئية يجدها IR. يمكن طباعة هذه القائمة أو إرسالها على الفور إلى أي عنوان بريد إلكتروني ، إذا تم توفير هذه الفرصة بواسطة IP وكان المستخدم متصلاً بالإنترنت.

يمكن تقديم EIR الرسومي والنص الكامل للمستخدم فقط للعرض ، وللنسخ بتنسيقات ومقاييس مختلفة ، كليًا أو جزئيًا. عادةً ما توجد IRs الرسومية بتنسيقات مقبولة عمومًا مثل: JPG ، و GIFF ، و TIFF ، و BMP ، وما إلى ذلك ، وبالنسبة للمواد النصية ، فإنها تستخدم عادةً تنسيقات نصية TXT ، و DOC ، وما إلى ذلك ، و HTML و PDF - في الواقع ، تنسيق رسومي يتم فيه يمكن حفظها كنص ، وكذلك بيانات رسومية.

يتم حفظ المستندات التي تم الحصول عليها نتيجة البحث.

معايير تقييم البحث

معيار نتيجة البحث هو استلام المستخدم لقائمة من المستندات ، أو وثيقة واحدة أو أجزاء منها ، والتي تلبي احتياجاته التي تمت صياغتها في استعلام البحث على أفضل وجه. في IPS ، من المعتاد تكوين قائمة بالوثائق التي تم الحصول عليها نتيجة البحث وفقًا لأهميتها. هناك معايير للمراسلات الدلالية والرسمية بين وصفة البحث والوثيقة الصادرة.

الكمبيوتر محرك بحث الرسوم المتحركة على الإنترنت

محركات البحث على الإنترنت

تستخدم محركات البحث Google و Yahoo و Yandex و Mail ... للعثور على المورد الضروري على الإنترنت بالكلمات الرئيسية. تمر هذه الأنظمة ، أو ، كما يطلق عليها ، محركات البحث ، عبر الملايين من خوادم WWW يوميًا ، وتقوم بفهرسة الموارد الموجودة وفهرستها. تعد القدرة على البحث عن مورد على الإنترنت أمرًا مريحًا للغاية ، ولكن يجب ألا ننسى أن الويب يعيش حياته الخاصة - تظهر آلاف الصفحات الجديدة كل يوم ، وبعض الصفحات القديمة تختفي ... لذلك ، لا تقدم محركات البحث دائمًا أدق المعلومات.

تُستخدم أدوات البحث والهيكل ، التي يشار إليها أحيانًا باسم محركات البحث ، لمساعدة الأشخاص في العثور على المعلومات التي يحتاجون إليها. تُستخدم أدوات البحث مثل الوكلاء والعناكب والزواحف والروبوتات لجمع المعلومات حول المستندات الموجودة على الإنترنت. هذه برامج خاصة تبحث عن صفحات على الويب ، وتستخرج روابط النص التشعبي على تلك الصفحات ، وتقوم تلقائيًا بفهرسة المعلومات التي يعثرون عليها لبناء قاعدة بيانات. لكل محرك بحث مجموعة القواعد الخاصة به التي تحدد كيفية تجميع المستندات. يتبع البعض كل رابط في كل صفحة يعثرون عليها ، ثم يفحصون بدورهم كل رابط في كل صفحة جديدة ، وهكذا. يتجاهل بعض الأشخاص الروابط التي تؤدي إلى ملفات الرسومات والصوت وملفات الرسوم المتحركة ؛ يتجاهل الآخرون الإشارات إلى الموارد مثل قواعد بيانات WAIS ؛ يُطلب من الآخرين إلقاء نظرة على الصفحات الأكثر شيوعًا أولاً.

جوجل- أكبر شبكة لمحركات البحث مملوكة لشركة Google Inc.

النظام الأول الأكثر شيوعًا ، يعالج 41 مليار 345 مليون طلب شهريًا ، ويفهرس أكثر من 25 مليار صفحة ويب ، ويمكنه العثور على معلومات بـ 195 لغة.

تحتوي واجهة Google على لغة استعلام معقدة إلى حد ما تتيح لك قصر بحثك على مجالات ولغات وأنواع ملفات محددة وما إلى ذلك.

بالنسبة لنتائج البحث ، قدمت Google مسبقًا إمكانية إعادة البحث ، مما يتيح لك البحث بمزيد من التفاصيل. لإجراء بحث أكثر تفصيلاً ، كان على المستخدمين تحديد معلمات إضافية تم من خلالها تحديد النتائج ، مما جعل من الممكن عرض ليس فقط الاستعلام ، ولكن أيضًا السياق حيث يتم تطبيقه على الفور. عملت هذه الميزة على تبسيط إجراءات البحث من خلال التخلص من الحاجة إلى فتح كل نتيجة. في 22 سبتمبر 2010 أطلقت الشركة البحث الصوتي في روسيا. للبحث ، تحتاج إلى الضغط على الزر الموجود بجوار شريط البحث على هاتفك وقول استفسارك ، وسيقوم الهاتف بإرسال صوتك إلى الخادم ، وسيعرض المتصفح سلسلة مع التعرف على استعلامك ونتائج البحث الخاصة به.

نظرًا لشعبية محرك البحث ، ظهرت كلمة جديدة لـ google أو Google باللغة الإنجليزية ، والتي تُستخدم للإشارة إلى البحث عن معلومات على الإنترنت باستخدام Google. من خلال هذا التعريف ، تم إدراج الفعل في أكثر القواميس الموثوقة للغة الإنجليزية - قاموس أوكسفورد الإنجليزي و Merriam-Webster ، على الرغم من أن المصادر الأخرى تقدم أمثلة على استخدامه ليعني البحث عن أي شيء على الإنترنت على الإطلاق.

ياندكسهي شركة تكنولوجيا معلومات روسية تمتلك نظام بحث على الويب وبوابة إنترنت تحمل الاسم نفسه. يعد محرك بحث Yandex هو الرابع بين محركات البحث في العالم من حيث عدد استعلامات البحث التي تمت معالجتها. اعتبارًا من 8 فبراير 2013 ، وفقًا لتصنيف Alexa.com ، احتل موقع yandex.ru المرتبة 20 من حيث الشعبية في العالم والأول في روسيا.

تم الإعلان رسميًا عن محرك البحث Yandex.ru في 23 سبتمبر 1997 ، وتم تطويره في البداية في إطار CompTek International. كشركة منفصلة ، تم تأسيس Yandex في عام 2000. في مايو 2011 ، عقدت Yandex عرضًا عامًا أوليًا ، وحققت أرباحًا منه أكثر من أي شركة إنترنت منذ الاكتتاب العام لشركة Google في عام 2004.

ь إدارة الفهرسة في محرك بحث Yandex

أذونات ومحظورات الفهرسة مأخوذة من ملف robots.txt. يدعم Yandex علامة META robots وعلامة NOINDEX وامتداد robots.txt غير القياسي - توجيه المضيف. يتم أخذ الأذونات والمحظورات الخاصة بالفهرسة بواسطة جميع محركات البحث من ملف robots.txt الموجود في الدليل الجذر للخادم. قد يظهر حظر فهرسة عدد من الصفحات ، على سبيل المثال ، من الرغبة في عدم فهرسة نفس المستندات بترميزات مختلفة. كلما كان الخادم أصغر ، زادت سرعة تجاوز الروبوت له. لذلك ، من المستحسن حظر جميع المستندات الموجودة في ملف robots.txt التي لا معنى لها أن تتم فهرستها.

ь إضافة صفحات في محرك بحث Yandex

تفحص Yandex مئات الآلاف من صفحات الويب كل يوم بحثًا عن التغييرات أو الروابط الجديدة. يمكن لمالكي الموارد إضافة مواقعهم الخاصة عن طريق ملء نموذج AddURL

محرك بحث Yandex عبارة عن نص كامل ، أي أن الكلمات المكتوبة على صفحات المواقع هي فقط التي تدخل في فهرسها (وتصبح متاحة للبحث).

- الفهرسة في محرك بحث Yandex

عندما يكتشف Yandex صفحة جديدة أو معدلة ، يقوم بفهرستها. في هذه العملية ، يتم تقسيم الصفحة إلى عناصر ، يتم إدخال محتواها في الفهرس. عندما يكتشف Yandex صفحة جديدة أو معدلة ، يقوم بفهرستها. في هذه العملية ، يتم تقسيم الصفحة إلى عناصر (نص ، وعناوين ، وتعليقات للصور ، وروابط ، وما إلى ذلك) ، يتم إدخال محتواها في الفهرس. يأخذ هذا في الاعتبار مواقف الكلمات ، أي موقعها في المستند أو عنصره. لا يتم تخزين المستند نفسه في قاعدة البيانات.

ياهو!هي شركة أمريكية تمتلك ثاني أشهر محرك بحث في العالم وتقدم عددًا من الخدمات التي توحدها بوابة الإنترنت Yahoo! الدليل؛ تتضمن البوابة خدمة البريد الإلكتروني الشهيرة Yahoo.

وفقًا لإحصائيات الإنترنت الخاصة بـ Alexa ، في فبراير وأبريل 2012 Yahoo! - رابع أكثر مواقع الويب زيارة على الإنترنت ، وتتكون نسبة 28٪ من الزيارات من مشاهدة صفحة واحدة فقط.

بريد- بوابة اتصالات رئيسية للإنترنت الروسي ، تجاوز جمهورها الشهري ، اعتبارًا من أكتوبر 2012 ، 31.9 مليون شخص.

عدد العاملين 2800 شخص.

المورد ينتمي إلى مجموعة الاستثمار بريد. مجموعة رو.

الخدمة الرئيسية للبوابة هي الخدمة البريدية Pochta @ Mail. تم إنشاء Ru في عام 1998 في شركة البرمجيات الأمريكية DataArt التي أسسها مهاجرون روس. ابتكر المبرمجون من مكتب DataArt في سانت بطرسبرغ برنامجًا جديدًا لخادم بريد الويب ، والذي كان من المفترض بيعه للشركات الغربية في المستقبل. لاختبار الخدمة ، تم إتاحتها بشكل مؤقت للجمهور في نوفمبر 1998 للمستخدمين الروس ، وبدأت الخدمة فجأة تكتسب شعبية بسرعة.

وفقًا لـ VP و CTO لـ Mail. رو فلاديمير جابريليان ، البوابة بها ثمانية مراكز بيانات ، عدد الخوادم 9000 وحدة. في القسم الفني للبريد. توظف رو أكثر من سبعمائة متخصص.

منظمة البحث

يعتبر نموذج البحث شيئًا مفيدًا وشائعًا للغاية ، خاصة عندما يتعلق الأمر بالجدية الكبيرة (من حيث عدد الصفحات والمواد المقدمة) والمواقع التي تمت زيارتها جيدًا. قد يكون العثور على المعلومات الصحيحة في مثل هذا الموقع باستخدام قائمة التنقل والروابط الداخلية فقط مهمة صعبة في بعض الأحيان. من الأسهل بكثير توجيه بضع كلمات ضرورية في الحقل المناسب ، والضغط على الزر "بحث" ، ونتيجة لذلك ، احصل على روابط لصفحات قد تكون المعلومات التي تهم المستخدم فيها.

يمكن عادةً إجراء البحث بطريقتين:

1. البحث الذي يتم تنفيذه بواسطة محرك الموقع (php أو بعض لغات برمجة الويب الأخرى) - ولكن هذا مخصص فقط لمبرمجي الويب الجادين ، ويفضل استخدام الطريقة رقم 2 ؛

2. استمارة بحث عنونة محرك البحث. هذه الطريقة متاحة لكل شخص أتقن أساسيات لغة تأشير النص الفائق ، وهي مناسبة لأي موقع ، حتى أنها تتكون من مجموعة من صفحات html الثابتة. ومع ذلك ، سيتم إجراء مثل هذا البحث فقط على تلك الصفحات الموجودة في قاعدة بيانات محرك البحث. من أجل فهرسة جميع صفحات الموقع بشكل طبيعي ، يجب مراعاة قاعدتين: 1) يجب أن يؤدي الارتباط المباشر دون إعادة التوجيه إلى كل صفحة من صفحات الموقع ؛ 2) يجب ألا يخالف الموقع رخصة البحث الخاصة بمحرك البحث المستخدم.

ملاءمة

الصلة في استرجاع المعلومات هي المراسلات الدلالية لاستعلام البحث وصورة البحث في المستند. بمعنى أعم ، فإن أحد أقرب المفاهيم إلى مفهوم جودة "الملاءمة" هو "الملاءمة" ، أي ليس فقط تقييم درجة الامتثال ، ولكن أيضًا درجة التطبيق العملي للنتيجة ، مثل وكذلك درجة التطبيق الاجتماعي لحل المشكلة.

أنواع الصلة

الامتثال لوثيقة مع طلب معلومات ، يتم تحديده بشكل غير رسمي

2. الصلة الرسمية

يتم تحديد تطابق من خلال مقارنة صورة استعلام البحث مع صورة البحث الخاصة بالمستند وفقًا لخوارزمية معينة.

تنظيم المحاضرات وتكنولوجيا المعلومات البحث على الإنترنت 1. 2. أدوات استرجاع المعلومات تكنولوجيا استرجاع المعلومات

توفر خصائص الإنترنت طريقة أسرع للبحث عن المعلومات مقارنة بالطريقة التقليدية. مع وجود كمية كبيرة من المعلومات ، تكون الشبكة شبه منظمة. في هذا الصدد ، يجري تطوير أدوات استرجاع المعلومات بنشاط لأتمتة عملية استرجاع المعلومات في هذه البيئة. رقم الشريحة 3

أدوات استرجاع المعلومات خدمات البحث على الإنترنت (الأدوات المصممة للبحث عن المعلومات) محركات البحث الفهارس (محركات البحث) (الدلائل) محركات البحث الفوقي (محركات البحث metasearch) الشريحة رقم 5

تصنيف محركات البحث حسب اتساع تغطية مصادر المعلومات.

تصنيف أدوات البحث وفقًا لاتساع تغطية مصادر المعلومات يمكن لأداة بحث محددة أن تتوافق في نفس الوقت مع العديد من الأنواع المدرجة. يحدد نوع أداة البحث اتساع نطاق تغطية موارد معلومات الإنترنت بواسطة هذه الأداة. رقم الشريحة 7

نظام استرجاع المعلومات Slide No. 8 نظام استرجاع المعلومات (IPS) هو نظام يوفر اختيار وفهرسة واسترجاع المعلومات على أساس فهرس الوثائق. تعني معلومات الفهرسة تخصيص كلمات مفتاحية لكل مستند تعكس محتوى المستند وتتحكم في البحث ، مما يؤدي إلى تلك المستندات التي تبدو كلماتها أكثر تشابهًا مع كلمات الطلب الذي قدمه IS ، وحل مشكلات التجميع والتخزين ، معالجة المعلومات وإصدارها ، البحث عن المستندات ، تحليل محتواها ، بناء صور بحث للمستندات (استخراج المعلومات من المستندات التي يستخدمها النظام كمعرفة بالوثيقة) ، تخزين صور البحث ، تحليل طلبات المستخدم ، البحث عن المستندات ذات الصلة ( المطابق) للطلب وإصدار روابط للمستندات للمستخدمين.

مخطط IPS النموذجي الشريحة رقم 9 طلب موارد معلومات العميل مفهرس الروبوت واجهة المستخدم استجابة محرك البحث طلب استجابة فهرس المستند

ميزات IPS Slide رقم 10 لا يقوم كل محرك بحث محدد بتخزين معلومات حول جميع مستندات الإنترنت ، ولكن فقط حول تلك المستندات المعروفة لهذا النظام (بالنسبة للأنظمة المختلفة ، تختلف النسبة المئوية للوثائق المفهرسة ، ولكن كقاعدة عامة لا تتجاوز 70٪). لا تقوم محركات البحث بتخزين المستندات بأنفسها ، ولكن فقط المعلومات المتعلقة بها كافية ليتم العثور عليها من قبل المستخدم ، ونتيجة لذلك ، قد لا يقوم النظام المعني بإرجاع بعض المستندات المقابلة للطلب كنتيجة للبحث. نتيجة البحث (الاستجابة للطلب) يقوم النظام بفرز المستندات حسب درجة الامتثال للطلب المقدم من المستخدم من وجهة نظر خوارزمية محرك البحث ، وليس من وجهة نظرهم. المراسلات الفعلية للطلب.

استخدام IPS Slide رقم 11 تعد محركات البحث المصدر الأكثر ضخامة للمعرفة حول صفحات (مستند) الإنترنت. في معظم الحالات ، من الضروري البحث عن معلومات مختلفة على الإنترنت بمساعدة أنظمة استرجاع المعلومات. من حيث سرعة واكتمال الحصول على المعلومات بناء على طلب المستخدم ، فليس لهما مثيل. تشترك العديد من محركات البحث في محرك بحث ودليل.

أنظمة استرجاع المعلومات أنظمة استرجاع المعلومات العالمية الشائعة على الإنترنت هي: n Google (http: // www. google. com) n Bing (http: // search. msn. com /) n Ask. com (http: // www. ask. com) الروسية IPS تشمل: n Yandex (http: // www. yandex. ru، http: // www. ya. ru) n Rambler (http: // www. rambler. ru) n Webalta (http: //www.aport.ru/) Slide № 12

Catalog Slide No. 20 الكتالوج هو نظام يوفر تصنيف المعلومات. السمة المميزة لها هي وجود تسلسل هرمي (نظام ترتيب) للموارد ، حيث ينتمي كل مورد إلى قسم واحد أو أكثر. تقوم الكتالوجات بتخزين أوصاف (التعليقات التوضيحية) لموارد الإنترنت. تمتلئ بمشرفي المواقع (الأشخاص الذين ينشئون مصادر المعلومات) أو المحررين الخاصين الذين يعرضون موارد المعلومات الخاصة بالشبكة. استجابة لطلب المستخدم ، تبحث الدلائل في هذه الأوصاف. لا تكتشف الكتالوجات التغييرات التي تطرأ على موارد معلومات الشبكة تلقائيًا.

مخطط الكتالوج النموذجي ، الشريحة رقم 21 ، موارد معلومات الاستعلام ، الموظفين الفنيين ، استجابة واجهة المستخدم ، روابط النص التشعبي ، محرك البحث عن العملاء ، استجابة الاستعلام ، التسلسل الهرمي لموارد المعلومات وأوصافها

استخدام شريحة رقم 22 في الكتالوج عند حل مشكلة بحث عندما تحتاج إلى العثور على مجموعة من مصادر المعلومات حول موضوع واسع إلى حد ما ، فإن الكتالوج هو أفضل أداة لإجراء بحث ، على سبيل المثال ، عند البحث عن المواقع التي توفر معلومات الاتصال للمنظمات في موسكو أو مواقع وسائل الإعلام الإلكترونية. يمكن أن تكون نتائج البحث في الدلائل ذات مغزى أكبر ، نظرًا لأن موارد المعلومات الموجودة فيها يتم إعدادها بواسطة الأشخاص.

الكتالوجات Slide No. 23 الكتالوجات الإلكترونية ذات المقياس العالمي على الإنترنت هي: n Yahoo (http: // www. yahoo. com) n Open Directory (http: // www. dmoz. org) n Look. Smart (http: // www. lookmart. com) أهم الكتالوجات الإلكترونية الروسية هي: n كتالوج Yandex (http: // yaca. yandex. ru) n كتالوج البريد. ru (http: // www. list. ru /) كتالوج n ​​Rambler's Top 100 (http: // top 100. rambler. ru)

نظام Metasearch Slide رقم 28 نظام البحث metasearch عبارة عن إضافة لمحركات البحث والكتالوجات الإلكترونية التي لا تحتوي على قاعدة بيانات خاصة بها (فهرس) ، وعند البحث عن وصفة بحث للمستخدم ، يقوم تلقائيًا بإنشاء استعلامات للعديد من أدوات البحث الخارجية ، و ثم يحلل تلقائيًا النتائج المستلمة منها ويعيد قائمة الروابط بالترتيب الذي تحدده نسبة تقييمات الإجابات عبر محركات البحث المتعددة في وقت واحد. غالبًا ما تؤدي الاختلافات في الإستراتيجية واتساع نطاق تغطية موارد المعلومات لمحركات البحث المختلفة إلى حقيقة أن محركات البحث المختلفة تعطي إجابات مختلفة عن نفس الاستعلام. تستخدم أنظمة Metasearch في عملها إمكانات الوسائل الأخرى لاسترجاع المعلومات.

مخطط نموذجي لنظام البحث الوصفي الشريحة رقم 29 طلب واجهة مستخدم عميل استجابة محرك البحث طلبات موارد المعلومات إجابات IPS 1 كتالوج 1 كتالوج IPS N N

استخدام محرك البحث Metasearch Slide # 30 تعد محركات البحث Metasearch أكثر فاعلية في المراحل الأولية لاسترجاع المعلومات. إنها تسمح لك بالتحقق بسرعة مما إذا كانت المعلومات الضرورية موجودة على الإنترنت وتعريب أدوات البحث التي توجد بها. تتيح لك محركات البحث Metasearch تقليل الوقت الذي تقضيه في البحث عن المعلومات ، لأنه عند معالجة طلب المستخدم ، تصل هذه الأنظمة في وقت واحد إلى العديد من محركات البحث المختلفة.

أنواع محركات البحث الفوقية Slide No. 31 Network - المتاحة من خلال الشبكة للبحث عن المعلومات محركات البحث الوصفية العالمية المتاحة عبر الإنترنت تشمل: n Meta. الزاحف (http://www.metacrawler.com) n الويب. الزاحف (http://www.webcrawler.com) n البحث. com (http: //www.search.com) أشهر محركات البحث الروسية: n Meta. بوت. ru (http: // metabot. ru) n Nigma (http: // nigma. ru) ميزة أدوات البحث الروسية هي المعالجة الصحيحة للطلب باللغة الوطنية.

أدوات البحث المتخصصة Slide # 33 الأنظمة التي تبحث عن الملفات ، مثل ملف. بحث. ru (http: // www. filesearch. ru) الأنظمة التي توفر البحث في أخبار الوسائط الإلكترونية ، على سبيل المثال Yandex News (http: // news. yandex. ru) ، أخبار Google (http: // news. google. ru ) ابحث عن سلع ، على سبيل المثال Yandex Market (http: // market. yandex. ru)، Torg. ru (http: // www. torg. ru) يبحث الناس ، على سبيل المثال ، POISKI. ru (http: // poiski. ru)، Poisk 24 (http: // www. poisk 24. de)، Yahoo! البحث عن أشخاص (http://people.yahoo.com)

أدوات البحث المتخصصة البحث عن الصور ، على سبيل المثال ، Yandex Pictures (http: //images.yandex.ru) ، صور Google (http: //images.google.ru) البحث عن الفيديو ، على سبيل المثال ، Yandex Video (http: // video .yandex .ru) ، فيديو Google (http: //video.google.ru) Slide № 34

أدوات وطرق البحث الإضافية Slide No. 36 على الإنترنت ، يمكنك البحث عن المعلومات ليس فقط باستخدام محركات البحث ، ولكن أيضًا بطرق أخرى. هناك العديد من المواقع والخدمات والمستخدمين المختلفين على الويب الذين يمكنهم مساعدتك في البحث. تشمل هذه الخدمات أنظمة الأسئلة والأجوبة والمنتديات ومجتمعات الإنترنت المختلفة (الشبكات الاجتماعية) والبريد الإلكتروني والمحادثات. تشترك كل طرق الحصول على المعلومات هذه في أن الأشخاص الآخرين (وليس البرامج) يجيبون على أسئلتك. أنظمة الأسئلة والأجوبة: بريد الإجابات. ru (http: // answer. mail. ru)، أسئلة وأجوبة Google (http: // answer. google. ru)، Znatok. ru (http: //znatok.ru)

أدوات وطرق البحث الإضافية. Slide No. 37 هذه الطرق إضافية لأنها: n ليست عامة (فهي تجمع العناوين بكميات غير كافية أو في اتجاهات ضيقة)؛ لا يوجد ضمان دقيق للحصول على إجابة لسؤال ما (يمكن ببساطة تجاهل السؤال) ، فقد يستغرق الأمر أحيانًا وقتًا طويلاً للحصول على إجابة في مثل هذه الأنظمة. الميزة الرئيسية لاستخدام طرق بحث إضافية هي الدقة العالية للمعلومات التي تم الحصول عليها.

توصيات للبحث عن المعلومات (Slide No. 40) تأكد من أن كلمة (عبارة) الاستعلام مكتوبة بشكل صحيح. يمكن تصحيح طلبك إذا كانت الكلمة التي أخطأت فيها شائعة الاستخدام. قد لا يتم العثور على الكلمات أو العبارات النادرة. عند البحث عن معلومات باستخدام محركات البحث ، يجب أن تدرك أن الأنظمة عادة ما تستجيب لأي طلب مستخدم (بسبب الحجم الكبير للإنترنت) (على سبيل المثال ، الطلب asgr vkt 5 ، للوهلة الأولى ، مجموعة لا معنى لها من الأحرف ، وجد محرك بحث Yandex 12 صفحة ويب تظهر فيها هذه العبارة). كن حذرا.

توصيات للبحث عن المعلومات. Slide № 41 حدد الطلب. كلما زادت دقة عبارة الاستعلام ، زادت احتمالية العثور بسرعة على المعلومات التي تحتاجها ، على سبيل المثال ، ستكون نتائج البحث عن قصيدة Yesenin وقصيدة Yesenin في السنوات الأولى مختلفة. استخدم المرادفات. إذا لم يعثر استفسارك على المعلومات التي تحتاجها ، فحاول تحسين الاستعلام عن طريق استبدال الكلمة بمرادفها ، مثل ذاكرة الوصول العشوائي أو ذاكرة الوصول العشوائي أو ذاكرة الوصول العشوائي. تؤدي الكلمات والعبارات المختلفة إلى نتائج مختلفة. استخدم الكلمات التي يمكن استخدامها في المواقع التي تبحث عنها.

توصيات للبحث عن المعلومات (Slide No. 42) عند صياغة طلب ، من الضروري دائمًا تخيل ما يمكن أن يكون المحتوى المقصود من المستند. على سبيل المثال ، إذا كنت بحاجة إلى العثور على معلومات حول A. S. سيكون للبحث تأثير أكبر إذا تمت إضافة أسماء أعمال الشاعر إلى اللقب. للبحث عن نصوص الأعمال ، يجدر إدخال سطور منفصلة عنها (يفضل نادرًا ما تستخدم في الاستشهادات).

توصيات للبحث عن المعلومات. Slide number 43. لا تدخل استعلامًا إلى محرك البحث بالصيغة العامية المعتادة. لذا ، عند الطلب ما هو الطقس الآن في نيجني نوفغورود؟ سيتم العثور على وثائق تتضمن جميع كلمات الاستعلام ، أي النصوص التي تحتوي على هذا السؤال (على سبيل المثال ، نصوص الأعمال الأدبية). في هذه الحالة ، سيكون من الأكثر فاعلية إدخال طلب للطقس في نيجني نوفغورود ، في الروابط العشرة الأولى للإجابة التي ستكون المعلومات المطلوبة لها. حاول كتابة كلمات الاستعلام بأحرف صغيرة فقط - يمكن العثور على مستندات إضافية لمثل هذا الاستعلام.

تلميحات حول العثور على معلومات Slide # 44 ابحث عن مستندات مشابهة. إذا كانت إحدى المستندات التي تم العثور عليها أقرب إلى الموضوع الذي تبحث عنه أكثر من البقية ، فانقر على الرابط "العثور على مستندات مماثلة". سيقوم محرك البحث بتحليل الصفحة والعثور على مستندات مشابهة لتلك التي حددتها. ولكن إذا تم حذف هذه الصفحة من الخادم ، ولم يكن لدى محرك البحث وقت لإزالتها من الفهرس ، فستتلقى رسالة مفادها "لم يتم العثور على المستند المطلوب".

توصيات للعثور على المعلومات. الشريحة رقم 45 استخدم علامتي "+" و "-". لاستبعاد المستندات التي تظهر فيها كلمة معينة ، اسبقها بعلامة الطرح. على العكس من ذلك ، للتأكد من وجود كلمة معينة في المستند ، ضع علامة الجمع أمامها. لاحظ أنه يجب ألا تكون هناك مسافة بين الكلمة وعلامة زائد / ناقص. يمكنك أيضًا استخدام أوامر خاصة أخرى لتحسين الاستعلام. يمكن العثور على قائمة بها في تعليمات النظام ، عادةً في صفحة "لغة الاستعلام".

تلميحات حول العثور على المعلومات (Slide # 46) ابحث عن عبارات محددة. إذا كنت تعرف العبارة الدقيقة التي يجب أن تظهر في صفحة النتائج ، فحددها في الطلب ، وضعها بين علامتي اقتباس. على سبيل المثال ، "مجال واسع للأحلام والحياة تفتح لنا السنوات القادمة" استخدم محركات البحث الإقليمية. لمزيد من المعلومات الكاملة بلغة أخرى غير الإنجليزية ، يمكنك استخدام الأنظمة الإقليمية التي تعمل بهذه اللغة. في العديد من البلدان ، تمتلك الأنظمة الإقليمية مجموعة واسعة من الموارد. أكبر محرك بحث في روسيا هو Yandex (http: //www.yandex.ru).

توصيات للبحث عن المعلومات. شريحة رقم 47 استخدم محركات بحث متخصصة. إذا كنت تبحث عن صور ومقاطع فيديو ومنتجات وخرائط وبعض المعلومات الأخرى ، فيمكنك العثور على كل هذه المعلومات بشكل أسرع باستخدام محركات البحث المتخصصة المصممة لهذه الأغراض. العديد من محركات البحث ذات الأغراض العامة لها واجهات خاصة للبحث في هذه الأنواع من المعلومات (انظر أوصاف أنظمة معينة). يمكن أن يكون طلب البحث في هذه الحالة كما يلي: البحث عن الصور.

توصيات للبحث عن المعلومات. (Slide No. 48) إذا كان مصدر المعلومات منظمة ، فحاول البحث عن معلومات على الموقع الإلكتروني لهذه المنظمة. قد لا تكون محركات البحث على علم بجميع المعلومات المخزنة على مواقع الإنترنت. اذهب إلى موقع المنظمة التي جاءت منها هذه المعلومات ، ربما ستكون هناك معلومات مفصلة عنها. تحتوي المواقع على محركات بحث محلية (تبحث تحديدًا عن هذا الموقع) أو يمكنك محاولة العثور على المعلومات التي تحتاجها من خلال التنقل عبر أقسام الموقع. إذا سمعت ، على سبيل المثال ، بثًا في الراديو وتعرفت على اسم محطة الراديو هذه. ابحث عن معلومات حول هذا البرنامج على الموقع الرسمي لمحطة الراديو هذه.

تلميحات حول العثور على المعلومات Slide # 49 اطلب المساعدة من أشخاص آخرين في العثور على المعلومات. توجد أنظمة خاصة على الإنترنت (على سبيل المثال ، أنظمة الأسئلة والأجوبة) حيث يمكن لبعض المستخدمين مساعدة الآخرين في العثور على المعلومات. ربما كان الناس مهتمين بالفعل بنفس السؤال الذي تبحث عنه ويعرفون الإجابة الصحيحة.

طرق البحث على الإنترنت

ثلاث طرق للبحث في الإنترنت

يوفر الإنترنت بشكل عام ، وشبكة الويب العالمية على وجه الخصوص ، للمشترك إمكانية الوصول إلى آلاف الخوادم وملايين صفحات الويب التي تخزن قدرًا لا يمكن تصوره من المعلومات. كيف لا تضيع في "محيط المعلومات" هذا؟ للقيام بذلك ، تحتاج إلى معرفة كيفية البحث والعثور على المعلومات الضرورية على الشبكة.

كما ذكرنا سابقًا ، هناك ثلاث طرق رئيسية للعثور على المعلومات على الإنترنت.

1. تحديد عنوان الصفحة.هذه هي أسرع طريقة بحث ، ولكن لا يمكن استخدامها إلا إذا كان عنوان المستند معروفًا تمامًا.

2. التنقل عبر الارتباطات التشعبية.هذه هي الطريقة الأقل ملاءمة ، حيث يمكن استخدامها للبحث عن المستندات القريبة فقط من حيث المعنى للمستند الحالي. إذا كان المستند الحالي مخصصًا ، على سبيل المثال ، للموسيقى ، فعندئذٍ باستخدام الارتباطات التشعبية لهذا المستند ، سيكون من الصعب الوصول إلى موقع مخصص للرياضة.

3. الاتصال بخادم البحث (محرك البحث). يعد استخدام محركات البحث الطريقة الأكثر ملاءمة للعثور على المعلومات. حاليًا ، تحظى خوادم البحث التالية بشعبية في الجزء الناطق بالروسية من الإنترنت:

ياندكس.
متسكع؛
ميناء.

هناك محركات بحث أخرى كذلك. على سبيل المثال ، يتم تنفيذ نظام بحث فعال على خادم خدمة بريد mail.ru.

خوادم البحث

الطريقة الأكثر سهولة للوصول إليها للعثور على معلومات على شبكة الويب العالمية هي استخدام محركات البحث. في الوقت نفسه ، يمكن البحث عن المعلومات عن طريق الكتالوجات ، وكذلك من خلال مجموعة من الكلمات الأساسية التي تميز المستند النصي الذي تم البحث عنه.

ضع في اعتبارك استخدام خوادم البحث بمزيد من التفصيل. خادم البحثيحتوي على عدد كبير من الارتباطات لمجموعة متنوعة من المستندات ، وجميع هذه الروابط منظمة في أدلة موضوعية. على سبيل المثال: الرياضة ، والأفلام ، والسيارات ، والألعاب ، والعلوم ، إلخ. علاوة على ذلك ، يتم تعيين هذه الروابط بواسطة الخادم بشكل مستقل ، تلقائيًا عن طريق عرض جميع صفحات الويب التي تظهر على شبكة الويب العالمية بانتظام. بالإضافة إلى ذلك ، توفر محركات البحث للمستخدم القدرة على البحث عن المعلومات بالكلمات الرئيسية. بعد إدخال الكلمات الأساسية ، يبدأ خادم البحث في تصفح المستندات على خوادم الويب الأخرى ويعرض روابط لتلك المستندات التي توجد بها الكلمات المحددة. عادةً ما يتم فرز نتائج البحث بترتيب تنازلي حسب تصنيف مستند خاص يشير إلى مدى تطابق مستند معين مع معايير البحث أو عدد مرات طلبه على الويب.



لغة استعلام محرك البحث

تسمى مجموعة الكلمات الأساسية ، التي تم تشكيلها وفقًا لقواعد معينة - باستخدام لغة الاستعلام ، طلبًا إلى خادم البحث. لغات الاستعلام لمحركات البحث المختلفة متشابهة جدًا. يمكنك معرفة المزيد عن هذا من خلال زيارة قسم "المساعدة" في خادم البحث المطلوب. ضع في اعتبارك قواعد إنشاء الاستعلامات باستخدام محرك بحث Yandex كمثال.

صيغة المشغل ماذا يعني المشغل طلب مثال
مسافة أو & المنطقية AND (ضمن الجملة) العلاج الطبيعي
&& المنطقية AND (داخل المستند) وصفات && (الجبن المطبوخ)
| منطقي أو الصورة | التصوير | لقطة | صورة فوتوغرافية
+ التواجد الإلزامي للكلمة في المستند الموجود + أكون أو + لا أكون
() تجميع الكلمات (تكنولوجيا | إنتاج) (جبن | جبن قريش)
~ عامل التشغيل الثنائي AND NOT (في جملة) البنوك ~ القانون
~~ أو _ عامل التشغيل الثنائي AND NOT (داخل المستند) دليل السفر إلى باريس ~~ (وكالة | جولة)
/ (نانومتر) المسافة بالكلمات (ناقص (-) - للخلف ، زائد (+) - للأمام) الموردون / 2 موسيقى قهوة / (- 2 4) وظائف تعليمية ~ / + 1 طالب
" " البحث بالعبارة يعادل "قلنسوة ركوب حمراء صغيرة": أحمر / +1 غطاء محرك السيارة
&& / (نانومتر) المسافة بالجمل (ناقص (-) - رجوع ، زائد (+) - للأمام) ضرائب بنكية && / 1

للحصول على أفضل نتائج البحث ، عليك أن تتذكر بعض القواعد البسيطة:

1. لا تبحث عن معلومات عن كلمة رئيسية واحدة فقط.

2. من الأفضل عدم إدخال الكلمات الرئيسية بأحرف كبيرة ، فقد يؤدي ذلك إلى عدم العثور على نفس الكلمات المكتوبة بأحرف صغيرة.

3. إذا لم يُرجع بحثك أي نتائج ، فتحقق من الأخطاء الإملائية في كلماتك الرئيسية.

توفر محركات البحث الحديثة القدرة على الاتصال بالاستعلام الذي تم إنشاؤه لمحلل دلالي. بمساعدتها ، يمكنك ، عن طريق إدخال كلمة ، تحديد المستندات التي توجد فيها مشتقات لهذه الكلمة في حالات مختلفة ، والأزمنة ، وما إلى ذلك.

تقنيات المعلومات لاسترجاع المعلومات

البحث عن المعلومات: المفاهيم الأساسية وأنواع وأشكال التنظيم

يعد البحث عن المعلومات أو استرجاعها إحدى عمليات المعلومات الرئيسية. كانت البشرية تفعل ذلك منذ العصور القديمة. لطالما اعتمدت أهداف البحث وإمكانياته وطبيعته على توافر المعلومات وأهميتها وإمكانية الوصول إليها ، فضلاً عن وسائل تنظيم البحث.

تتميز نهاية القرن العشرين - بداية القرن الحادي والعشرين بمصفوفات ضخمة من المعلومات المتنوعة المتزايدة باستمرار والتي يمكن الوصول إليها والتي تهم أوسع شرائح المجتمع. علاوة على ذلك ، فإن تقنيات الإنترنت والبرامج وأدوات الأجهزة ، المتاحة أيضًا لمعظم الناس ، تسمح بتنفيذ هذه العملية في أي وقت ، وفي أي مكان تقريبًا ، لأي طلب.

يبحث- عملية يتم خلالها ، في تسلسل أو آخر ، ربط البحث بكل عنصر مخزّن في المصفوفة. الغرض من أي بحث هو الحاجة أو الحاجة أو الرغبة في العثور على أنواع مختلفة من المعلومات التي تساعد الباحث في الحصول على المعلومات والمعرفة وما إلى ذلك الذي يحتاجه. لتحسين حياتهم المهنية والثقافية وأي مستوى آخر ؛ خلق معلومات جديدة وتكوين معرفة جديدة ؛ اتخاذ القرارات الإدارية ، إلخ.

وفقًا للخبراء ، هناك 30 مليون مستخدم أو أكثر على الإنترنت. ومن بين هؤلاء ، هناك عشرات الآلاف على الإنترنت (الإنجليزية "على الإنترنت" - الوصول التفاعلي في أي وقت) وعدد هؤلاء المستخدمين في تزايد مستمر. هذا يجعل من الصعب تنظيم بحث تشغيلي والعثور على المعلومات اللازمة لمثل هذا العدد الكبير من المستخدمين. تنشأ المشاكل بسبب الاحتمالات (أنواع) المختلفة لاسترجاع المعلومات ، والطرق المختلفة لتنفيذها في أنظمة استرجاع المعلومات (IPS) ، ومستويات مختلفة من معرفة المستخدم حول قدرات هذه الأنظمة ، لا سيما في مجال توليد الاستفسارات ومعالجة البيانات التي تم الحصول عليها مثل نتيجة لتنفيذ هذه الاستفسارات وما إلى ذلك.

من المفترض أنه سيتم إنشاء أنظمة معلومات في المستقبل يمكنها التكيف تلقائيًا مع مستوى المعرفة وطلبات مستخدمين محددين ، وإدراك الطلبات بلغة طبيعية ، واستخدام الذكاء الاصطناعي ، ومنحهم المعلومات ذات الصلة وذات الصلة. سيتطلب إنشاء مثل هذه IPS ذكاء ومعرفة مستخدمي IPS محددين أو وسطاء. في غضون ذلك ، هناك حاجة إلى مجموعة واسعة من مستخدمي محركات البحث للحصول على أمر جيد إلى حد ما في هذا المجال.

هناك تفسيرات مختلفة لمصطلح "البحث عن المعلومات" أو "البحث عن المعلومات".

المصطلح " استرجاع المعلوماتقدم "(استرجاع المعلومات باللغة الإنجليزية) عالم الرياضيات الأمريكي ك. مويرز. ولاحظ أن الدافع وراء مثل هذا البحث هو تحتاج المعلومات، معبرا عنها في شكل طلب معلومات. تصنف K. Muers الوثائق والمعلومات المتعلقة بوجودها و (أو) موقعها والمعلومات الواقعية كأدوات لاسترجاع المعلومات.

كان ممثلو المكتبات هم أول من حل مشاكل البحث الواقعي. لقد طوروا أدوات لاسترجاع المعلومات تسمى " جهاز المرجع والبحث"(الكتالوجات ، الفهارس الببليوغرافية ، إلخ). في الصحافة المحلية المهنية ، يُستخدم هذا المصطلح منذ السبعينيات. يعرف المكتبيون" استرجاع المعلومات "كما في المعلومات مجموعة من الوثائقالمقابلة طلب معلومات من المستخدمين.

من وجهة نظر استخدام تكنولوجيا الحاسوب " استرجاع المعلومات "- مجموعة من العمليات المنطقية والفنية بهدف نهائي هو العثور على المستندات والمعلومات المتعلقة بها والحقائق والبيانات ذات الصلة بطلب المستهلك.

"ملاءمة"- مثبت في استرجاع المعلوماتالامتثال لمحتوى الوثيقة طلب معلوماتأو البحث عن صورة الوثيقة لوصفة البحث.

هناك تعريفات أخرى كذلك. على أي حال ، فإن استرجاع المعلومات ناتج عن الحاجة إلى تلبية احتياجات المعلومات للمستخدمين الذين يتوقعون الحصول بسرعة على البيانات أو المعلومات التي يحتاجون إليها بمساعدة محركات البحث. إنها طريقة للبحث واسترجاع الوثائق و / أو الحقائق ذات الصلة من مصادر مختلفة للمعلومات ، مثل بنوك البيانات أو أجهزة التخزين. هذه كائنات حية وغير حية تمثل مصادر مختلفة وناقلات للمعلومات.

تسمى الأنظمة التي توفر تنفيذ استرجاع المعلومات محركات البحث(ملاحظة). في التقنيات التقليدية ، تمثل PS خزائن الملفات والكتالوجات والعناوين والأدلة الأخرى والفهارس والموسوعات والأجهزة المرجعية للمنشورات والمواد الأخرى.

في عام 1945 ، أثار العالم والمهندس الأمريكي دبليو بوش ، في مقالته بعنوان "آلية ممكنة لتفكيرنا" ، للمرة الأولى على نطاق واسع ، مسألة الحاجة إلى ميكنة استرجاع المعلومات. منذ الستينيات ، ظهرت محركات البحث الآلي التي تعمل بالمعلومات. منذ هذه الفترة ، تم القيام بعمل مكثف في مجال تشكيل وتنفيذ مبادئ وطرق استرجاع المعلومات.

"محركات البحث"إجراء بحث بين مستندات قاعدة البيانات أو المصفوفات الأخرى للبيانات المقروءة آليًا والتي تحتوي على الكلمات المحددة.

تُمكِّن PS الإلكترونية التي تستخدم محطات تقليدية أو ذكية (PC) المستخدمين من إجراء استعلامات بحث باستخدام العناصر الرسمية وعناصر وصفية المحتوى وباستخدام عوامل منطقية خاصة ؛ إجراء بحث بين مستندات قاعدة البيانات أو المصفوفات الأخرى للبيانات المقروءة آليًا والتي تحتوي على الكلمات المحددة. محركات البحث تسمح فقط بإجراءات البحث والعمليات ذات الصلة.

جار التحميل...
قمة