Công nghệ thông tin tìm kiếm thông tin. Các giai đoạn tìm kiếm thông tin

Công nghệ thông tin truy xuất thông tin

Tìm kiếm thông tin: các khái niệm cơ bản, các loại và hình thức tổ chức

Tìm kiếm thông tin hoặc truy xuất thông tin là một trong những quá trình thông tin chính. Nhân loại đã làm điều đó từ thời cổ đại. Mục tiêu, khả năng và bản chất của tìm kiếm luôn phụ thuộc vào tính sẵn có, thông tin, tầm quan trọng và khả năng tiếp cận của nó, cũng như các phương tiện tổ chức tìm kiếm.

Cuối thế kỷ 20 - đầu thế kỷ 21 được đặc trưng bởi một mảng khổng lồ thông tin đa dạng không ngừng phát triển, có thể tiếp cận và quan tâm đến các tầng lớp rộng lớn nhất trong xã hội. Hơn nữa, công nghệ Internet và các công cụ phần mềm và phần cứng, cũng có sẵn cho hầu hết mọi người, cho phép quá trình này được thực hiện bất kỳ lúc nào, hầu như ở bất kỳ đâu, cho bất kỳ yêu cầu nào.

Tìm kiếm- một quá trình trong đó, theo trình tự này hay trình tự khác, giá trị được tìm kiếm có tương quan với từng đối tượng được lưu trữ trong mảng. Mục đích của bất kỳ hoạt động tìm kiếm nào là nhu cầu, sự cần thiết hoặc mong muốn tìm kiếm các loại thông tin khác nhau giúp người tìm kiếm có được thông tin, kiến ​​thức, v.v. mà anh ta cần. để nâng cao trình độ chuyên môn, văn hóa và bất kỳ trình độ nào khác của họ; tạo ra thông tin mới và hình thành kiến ​​thức mới; đưa ra các quyết định của người quản lý, v.v.

Theo các chuyên gia, có hàng tỷ người dùng trên Internet. Trong số này, hàng trăm triệu người đang trực tuyến (tiếng Anh là "on-line" - truy cập tương tác bất cứ lúc nào) và số lượng người dùng như vậy không ngừng tăng lên. Điều này gây khó khăn cho việc tổ chức tìm kiếm hoạt động và tìm kiếm thông tin cần thiết cho một số lượng lớn người dùng như vậy. Các vấn đề nảy sinh do các khả năng (loại) truy xuất thông tin khác nhau, các cách triển khai khác nhau của chúng trong hệ thống truy xuất thông tin (IPS), mức độ hiểu biết khác nhau của người dùng về khả năng của các hệ thống đó, đặc biệt là trong lĩnh vực tạo truy vấn và xử lý dữ liệu thu được như kết quả của việc thực hiện các truy vấn này và v.v.

Giả định rằng trong tương lai IS sẽ được tạo ra có thể tự động thích ứng với mức độ hiểu biết và yêu cầu của những người dùng cụ thể, nhận thức các yêu cầu bằng ngôn ngữ tự nhiên và sử dụng trí thông minh nhân tạo để cung cấp cho họ thông tin phù hợp và cần thiết. Việc tạo ra IPS như vậy sẽ đòi hỏi trí tuệ và kiến ​​thức của những người sử dụng IPS cụ thể hoặc những người trung gian của họ. Trong khi đó, nhiều người sử dụng các công cụ tìm kiếm được yêu cầu phải có trình độ khá tốt về lĩnh vực chủ đề này.

Có nhiều cách hiểu khác nhau về thuật ngữ "tìm kiếm thông tin" hoặc "tìm kiếm thông tin".

Thuật ngữ "truy xuất thông tin"(Tiếng Anh là" truy xuất thông tin ") được giới thiệu bởi nhà toán học người Mỹ K. Muers. Ông nhận thấy rằng động cơ của một cuộc tìm kiếm như vậy là nhu cầu thông tin , được thể hiện dưới dạng một yêu cầu thông tin. K. Muers đã phân loại các tài liệu, thông tin về sự hiện diện và (hoặc) vị trí của chúng, và thông tin thực tế làm đối tượng truy xuất thông tin.

Đại diện của các thư viện là những người đầu tiên giải quyết các vấn đề của việc tìm kiếm nhân vật học. Họ đã phát triển các công cụ truy xuất thông tin được gọi là " bộ máy tham khảo và tìm kiếm "(danh mục, chỉ mục thư mục, v.v.). Trong báo chí chuyên nghiệp trong nước, thuật ngữ này đã được sử dụng từ những năm 1970. Các thủ thư xác định" truy xuất thông tin "như trong thông tinmảng tài liệu tương ứngyêu cầu thông tin của người dùng .

Theo quan điểm của việc sử dụng công nghệ máy tính "truy xuất thông tin "- một tập hợp các thao tác logic và kỹ thuật với mục tiêu cuối cùng là tìm kiếm các tài liệu, thông tin về chúng, sự kiện, dữ liệu có liên quan đến yêu cầu của người tiêu dùng.

" Sự liên quan"- được cài đặt khitruy xuất thông tin tuân thủ nội dung của tài liệuyêu cầu thông tin hoặc hình ảnh tìm kiếm của tài liệu vào toa tìm kiếm.

Cũng có những định nghĩa khác. Trong mọi trường hợp, việc truy xuất thông tin là do nhu cầu thỏa mãn nhu cầu thông tin của người dùng mong muốn nhanh chóng có được dữ liệu hoặc thông tin họ cần với sự trợ giúp của các công cụ tìm kiếm. Đây là một phương pháp tìm kiếm có mục tiêu và truy xuất các tài liệu và / hoặc dữ kiện có liên quan từ nhiều nguồn thông tin khác nhau, chẳng hạn như cơ sở dữ liệu hoặc thiết bị lưu trữ. Đây là những vật thể sống và không sống đại diện cho nhiều nguồn và vật mang thông tin khác nhau.

Các hệ thống cung cấp việc thực hiện truy xuất thông tin như vậy được gọi làcông cụ tìm kiếm(Tái bút). Trong các công nghệ truyền thống, PS đại diện cho các tủ tài liệu và danh mục, địa chỉ và các thư mục khác, chỉ mục, bách khoa toàn thư, bộ máy tham chiếu cho các ấn phẩm và các tài liệu khác.

Vào năm 1945, nhà khoa học và kỹ sư người Mỹ W. Bush, trong bài báo "Cơ chế khả thi của tư duy chúng ta", lần đầu tiên đưa ra một cách rộng rãi câu hỏi về sự cần thiết phải cơ giới hóa việc truy xuất thông tin.

Từ những năm 1960, các công cụ tìm kiếm tự động đã xuất hiện làm việc với thông tin. Kể từ thời kỳ này, công việc chuyên sâu đã được thực hiện trong lĩnh vực hình thành và thực hiện các nguyên tắc và phương pháp truy xuất thông tin.

" Công cụ tìm kiếm"thực hiện tìm kiếm giữa các tài liệu của cơ sở dữ liệu hoặc các mảng khác của dữ liệu mà máy có thể đọc được có chứa các từ đã cho.

PS điện tử sử dụng thiết bị đầu cuối thông thường hoặc thông minh (PC) cho phép người dùng thực hiện các truy vấn tìm kiếm bằng cách sử dụng các yếu tố chính thức và mô tả nội dung và sử dụng các toán tử logic đặc biệt; thực hiện tìm kiếm giữa các tài liệu của cơ sở dữ liệu hoặc các mảng dữ liệu mà máy có thể đọc được chứa các từ được chỉ định. Công cụ tìm kiếm chỉ cho phép các thủ tục tìm kiếm và các quy trình liên quan.

Hệ thống truy xuất thông tin

PS với một tập hợp lớn các chức năng và khả năng thường là một phần của DBMS và được gọi là hệ thống truy xuất thông tin. Chúng cũng được tạo ra và sử dụng để tìm kiếm dữ liệu họ cần một cách hiệu quả, kể cả trên Internet.

Về mặt kinh điển "hệ thống truy xuất thông tin"(Tiếng Anh là" hệ thống truy xuất thông tin ", IRS) - đại diện cho một hệ thống được thiết kế để tìm kiếm và lưu trữ thông tin; một gói phần mềm thực hiện các quy trình tạo, cập nhật, lưu trữ và tìm kiếm trong cơ sở dữ liệu thông tin và ngân hàng dữ liệu.

Hệ thống truy xuất thông tin được hiểu là một hệ thống cung cấp việc tìm kiếm và lựa chọn dữ liệu cần thiết dựa trên ngôn ngữ truy xuất thông tin và các quy tắc tìm kiếm tương ứng, và cơ sở dữ liệu- như một tập hợp các phương tiện và phương pháp để mô tả, lưu trữ và thao tác dữ liệu tạo điều kiện thuận lợi cho việc thu thập, tích lũy và xử lý các mảng thông tin lớn. Việc tổ chức các cơ sở dữ liệu khác nhau khác nhau về kiểu đối tượng dữ liệu và mối quan hệ giữa chúng.

Hoạt động của IPS hiện đại dựa trên hai giả định:

    các tài liệu theo yêu cầu của người dùng được thống nhất bởi sự hiện diện của một số tính năng hoặc sự kết hợp của các tính năng;

    người dùng có thể chỉ định thuộc tính này.

Cả hai giả định này đều không được đáp ứng trong thực tế, và chúng ta chỉ có thể nói về xác suất của chúng. Do đó, quá trình truy xuất thông tin thường là một chuỗi các bước dẫn thông qua hệ thống đến một số kết quả, và cho phép đánh giá tính đầy đủ của nó. Đồng thời, hành vi của người dùng, với tư cách là người bắt đầu tổ chức quản lý quá trình tìm kiếm, được thúc đẩy không chỉ bởi nhu cầu thông tin, mà còn bởi sự đa dạng của các chiến lược, công nghệ và công cụ được cung cấp bởi hệ thống.

Người dùng thường không có kiến ​​thức toàn diện về nội dung của tài nguyên đang được tìm kiếm. Anh ta có thể đánh giá tính đầy đủ của biểu thức truy vấn, cũng như tính đầy đủ của kết quả thu được, bằng cách tìm thêm thông tin hoặc bằng cách tổ chức quá trình theo cách mà một phần của kết quả tìm kiếm có thể được sử dụng để xác nhận hoặc phủ nhận tính đầy đủ của phần khác. Đồng thời, người dùng chuyên nghiệp được đặc trưng bởi tính ổn định của hồ sơ chuyên đề. Khi chúng được “định hướng thông tin”, chúng được đặc trưng bởi mong muốn và khả năng tổ chức không gian thông tin của vấn đề. Điều này có nghĩa là người dùng về cơ bản tạo ra một IR mới, "độc lập" theo hướng vấn đề, được cập nhật và bổ sung riêng, ngoài các bộ sưu tập tài liệu, còn bao gồm siêu thông tin, ví dụ: từ điển thuật ngữ đặc biệt, bộ phân loại lĩnh vực chủ đề, tài nguyên mô tả, v.v.

Tính đặc thù của công việc của người dùng ở chế độ "tự phục vụ", trong bối cảnh nhiệm vụ tự động hóa hoạt động tổng hợp, có nghĩa là hệ thống phải đại diện cho một môi trường cung cấp hỗ trợ cho các chức năng của người tiêu dùng để xử lý thông tin được tìm thấy, như những chức năng truyền thống liên quan đến các chức năng của trung gian thông tin (giải thích yêu cầu, dịch yêu cầu sang ngôn ngữ tìm kiếm thông tin, lựa chọn IR, tìm kiếm tự động và lựa chọn tài liệu theo cách thủ công), nhưng cũng có chức năng "cung cấp" như: cấu trúc nhu cầu thông tin, thích ứng từ vựng của truy vấn, đánh giá, hệ thống hóa và xử lý kết quả tìm kiếm, cả ở cấp độ của cả một tài liệu riêng biệt và các nguồn thông tin nói chung. Các khả năng kỹ thuật có sẵn cho người dùng cho phép anh ta tạo ra một nguồn thông tin - để hình thành các mảng, hệ thống hóa và tạo các biểu diễn bên ngoài của nội dung của họ để sử dụng cho riêng họ hoặc bên ngoài.

IPS được chia thành: truyền thống (thủ công, cơ khí, điện cơ) và tự động (điện tử).

IPS tự động (AIPS), sử dụng phần mềm và phần cứng máy tính và công nghệ nhằm mục đích tìm và cấp thông tin cho người dùng theo các tiêu chí cụ thể. Hai yếu tố sau đây là yếu tố quyết định để hiểu các phương pháp tự động hóa tìm kiếm:

    không phải bản thân các đối tượng được so sánh, mà là mô tả - cái gọi là "hình ảnh tìm kiếm";

    bản thân quá trình này rất phức tạp (tổng hợp chứ không phải một hành động) và thường được thực hiện bởi một chuỗi các hoạt động.

Dữ liệu trong AIPS được nhập trên cơ sở các định dạng đầu vào được phát triển đặc biệt. Tất cả thông tin về một đối tượng trong IPS được trình bày dưới dạng dữ liệu được hệ thống hóa tạo thành một hàng của bảng và được gọi là ghi lại . Đồng thời, nếu IS đại diện cho danh mục điện tử của thư viện, thì bất kỳ mô tả thư mục nào (BD) của tài liệu trong đó là một bản ghi bao gồm các trường bằng số phần tử BD. Tập hợp các bản ghi tạo thành một cơ sở dữ liệu, thường được lưu trữ trong một tệp. Một tập hợp các cơ sở dữ liệu được thống nhất bởi một DBMS tạo thành một ngân hàng dữ liệu.

Vì AIPSmột công cụ được một người sử dụng khi tìm kiếm (nhưng khôngmáy tìm kiếm thông minh thông tin - giải pháp sẵn sàng cho các vấn đề của hoạt động chính), hiệu quả của việc sử dụng nó phụ thuộc vào mức độ hiểu biết của một người về bản chất của các đối tượng hoạt động và các thuộc tính của công cụ mà thông qua đó anh ta làm việc với các đối tượng này.

Việc truy xuất thông tin liên quan đến việc sử dụng các chiến lược, phương pháp, cơ chế và phương tiện nhất định. Hành vi của người dùng quản lý quá trình tìm kiếm không chỉ được xác định bởi nhu cầu thông tin, mà còn bởi tính đa dạng của công cụ của hệ thống - các công nghệ và công cụ được cung cấp bởi hệ thống.

Chiến lược tìm kiếm - kế hoạch chung (khái niệm, sở thích, thiết lập) về hành vi của hệ thống hoặc người dùng để thể hiện và thỏa mãn nhu cầu thông tin của người dùng, do cả bản chất của mục tiêu và loại tìm kiếm, và các quyết định "chiến lược" của hệ thống - kiến trúc cơ sở dữ liệu, các phương pháp và công cụ tìm kiếm trong một AIPS cụ thể.

Sự lựa chọn chiến lược trong trường hợp chung là một bài toán tối ưu hóa. Trong thực tế, nó được xác định phần lớn bởi nghệ thuật đạt được sự thỏa hiệp giữa nhu cầu thực tế và khả năng của các phương tiện sẵn có.

Phương pháp tìm kiếm - một tập hợp các mô hình và thuật toán để thực hiện các giai đoạn công nghệ riêng lẻ: xây dựng hình ảnh truy vấn tìm kiếm (PRI), lựa chọn tài liệu (so sánh hình ảnh tìm kiếm của truy vấn và tài liệu), mở rộng và định dạng lại truy vấn, bản địa hóa và đánh giá việc phát hành.

Hình ảnh tìm kiếm truy vấn- văn bản được viết bằng ILP thể hiện nội dung ngữ nghĩa của yêu cầu thông tin và chứa các hướng dẫn cần thiết để thực hiện hiệu quả nhất việc truy xuất thông tin.

Các phương pháp tìm kiếm, tức là việc lựa chọn một tập hợp con các tài liệu có khả năng chứa mô tả giải pháp cho vấn đề lựa chọn tài liệu (OD) là sự phản ánh của quá trình tìm kiếm giải pháp và phụ thuộc vào bản chất của vấn đề và lĩnh vực chủ đề.

Coi việc tìm kiếm là một quá trình lặp đi lặp lại, các phương pháp giảm không gian tìm kiếm (của tập hợp con được quét) về cơ bản là cơ sở phương pháp luận của chiến lược tìm kiếm và có thể được chia thành các lớp sau - các phương pháp tìm kiếm trong:

    một không gian (thường là chuyên đề);

    không gian được sắp xếp theo thứ bậc;

    không gian thay thế;

    động (thay đổi trong quá trình tìm kiếm) không gian.

Phương pháp được triển khai để xây dựng một POS phải cung cấp các cách hiệu quả để xây dựng một truy vấn nhằm đạt được nhiều loại mục tiêu khác nhau.

Cơ chế tìm kiếm - một tập hợp các mô hình và thuật toán được triển khai trong hệ thống cho quá trình tạo ra các tài liệu được phát hành để đáp ứng một truy vấn tìm kiếm.

Công cụ tìm kiếm mặt khác, là một phức hợp phụ thuộc lẫn nhau của các ngôn ngữ truy xuất thông tin (IRL) và các ngôn ngữ định nghĩa / quản lý dữ liệu cung cấp các chuyển đổi cấu trúc và ngữ nghĩa của các đối tượng xử lý (tài liệu, từ điển, bộ kết quả tìm kiếm) và trên mặt khác, các đối tượng giao diện người dùng cung cấp trình tự kiểm soát lựa chọn các đối tượng hoạt động của một AIPS cụ thể.

Các công nghệ tìm kiếm được thống nhất (được tối ưu hóa trong một chuỗi AIPS cụ thể) để sử dụng hiệu quả các công cụ tìm kiếm riêng lẻ trong quá trình người dùng tương tác với hệ thống để thu được các kết quả cuối cùng và trung gian bền vững.

dẫn đường như việc thực hiện quy trình tìm kiếm theo yêu cầu trong cơ sở dữ liệu đã chọn - một trình tự có mục tiêu, được xác định chiến lược sử dụng các phương pháp, công cụ và công nghệ của một AIPS cụ thể để thu được và đánh giá kết quả.

Hướng trợ cho phép người dùng kiểm soát quá trình tìm kiếm. Chúng được cung cấp cho người dùng dưới dạnggiao diện , cho phép tổ chức một quá trình tương tác với cơ sở dữ liệu hiệu quả hơn hoặc kém hơn. Đồng thời, tính "thân thiện" của giao diện không chỉ được đặc trưng bởi tính công thái học và sự rõ ràng, mà còn bởi sự thay đổi trong việc lựa chọn các đối tượng hoạt động.

Quá trình truy xuất thông tin là một chuỗi các bước dẫn thông qua hệ thống đến một kết quả nhất định và cho phép đánh giá tính đầy đủ của nó. Vì người dùng thường không có kiến ​​thức đầy đủ về nội dung thông tin của tài nguyên mà anh ta thực hiện tìm kiếm, anh ta có thể đánh giá tính đầy đủ của biểu thức truy vấn, cũng như tính đầy đủ của kết quả thu được, chỉ dựa trên các ước tính bên ngoài hoặc dựa trên kết quả trung gian và tổng quát hóa, so sánh chúng, chẳng hạn, với những kết quả trước đó.

Quá trình tìm kiếm có thể được biểu diễn dưới dạng các thành phần chính sau:

    xây dựng truy vấn bằng ngôn ngữ tự nhiên, chọn công cụ và dịch vụ tìm kiếm, chính thức hóa truy vấn trong ILP tương ứng;

    tiến hành tìm kiếm trong một hoặc nhiều công cụ tìm kiếm;

    xem xét các kết quả thu được (tài liệu tham khảo);

    xử lý sơ bộ kết quả thu được: xem nội dung liên kết, trích xuất và lưu dữ liệu liên quan, phù hợp;

    nếu cần, sửa đổi yêu cầu và tiến hành tìm kiếm (làm rõ) lặp lại với quá trình xử lý kết quả tiếp theo.

Để giảm khối lượng các tài liệu đã chọn, kết quả tìm kiếm được lọc theo loại nguồn (trang web, cổng thông tin), chủ đề và các cơ sở khác.

Công nghệ tìm kiếm được sử dụng IS có thể được chia thành 4 loại:

    Các danh mục chuyên đề;

    Danh mục chuyên ngành (thư mục trực tuyến);

    Công cụ tìm kiếm (tìm kiếm toàn văn);

    Các công cụ Metasearch.

Trên Internet, IPS được lưu trữ trên một hoặc nhiều máy chủ. Hệ thống thông tin thu thập, lập chỉ mục và đăng ký thông tin về các tài liệu có sẵn trong nhóm các máy chủ web được phục vụ bởi hệ thống. Tất cả các từ quan trọng được lập chỉ mục trong tài liệu, hoặc chỉ các từ trong tiêu đề.

Danh mục chuyên đề cung cấp cho việc xử lý các tài liệu và phân công chúng vào một trong một số danh mục, danh sách trong số đó đã được xác định trước. Trên thực tế, đây là lập chỉ mục dựa trên phân loại. Việc lập chỉ mục có thể được thực hiện tự động hoặc thủ công với sự trợ giúp của các chuyên gia duyệt các trang web phổ biến và biên soạn một mô tả ngắn của các tài liệu tóm tắt (từ khóa, tóm tắt, tóm tắt).

Danh mục chuyên ngành hoặcsách tham khảo được tạo ra bởi các ngành và chủ đề riêng lẻ, theo tin tức, thành phố, địa chỉ e-mail, v.v.

công cụ tìm kiếm (phương tiện tìm kiếm tiên tiến nhất trên Internet) thực hiện công nghệ tìm kiếm toàn văn. Các văn bản nằm trên các máy chủ đã được thăm dò ý kiến ​​được lập chỉ mục. Một chỉ mục có thể chứa thông tin về vài triệu tài liệu. Ví dụ: chỉ mục của IPS phổ biến "AltaVista" chứa hơn 56 triệu URL.

Khi sử dụng tiềnmetasearch Yêu cầu được thực hiện đồng thời bởi một số công cụ tìm kiếm. Kết quả tìm kiếm được kết hợp thành một danh sách chung được sắp xếp theo mức độ liên quan. Mỗi hệ thống chỉ xử lý một phần của các nút mạng, điều này cho phép mở rộng cơ sở tìm kiếm. Lớp này cũng bao gồm "các chương trình tìm kiếm cá nhân" cho phép bạn tạo các công cụ metasearch của riêng mình (ví dụ: tự động truy vấn các trang web thường xuyên truy cập).

Cơ sở dữ liệu thông tin có thể chứa hầu hết mọi loại thông tin, bao gồm bất kỳ sự kết hợp nào. Việc truy xuất thông tin được thực hiện bằng cả các điều khoản hiện có trong EIR toàn văn và bằng các yếu tố đặc biệt là một phần của ILP. Để hình thành các truy vấn, các ngôn ngữ truy xuất thông tin đặc biệt được sử dụng.

IPS trong mẫu được tìm thấy thường cố gắng sắp xếp các tài liệu theo thứ tự "sự liên quan ", nghĩa là gần với truy vấn do người dùng nhập. Có nhiều tiêu chí cho mức gần đó và việc xác định các tài liệu gần" về mặt ý nghĩa "với truy vấn không giải quyết được vấn đề lấy thông tin khi không có tài liệu liên quan. Điều này tình huống khá nhỏ, cũng bởi vì người dùng thường tìm kiếm tài liệu Cần lưu ý rằng kết quả của việc tìm kiếm, người dùng có thể nhận được cả hai mảng con dữ liệu có liên quan, thích hợp và không liên quan và không thích hợp.

IPS thực sự làhệ thống hỗ trợ thông tinvà là cơ sở dữ liệu và cơ sở dữ liệu. Nhưvậtchúng bao gồm một cá nhân, tổ chức, ngành, khu vực, v.v.Đối tượng hỗ trợ thông tinlà một nhà khoa học máy tính, bất kỳ người tiêu dùng thông tin.

Tổ chức tìm kiếm

Người ta đề xuất chia thủ tục tìm kiếm thông tin cần thiết thành chín giai đoạn chính:

    Định nghĩa một lĩnh vực kiến ​​thức;

    Lựa chọn loại và nguồn dữ liệu;

    Thu thập các tài liệu cần thiết để điền vào mô hình thông tin;

    Lựa chọn các thông tin hữu ích nhất;

    Lựa chọn phương pháp xử lý thông tin (phân loại, phân cụm, phân tích hồi quy, v.v.);

    Chọn một thuật toán để tìm kiếm các mẫu;

    Tìm kiếm các mẫu, các quy tắc chính thức và các mối quan hệ cấu trúc trong thông tin thu thập được;

    Giải thích một cách sáng tạo các kết quả thu được;

    Tích hợp các "kiến thức" đã được rút trích.

Để tiến hành tìm kiếm, ban đầu giao diện làm việc với cơ sở dữ liệu tương ứng được tải trên máy tính của người dùng. Nó có thể là một cơ sở dữ liệu cục bộ hoặc từ xa. Ban đầu, bạn nên quyết định loại tìm kiếm (đơn giản, nâng cao, v.v.). Sau đó, với một tập hợp các trường được cung cấp để tìm kiếm. IPS có thể cung cấp một hoặc nhiều trường đầu vào. Trong trường hợp thứ hai, đây thường là các trường: tác giả, tiêu đề (title), khoảng thời gian, loại tài liệu, từ khóa, tiêu đề, v.v. Khi tạo truy vấn, hầu hết tất cả các hệ thống đều cho phép sử dụng các phần tử logic "VÀ", "HOẶC ", "KHÔNG".

Công nghệ truy xuất thông tin

Các công cụ và công nghệ tìm kiếm được sử dụng để đáp ứng nhu cầu thông tin được xác định bởi loại và trạng thái của nhiệm vụ hoạt động chính mà người dùng giải quyết: tỷ lệ giữa kiến ​​thức và sự thiếu hiểu biết của họ về đối tượng được nghiên cứu. Ngoài ra, quá trình tương tác của người dùng với hệ thống được xác định bởi mức độ hiểu biết của người dùng về nội dung của tài nguyên (tính đầy đủ của đại diện, độ tin cậy của nguồn, v.v.) và chức năng của hệ thống như một công cụ. Nói chung, những yếu tố này thường đi kèm với khái niệm "tính chuyên nghiệp" - thông tin (người dùng được đào tạo / chưa được đào tạo) vàmôn học (chuyên nghiệp / không chuyên nghiệp) "sự chuyên nghiệp ".

Quá trình tìm kiếm thông tin thường mang tính chất kinh nghiệm. Nó đại diện cho một chuỗi các bước dẫn qua hệ thống đến một số kết quả, cho phép đánh giá tính hoàn chỉnh của nó. Đồng thời, hành vi của người dùng, với tư cách là người bắt đầu tổ chức quản lý quá trình tìm kiếm, được thúc đẩy không chỉ bởi nhu cầu thông tin, mà còn bởi sự đa dạng của các chiến lược, công nghệ và công cụ được cung cấp bởi hệ thống.

Thông thường, người dùng không có kiến ​​thức đầy đủ về nội dung thông tin của tài nguyên mà anh ta thực hiện tìm kiếm, do đó, anh ta có thể đánh giá tính đầy đủ của biểu thức truy vấn, cũng như tính đầy đủ của kết quả thu được, bằng cách tìm thêm thông tin, hoặc bằng cách tổ chức quá trình sao cho một phần của kết quả tìm kiếm có thể được sử dụng để xác nhận hoặc phủ nhận tính đầy đủ của phần kia.

Các đối tượng hoạt động liên quan trực tiếp đến sự tương tác của người dùng với công cụ tìm kiếm là hình ảnh tìm kiếm của tài liệu (DOI) và DO, sự tương ứng của chúng được thiết lập bởi công cụ tìm kiếm AIPS ở cấp độ chính thức. Sự phù hợp của hình ảnh với nội dung thực tế của tài liệu được xác định bởi chất lượng của quá trình tích hợp thông tin và mức độ kiến ​​thức của đối tượng về phương tiện phản ánh - sơ đồ khái niệm về lĩnh vực chủ thể và khả năng của ILP.

Hình ảnh tìm kiếm tài liệu- mô tả tài liệu, được thể hiện bằng ILP và mô tả đặc điểm của nội dung ngữ nghĩa chính hoặc bất kỳ tính năng nào khác của tài liệu này, cần thiết cho việc tìm kiếm theo yêu cầu.

Hầu hết các PS ban đầu cung cấp cho người dùng BRs hoặc liên kết đến các tài liệu đầy đủ hoặc một phần, các mô tả của chúng và những tài liệu khác được lưu trữ trong các AIPS khác nhau. PS hiện đại giúp người dùng có thể xác định và chỉ ra nguồn thông tin được người dùng quan tâm ở dạng nào và ở dạng nào.

Các phương pháp xử lý kết quả tìm kiếm

Theo bản chất của các phép biến đổi (trong bối cảnh sử dụng thêm các kết quả xử lý), các phương pháp xử lý kết quả tìm kiếm có thể được chia thành hai nhóm:

    Các phép biến đổi cấu trúc-định dạng;

    Các phép biến đổi cấu trúc-ngữ nghĩa (thông tin-phân tích, lôgic-ngữ nghĩa).

Triển khai tìm kiếm

Thường được tìm kiếm trên Internet: dữ liệu cá nhân về cá nhân, tổ chức; dữ liệu địa chỉ khác nhau; tài liệu cụ thể (bài báo, sách, ảnh, dữ liệu tham khảo, phần mềm, v.v.), bao gồm cả nơi lưu trữ chúng; nguyên vật liệu, dịch vụ, sản phẩm, v.v. ở đâu và giá bao nhiêu; các trang thông tin và cổng thông tin, v.v.

Nó thường được chấp nhận để tổ chức tìm kiếm theo các đoạn đầu tiên của từ (tìm kiếm bằng cách cắt ngắn bên phải), ví dụ: thay vì từ "thư viện", bạn có thể nhập đoạn "thư viện *" của nó. Trong trường hợp này, sẽ tìm thấy các tài liệu không chỉ chứa từ "thư viện", mà còn có "thư viện", "thủ thư", "thủ thư", v.v. Trong mỗi trường hợp, người dùng phải hình dung chính xác những gì anh ta muốn tìm, vì trong tùy chọn anh ta được đề xuất, một số lượng tài liệu lớn hơn nhiều sẽ được tìm thấy so với khi từ đã cho được chỉ định hoàn toàn (không cắt bớt). Trong trường hợp như vậy, có thể tiến hành tìm kiếm sàng lọc trong mảng thông tin đã nhận và kết quả là thu được dữ liệu phù hợp và phù hợp hơn.

Đăng ký kết quả

Theo quan điểm của IS, kết quả tìm kiếm trong đó là một tập hợp (tập hợp con) các tài liệu được tìm thấy hoặc liên kết đến chúng. Nó thường được trình bày cho người dùng dưới dạng một danh sách. Nghĩa là, dạng đầu ra đơn giản nhất trong trường hợp này sẽ là danh sách các liên kết ở dạng BR đầy đủ hoặc một phần được IR tìm thấy. Danh sách như vậy có thể được in ngay lập tức hoặc gửi đến bất kỳ địa chỉ e-mail nào, nếu cơ hội đó được cung cấp bởi IP và người dùng được kết nối với Internet.

EIR đồ họa và toàn văn chỉ có thể được cung cấp cho người dùng để xem, để sao chép ở các định dạng và quy mô khác nhau và toàn bộ hoặc một phần. IR đồ họa thường tồn tại ở các định dạng được chấp nhận chung như: JPG, GIFF, TIFF, BMP, v.v. và đối với tài liệu văn bản, chúng thường sử dụng các định dạng văn bản TXT, DOC, v.v., HTML và PDF - trên thực tế, một định dạng đồ họa trong đó chúng có thể được lưu dưới dạng văn bản, cũng như dữ liệu đồ họa.

Các tài liệu thu được là kết quả của việc tìm kiếm được lưu lại.

Tiêu chí Đánh giá Tìm kiếm

Tiêu chí cho kết quả tìm kiếm là việc người sử dụng nhận được danh sách các tài liệu, một tài liệu hoặc các phần của chúng, đáp ứng tốt nhất nhu cầu của họ được đưa ra trong truy vấn tìm kiếm. Trong IPS, thông thường là tạo danh sách các tài liệu thu được từ kết quả của việc tìm kiếm tùy theo mức độ liên quan của chúng. Có các tiêu chí về ngữ nghĩa và sự tương ứng chính thức giữa đơn thuốc tra cứu và tài liệu được ban hành.

công cụ tìm kiếm hình ảnh động internet máy tính

Công cụ tìm kiếm trên Internet

Các công cụ tìm kiếm Google, Yahoo, Yandex, Mail ... được sử dụng để tìm các nguồn tài nguyên cần thiết trên Internet bằng các từ khóa. Các hệ thống này, hay còn gọi là công cụ tìm kiếm, đi qua hàng triệu máy chủ WWW mỗi ngày, lập chỉ mục và lập danh mục các tài nguyên được tìm thấy. Khả năng tìm kiếm một tài nguyên trên Internet rất thuận tiện, nhưng chúng ta không được quên rằng Web sống cuộc đời của chính nó - hàng nghìn trang mới xuất hiện mỗi ngày, một số trang cũ biến mất ... Do đó, không phải lúc nào công cụ tìm kiếm cũng cho thông tin chính xác nhất.

Các công cụ cấu trúc và tìm kiếm, đôi khi được gọi là công cụ tìm kiếm, được sử dụng để giúp mọi người tìm thấy thông tin họ cần. Các công cụ tìm kiếm như tác nhân, trình thu thập thông tin, trình thu thập thông tin và rô bốt được sử dụng để thu thập thông tin về các tài liệu nằm trên Internet. Đây là những chương trình đặc biệt tìm kiếm các trang trên Web, trích xuất các liên kết siêu văn bản trên các trang đó và tự động lập chỉ mục thông tin chúng tìm thấy để xây dựng cơ sở dữ liệu. Mỗi công cụ tìm kiếm có bộ quy tắc riêng xác định cách tài liệu được thu thập. Một số theo dõi từng liên kết trên mỗi trang mà họ tìm thấy, sau đó lần lượt kiểm tra từng liên kết trên mỗi trang mới, v.v. Một số người bỏ qua các liên kết dẫn đến các tệp đồ họa và âm thanh, tệp hoạt hình; những người khác bỏ qua các tham chiếu đến các tài nguyên như cơ sở dữ liệu WAIS; những người khác được hướng dẫn xem các trang phổ biến nhất trước.

Google- mạng lưới công cụ tìm kiếm lớn nhất thuộc sở hữu của Google Inc.

Hệ thống phổ biến nhất đầu tiên, xử lý 41 tỷ 345 triệu yêu cầu mỗi tháng, lập chỉ mục hơn 25 tỷ trang web, có thể tìm thông tin bằng 195 ngôn ngữ.

Giao diện Google chứa một ngôn ngữ truy vấn khá phức tạp cho phép bạn giới hạn tìm kiếm của mình trong các miền, ngôn ngữ, loại tệp cụ thể, v.v.

Đối với kết quả tìm kiếm, trước đây Google đã cung cấp khả năng tìm kiếm lại, cho phép bạn tìm kiếm chi tiết hơn. Để tìm kiếm chi tiết hơn, người dùng phải chỉ định các tham số bổ sung mà theo đó kết quả được chọn, giúp có thể hiển thị ngay lập tức không chỉ truy vấn mà còn cả ngữ cảnh nơi nó được áp dụng. Tính năng này đã đơn giản hóa quy trình tìm kiếm bằng cách loại bỏ sự cần thiết phải mở từng kết quả. Vào ngày 22 tháng 9 năm 2010, công ty đã ra mắt tính năng tìm kiếm bằng giọng nói ở Nga. Để tìm kiếm, bạn cần nhấn nút bên cạnh thanh tìm kiếm trên điện thoại và nói truy vấn của bạn, điện thoại sẽ gửi giọng nói của bạn đến máy chủ và trình duyệt sẽ hiển thị một chuỗi có nhận dạng truy vấn của bạn và kết quả tìm kiếm cho nó.

Do sự phổ biến của công cụ tìm kiếm, thuật ngữ neologism google hay Google đã xuất hiện trong tiếng Anh, được dùng để chỉ việc tìm kiếm thông tin trên Internet bằng Google. Chính với định nghĩa này mà động từ được liệt kê trong các từ điển có thẩm quyền nhất của tiếng Anh - Từ điển tiếng Anh Oxford và Merriam-Webster, mặc dù các nguồn khác đưa ra ví dụ về việc sử dụng nó để có nghĩa là tìm kiếm bất cứ thứ gì trên Internet.

Yandex là một công ty CNTT của Nga sở hữu hệ thống tìm kiếm trên web và cổng thông tin Internet cùng tên. Công cụ tìm kiếm Yandex đứng thứ tư trong số các công cụ tìm kiếm trên thế giới về số lượng truy vấn tìm kiếm được xử lý. Tính đến ngày 8 tháng 2 năm 2013, theo xếp hạng của Alexa.com, trang web yandex.ru xếp hạng 20 về mức độ phổ biến trên thế giới và hạng 1 ở Nga.

Công cụ tìm kiếm Yandex.ru được chính thức công bố vào ngày 23 tháng 9 năm 1997, và lúc đầu được phát triển trong khuôn khổ của CompTek International. Là một công ty riêng biệt, Yandex được thành lập vào năm 2000. Vào tháng 5 năm 2011, Yandex đã tổ chức một đợt phát hành cổ phiếu lần đầu ra công chúng, kiếm được nhiều tiền hơn bất kỳ công ty Internet nào kể từ khi Google IPO vào năm 2004.

ь Quản lý lập chỉ mục trong công cụ tìm kiếm Yandex

Các quyền và lệnh cấm lập chỉ mục được lấy từ tệp robots.txt. Yandex hỗ trợ thẻ rô bốt META, thẻ NOINDEX và phần mở rộng robots.txt không chuẩn - chỉ thị Máy chủ lưu trữ. Tất cả các công cụ tìm kiếm đều có quyền và cấm lập chỉ mục từ tệp robots.txt nằm trong thư mục gốc của máy chủ. Chẳng hạn, lệnh cấm lập chỉ mục một số trang có thể xuất hiện do không muốn lập chỉ mục các tài liệu giống nhau ở các bảng mã khác nhau. Máy chủ càng nhỏ, robot sẽ vượt qua nó càng nhanh. Do đó, chúng tôi mong muốn cấm tất cả các tài liệu trong tệp robots.txt không có ý nghĩa được lập chỉ mục.

ь Thêm các trang trong công cụ tìm kiếm Yandex

Yandex quét hàng trăm nghìn trang Web mỗi ngày để tìm kiếm những thay đổi hoặc liên kết mới. Chủ sở hữu tài nguyên có thể thêm trang web của riêng họ bằng cách điền vào biểu mẫu AddURL

Công cụ tìm kiếm Yandex là toàn văn, nghĩa là chỉ những từ được viết trên các trang của trang web mới được đưa vào chỉ mục của nó (và có sẵn để tìm kiếm).

ь Lập chỉ mục trong công cụ tìm kiếm Yandex

Khi Yandex phát hiện một trang mới hoặc trang được sửa đổi, nó sẽ lập chỉ mục trang đó. Trong quá trình này, trang được chia thành các phần tử, nội dung được nhập vào chỉ mục. Khi Yandex phát hiện một trang mới hoặc trang được sửa đổi, nó sẽ lập chỉ mục trang đó. Trong quá trình này, trang được chia thành các phần tử (văn bản, tiêu đề, chú thích hình ảnh, liên kết, v.v.), nội dung được nhập vào chỉ mục. Điều này tính đến vị trí của các từ, tức là vị trí của chúng trong tài liệu hoặc thành phần của nó. Bản thân tài liệu không được lưu trữ trong cơ sở dữ liệu.

Yahoo! là một công ty của Mỹ sở hữu công cụ tìm kiếm phổ biến thứ hai trên thế giới và cung cấp một số dịch vụ được thống nhất bởi cổng Internet Yahoo! danh mục; cổng thông tin bao gồm dịch vụ e-mail Yahoo phổ biến.

Theo thống kê của Alexa Internet, vào tháng 2 đến tháng 4 năm 2012 Yahoo! - trang web được truy cập nhiều thứ tư trên Internet và khoảng 28% lượt truy cập chỉ xem một trang.

Thư- một cổng giao tiếp chính của Internet Nga, lượng người xem hàng tháng, tính đến tháng 10 năm 2012, vượt quá 31,9 triệu người.

Số lượng nhân viên là 2800 người.

Nguồn lực thuộc về nhóm đầu tư Thư. Nhóm Ru.

Dịch vụ chính của cổng là dịch vụ bưu chính Pochta @ Mail. Ru, được thành lập vào năm 1998 trong công ty phần mềm DataArt của Mỹ do những người Nga di cư thành lập. Các lập trình viên từ văn phòng DataArt ở St.Petersburg đã tạo ra phần mềm mới cho web mail server, phần mềm này được cho là sẽ được bán cho các công ty phương Tây trong tương lai. Để thử nghiệm dịch vụ này, dịch vụ này tạm thời được cung cấp công khai vào tháng 11 năm 1998 cho người dùng Nga, và dịch vụ này đột nhiên nhanh chóng trở nên phổ biến.

Theo VP và CTO của Thư. Ru Vladimir Gabrielyan, cổng thông tin có tám trung tâm dữ liệu, số lượng máy chủ là 9000 đơn vị. Trong bộ phận kỹ thuật của Thư. Ru sử dụng hơn bảy trăm chuyên gia.

Tổ chức tìm kiếm

Biểu mẫu tìm kiếm là một thứ rất hữu ích và phổ biến, đặc biệt khi nói đến các trang web lớn nghiêm trọng (về số lượng trang và tài liệu được trình bày) và các trang web được truy cập nhiều. Tìm kiếm thông tin phù hợp trên một trang web như vậy chỉ bằng cách sử dụng menu điều hướng và liên kết nội bộ đôi khi có thể là một nhiệm vụ khó khăn. Sẽ dễ dàng hơn nhiều khi đưa một vài từ cần thiết vào trường thích hợp, nhấp vào nút “tìm” và kết quả là nhận được các liên kết đến các trang mà người dùng có thể quan tâm đến thông tin.

Tìm kiếm thường có thể được thực hiện theo hai cách:

1. tìm kiếm được thực hiện bằng công cụ trang web (php hoặc một số ngôn ngữ lập trình web khác) - nhưng điều này chỉ dành cho những lập trình viên web nghiêm túc, đối với những người bình thường thì phương pháp số 2 là thích hợp hơn;

2. biểu mẫu tìm kiếm giải quyết công cụ tìm kiếm. Phương pháp này có sẵn cho mọi người đã nắm vững kiến ​​thức cơ bản về html và phù hợp với bất kỳ trang web nào, thậm chí bao gồm một tập hợp các trang html tĩnh. Tuy nhiên, việc tìm kiếm như vậy sẽ chỉ được thực hiện trên những trang có trong cơ sở dữ liệu của công cụ tìm kiếm. Để tất cả các trang của trang web được lập chỉ mục bình thường, hai quy tắc phải được tuân thủ: 1) liên kết trực tiếp không có chuyển hướng phải dẫn đến từng trang của trang web; 2) trang web không được vi phạm giấy phép tìm kiếm của công cụ tìm kiếm được sử dụng.

Sự liên quan

Tính liên quan trong truy xuất thông tin là sự tương ứng ngữ nghĩa của truy vấn tìm kiếm và hình ảnh tìm kiếm của tài liệu. Theo nghĩa tổng quát hơn, một trong những khái niệm gần nhất với khái niệm chất lượng của "mức độ phù hợp" là "tính đầy đủ", nghĩa là không chỉ đánh giá mức độ tuân thủ mà còn cả mức độ ứng dụng thực tế của kết quả, như cũng như mức độ ứng dụng xã hội của giải pháp cho vấn đề.

Các loại mức độ liên quan

Sự tuân thủ của một tài liệu với một yêu cầu thông tin, được xác định một cách không chính thức

2. Mức độ liên quan chính thức

Đối sánh được xác định bằng cách so sánh hình ảnh của truy vấn tìm kiếm với hình ảnh tìm kiếm của tài liệu theo một thuật toán nhất định.

Bài giảng TỔ CHỨC VÀ CÔNG NGHỆ TÌM KIẾM THÔNG TIN TRÊN INTERNET 1. 2. Các công cụ truy xuất thông tin Công nghệ truy xuất thông tin

Đặc điểm của Internet cung cấp cách thức tìm kiếm thông tin nhanh hơn so với truyền thống. Với một lượng thông tin đáng kể, mạng là bán cấu trúc. Về vấn đề này, các công cụ truy xuất thông tin đang được phát triển tích cực để tự động hóa quá trình truy xuất thông tin trong môi trường này. slide số 3

Công cụ truy xuất thông tin Dịch vụ tìm kiếm trên Internet (công cụ được thiết kế để tìm kiếm thông tin) Công cụ tìm kiếm Danh mục (công cụ tìm kiếm) (thư mục) Công cụ tìm kiếm thông tin (metasearch engine) Trang trình bày số 5

Phân loại công cụ tìm kiếm theo phạm vi bao phủ của nguồn thông tin Trang trình bày số 6 INTERNET Công cụ tìm kiếm Danh mục Toàn cầu Khu vực Địa phương Chuyên ngành Khu vực Địa phương Công cụ tìm kiếm Mạng Địa phương Chuyên ngành

Phân loại công cụ tìm kiếm theo phạm vi bao phủ của tài nguyên thông tin Một công cụ tìm kiếm cụ thể có thể đồng thời tương ứng với một số loại được liệt kê. Loại công cụ tìm kiếm xác định mức độ bao phủ của các nguồn thông tin Internet bằng công cụ này. slide số 7

Hệ thống truy xuất thông tin Trang trình bày số 8 Hệ thống truy xuất thông tin (IPS) là một hệ thống cung cấp lựa chọn, lập chỉ mục và truy xuất thông tin dựa trên một chỉ mục của tài liệu. Lập chỉ mục thông tin có nghĩa là gán các từ khóa cho từng tài liệu phản ánh nội dung của tài liệu và kiểm soát việc tìm kiếm, dẫn đến những tài liệu có từ ngữ của nó trở nên giống với từ ngữ trong yêu cầu của IS, giải quyết vấn đề thu thập. , lưu trữ, xử lý và phát hành thông tin, tìm kiếm tài liệu, phân tích nội dung của chúng, xây dựng hình ảnh tìm kiếm của tài liệu (trích xuất thông tin từ tài liệu được hệ thống sử dụng làm tri thức về tài liệu), lưu trữ hình ảnh tìm kiếm, phân tích yêu cầu của người dùng, tìm kiếm tài liệu được có liên quan (tương ứng) với yêu cầu và cấp liên kết đến tài liệu cho người dùng.

Lược đồ IPS điển hình Trang trình bày số 9 Yêu cầu tài nguyên thông tin máy khách Người lập chỉ mục người dùng Giao diện người dùng Phản hồi của công cụ tìm kiếm Chỉ mục tài liệu yêu cầu phản hồi của công cụ tìm kiếm

Các tính năng của IPS Slide số 10 Mỗi công cụ tìm kiếm cụ thể không lưu trữ thông tin về tất cả các tài liệu Internet, mà chỉ về những tài liệu mà hệ thống này biết (đối với các hệ thống khác nhau, tỷ lệ tài liệu được lập chỉ mục là khác nhau, nhưng, như một quy luật , không vượt quá 70%). Các công cụ tìm kiếm không tự lưu trữ các tài liệu mà chỉ có thông tin về chúng đủ để người dùng tìm thấy chúng và do đó, hệ thống được đề cập có thể không trả về một số tài liệu tương ứng với yêu cầu do kết quả của việc tìm kiếm. Kết quả của việc tìm kiếm (phản hồi yêu cầu), hệ thống sắp xếp tài liệu theo mức độ tuân thủ yêu cầu của người dùng theo quan điểm của thuật toán công cụ tìm kiếm, chứ không phải theo quan điểm của họ. thư thực tế với yêu cầu.

Sử dụng IPS Slide số 11 Công cụ tìm kiếm là nguồn kiến ​​thức phong phú nhất về các trang (tài liệu) trên Internet. Trong hầu hết các trường hợp, cần phải tìm kiếm nhiều thông tin khác nhau trên Internet với sự trợ giúp của các hệ thống truy xuất thông tin. Xét về tốc độ và mức độ hoàn chỉnh của việc lấy thông tin theo yêu cầu của người dùng, chúng không bằng. Nhiều công cụ tìm kiếm chia sẻ một công cụ tìm kiếm và một thư mục.

Các hệ thống truy xuất thông tin Các hệ thống truy xuất thông tin phổ biến trên phạm vi toàn cầu trên Internet là: n Google (http: // www. Google. Com) n Bing (http: // search. Msn.com/) n Ask. com (http: // www. ask. com) IPS của Nga bao gồm: n Yandex (http: // www. yandex. ru, http: // www. ya. ru) n Rambler (http://www. rambler. ru) n Webalta (http: //www.aport.ru/) Trang trình bày № 12

Catalog Slide số 20 Catalog là một hệ thống cung cấp phân loại thông tin. Đặc điểm phân biệt của nó là sự hiện diện của một hệ thống phân cấp (sơ đồ sắp xếp) các tài nguyên, trong đó mỗi tài nguyên thuộc về một hoặc nhiều phần. Danh mục lưu trữ các mô tả (chú thích) của các nguồn tài nguyên Internet. Họ chứa đầy các quản trị viên web (những người tạo ra các nguồn thông tin) hoặc các biên tập viên đặc biệt, những người xem các tài nguyên thông tin của mạng. Để đáp ứng yêu cầu của người dùng, các thư mục tìm kiếm các mô tả này. Danh mục không tự động phát hiện các thay đổi đối với tài nguyên thông tin mạng.

Lược đồ danh mục điển hình Trang trình bày # 21 Nguồn thông tin truy vấn Nhân viên kỹ thuật Phản hồi giao diện người dùng Liên kết siêu văn bản Máy khách phản hồi Công cụ tìm kiếm Thông tin truy vấn Hệ thống phân cấp tài nguyên và mô tả của chúng

Sử dụng danh mục Trang trình bày số 22 Khi giải quyết vấn đề tìm kiếm khi bạn cần tìm một nhóm tài nguyên thông tin về một chủ đề khá rộng, danh mục là công cụ tốt nhất để thực hiện tìm kiếm, chẳng hạn khi tìm kiếm các trang cung cấp thông tin liên hệ cho các tổ chức ở Moscow hoặc các trang web truyền thông điện tử. Kết quả tìm kiếm trong các thư mục có thể có ý nghĩa hơn, vì các nguồn thông tin trong đó được chuẩn bị bởi con người.

Danh mục Trang trình bày # 23 Danh mục điện tử quy mô toàn cầu trên Internet là: n Yahoo (http: // www. Yahoo. Com) n Open Directory (http: // www. Dmoz. Org) n Nhìn. Smart (http: // www. Lookmart. Com) Các danh mục điện tử quan trọng nhất của Nga là: n Danh mục Yandex (http: // yaca. Yandex. Ru) n Danh mục Thư. ru (http: // www. list. ru /) n Danh mục 100 của Rambler (http: // top 100. rambler. ru)

Hệ thống metasearch Trang trình bày số 28 Hệ thống metasearch là một tiện ích bổ sung cho các công cụ tìm kiếm và danh mục điện tử không có cơ sở dữ liệu riêng (chỉ mục) và khi tìm kiếm đơn thuốc tìm kiếm của người dùng, sẽ tự động tạo các truy vấn cho một số công cụ tìm kiếm bên ngoài và sau đó cũng tự động phân tích kết quả nhận được từ chúng và trả về danh sách các liên kết theo thứ tự được xác định bởi tỷ lệ xếp hạng câu trả lời trên nhiều công cụ tìm kiếm cùng một lúc. Sự khác biệt về chiến lược và phạm vi bao phủ các nguồn thông tin của các công cụ tìm kiếm khác nhau thường dẫn đến thực tế là các công cụ tìm kiếm khác nhau đưa ra các câu trả lời khác nhau cho cùng một truy vấn. Hệ thống Metasearch trong công việc của họ sử dụng tiềm năng của các phương tiện truy xuất thông tin khác.

Lược đồ điển hình của hệ thống metasearch Trang trình bày số 29 Yêu cầu Máy khách Giao diện người dùng Phản hồi Công cụ tìm kiếm Yêu cầu Nguồn thông tin Câu trả lời IPS 1 Danh mục 1 IPS N Danh mục N

Sử dụng Metasearch Engine Slide # 30 Các công cụ Metasearch có hiệu quả nhất ở giai đoạn truy xuất thông tin ban đầu. Chúng cho phép bạn nhanh chóng kiểm tra xem thông tin cần thiết có trên Internet hay không và bản địa hóa các công cụ tìm kiếm mà thông tin đó có mặt. Các công cụ Metasearch cho phép bạn giảm thời gian dành cho việc tìm kiếm thông tin, vì khi xử lý yêu cầu của người dùng, các hệ thống này đồng thời truy cập vào một số công cụ tìm kiếm khác nhau.

Các loại công cụ metasearch Trang trình bày số 31 Mạng - có sẵn thông qua mạng để tìm kiếm thông tin Các công cụ metasearch toàn cầu có sẵn qua Internet bao gồm: n Meta. Crawler (http://www.metacrawler.com) n Web. Crawler (http://www.webcrawler.com) n Tìm kiếm. com (http: //www.search.com) Các công cụ metasearch của Nga nổi tiếng nhất: n Meta. Người máy. ru (http: // metabot. ru) n Nigma (http: // nigma. ru) Ưu điểm của các công cụ tìm kiếm của Nga là xử lý chính xác một yêu cầu bằng ngôn ngữ quốc gia.

Công cụ Tìm kiếm Chuyên dụng Trang trình bày # 33 Các hệ thống tìm kiếm tệp, chẳng hạn như Tệp. Tìm kiếm. ru (http: // www. filesearch. ru) Các hệ thống cung cấp tìm kiếm trong tin tức phương tiện truyền thông điện tử, ví dụ: Yandex News (http: // news. yandex. ru), Google News (http: // news. google. ru ) Tìm kiếm hàng hóa, ví dụ: Yandex Market (http: // market. Yandex. Ru), Torg. ru (http: // www. torg. ru) Mọi người tìm kiếm, chẳng hạn như POISKI. ru (http: // độcki. ru), Poisk 24 (http: // www. Poisk 24. de), Yahoo! Tìm kiếm người (http://people.yahoo.com)

Các công cụ tìm kiếm chuyên dụng Tìm kiếm hình ảnh, ví dụ: Yandex Pictures (http: //images.yandex.ru), Google Pictures (http: //images.google.ru) Tìm kiếm video, ví dụ: Yandex Video (http: // video .yandex .ru), Google Video (http: //video.google.ru) Trang trình bày № 34

Các công cụ và phương pháp tìm kiếm bổ sung Trang trình bày số 36 Trên Internet, bạn có thể tìm kiếm thông tin không chỉ bằng các công cụ tìm kiếm mà còn bằng nhiều cách khác. Có nhiều trang web, dịch vụ và người dùng khác nhau trên web có thể giúp bạn tìm kiếm. Các dịch vụ đó bao gồm hệ thống câu hỏi-trả lời, diễn đàn, các cộng đồng Internet khác nhau (mạng xã hội), e-mail, trò chuyện. Tất cả những cách thu thập thông tin này đều có điểm chung là những người khác (chứ không phải các chương trình) trả lời câu hỏi của bạn. Hệ thống hỏi đáp: Thư trả lời. ru (http: // answer. mail. ru), Google Hỏi và Đáp (http: // answer. google. ru), Znatok. ru (http: //znatok.ru)

Các công cụ và phương pháp tìm kiếm bổ sung Trang trình bày số 37 Các phương pháp này bổ sung vì: n chúng không phổ biến (chúng tích lũy địa chỉ với khối lượng không đủ hoặc theo hướng hẹp); n không có đảm bảo chính xác về việc nhận được câu trả lời cho một câu hỏi (câu hỏi có thể đơn giản là bỏ qua), đôi khi có thể mất nhiều thời gian để có được câu trả lời trong những hệ thống như vậy. Ưu điểm chính của việc sử dụng các phương pháp tìm kiếm bổ sung là độ chính xác cao của thông tin thu được.

Khuyến nghị cho việc tìm kiếm thông tin Trang trình bày số 40 Đảm bảo rằng từ (cụm từ) của truy vấn được viết đúng chính tả. Yêu cầu của bạn có thể được sửa chữa nếu từ mà bạn đã mắc lỗi thường được sử dụng. Các từ hoặc cụm từ hiếm có thể không được tìm thấy. Khi tìm kiếm thông tin bằng công cụ tìm kiếm, bạn nên biết rằng các hệ thống thường phản hồi bất kỳ yêu cầu nào của người dùng (do khối lượng lớn của Internet) (ví dụ: yêu cầu asgr vkt 5, thoạt nhìn, là một tập hợp vô nghĩa của các ký tự, công cụ tìm kiếm Yandex đã tìm thấy 12 trang web có cụm từ này xuất hiện). Hãy cẩn thận.

Đề xuất cho việc tìm kiếm thông tin Trang trình bày № 41 Chỉ định yêu cầu. Cụm từ truy vấn càng chính xác thì khả năng nhanh chóng tìm thấy thông tin bạn cần càng cao, ví dụ: kết quả tìm kiếm bài thơ của Yesenin và bài thơ của Yesenin những năm đầu sẽ khác nhau. Sử dụng từ đồng nghĩa. Nếu truy vấn của bạn không tìm thấy thông tin bạn cần, hãy thử tinh chỉnh truy vấn của bạn bằng cách thay thế từ đó bằng từ đồng nghĩa của nó, chẳng hạn như RAM hoặc RAM hoặc RAM. Các từ và cụm từ khác nhau tạo ra các kết quả khác nhau. Sử dụng các từ có thể được sử dụng trên các trang web bạn đang tìm kiếm.

Khuyến nghị cho việc tìm kiếm thông tin Trang trình bày số 42 Khi soạn thảo một yêu cầu, luôn cần phải hình dung về nội dung dự định của tài liệu. Ví dụ, nếu bạn cần tìm thông tin về A. S. Pushkin, thì chỉ nêu họ của anh ấy trong yêu cầu thôi là chưa đủ (danh sách kết quả sẽ bao gồm nhiều cơ sở khác nhau nằm trên các đường phố Pushkin ở các thành phố khác nhau). Việc tra cứu sẽ mang lại hiệu quả cao hơn nếu thêm tên các tác phẩm của nhà thơ vào phần họ. Để tìm kiếm văn bản của các tác phẩm, bạn nên nhập các dòng riêng biệt từ chúng (tốt nhất là hiếm khi được sử dụng trong các trích dẫn).

Khuyến nghị cho việc tìm kiếm thông tin Trang trình bày số 43 Không nhập truy vấn vào công cụ tìm kiếm ở dạng thông tục. Vì vậy, theo yêu cầu Thời tiết bây giờ ở Nizhny Novgorod là gì? tài liệu sẽ được tìm thấy bao gồm tất cả các từ của truy vấn, cụ thể là các văn bản có chứa câu hỏi này (ví dụ: văn bản của các tác phẩm văn học). Trong trường hợp này, sẽ hiệu quả hơn nếu nhập một yêu cầu về thời tiết ở Nizhny Novgorod, trong mười liên kết đầu tiên của câu trả lời sẽ có thông tin bắt buộc. Cố gắng chỉ viết các từ truy vấn bằng chữ nhỏ - có thể tìm thấy các tài liệu bổ sung cho truy vấn như vậy.

Mẹo Tìm kiếm Thông tin Trang trình bày # 44 Tìm kiếm các tài liệu tương tự. Nếu một trong những tài liệu tìm được gần với chủ đề bạn đang tìm hơn những tài liệu còn lại, hãy nhấp vào liên kết "tìm tài liệu tương tự". Công cụ tìm kiếm sẽ phân tích cú pháp trang và tìm các tài liệu tương tự như tài liệu bạn đã chỉ định. Nhưng nếu trang này đã bị xóa khỏi máy chủ, và công cụ tìm kiếm vẫn chưa có thời gian để xóa nó khỏi chỉ mục, thì bạn sẽ nhận được thông báo "Không tìm thấy tài liệu được yêu cầu".

Các gợi ý cho việc tìm kiếm thông tin Trang trình bày số 45 Sử dụng các dấu "+" và "-". Để loại trừ các tài liệu có một từ nhất định xuất hiện, hãy đặt trước nó bằng dấu trừ. Ngược lại, để đảm bảo rằng một từ nhất định có trong tài liệu, hãy đặt dấu cộng trước từ đó. Lưu ý rằng không được có khoảng trắng giữa từ và dấu cộng / trừ. Bạn cũng có thể sử dụng các lệnh đặc biệt khác để tinh chỉnh truy vấn. Bạn có thể tìm thấy danh sách chúng trong phần trợ giúp hệ thống, thường là trên trang "Ngôn ngữ truy vấn".

Mẹo Tìm kiếm Thông tin Trang trình bày # 46 Tìm kiếm các cụm từ chính xác. Nếu bạn biết chính xác cụm từ sẽ xuất hiện trên trang kết quả, hãy chỉ định cụm từ đó trong yêu cầu, đặt nó trong dấu ngoặc kép. Ví dụ: "Phạm vi rộng cho ước mơ và cho cuộc sống Những năm sắp tới mở ra cho chúng ta" Sử dụng các công cụ tìm kiếm trong khu vực. Để có thông tin đầy đủ hơn bằng một ngôn ngữ khác ngoài tiếng Anh, bạn có thể sử dụng các hệ thống khu vực hoạt động với ngôn ngữ này. Ở nhiều quốc gia, các hệ thống khu vực có nhiều loại tài nguyên. Công cụ tìm kiếm lớn nhất ở Nga là Yandex (http: //www.yandex.ru).

Khuyến nghị cho việc tìm kiếm thông tin Slide số 47 Sử dụng các công cụ tìm kiếm chuyên dụng. Nếu bạn đang tìm kiếm hình ảnh, video, sản phẩm, bản đồ và một số thông tin khác, thì bạn có thể tìm thấy tất cả thông tin này nhanh hơn bằng cách sử dụng các công cụ tìm kiếm chuyên dụng được thiết kế cho những mục đích này. Nhiều công cụ tìm kiếm có mục đích chung có các giao diện đặc biệt để tìm kiếm các loại thông tin này (xem mô tả về các hệ thống cụ thể). Yêu cầu tìm kiếm trong trường hợp này có thể như sau: tìm kiếm hình ảnh.

Khuyến nghị tìm kiếm thông tin Trang trình bày số 48 Nếu nguồn thông tin là một tổ chức, thì hãy thử tìm kiếm thông tin trên trang web của tổ chức này. Các công cụ tìm kiếm có thể không nhận thức được tất cả các thông tin được lưu trữ trên các trang Internet. Vào trang web của tổ chức mà thông tin này đến, có lẽ sẽ có thông tin chi tiết về nó. Các trang web có công cụ tìm kiếm địa phương (tìm kiếm cụ thể cho trang web này) hoặc bạn có thể cố gắng tìm thông tin bạn cần bằng cách điều hướng qua các phần của trang web. Ví dụ: nếu bạn đã nghe một chương trình phát sóng trên đài phát thanh và biết tên của đài phát thanh này. Tra cứu thông tin về chương trình này trên trang web chính thức của đài này.

Mẹo Tìm kiếm Thông tin Trang trình bày # 49 Yêu cầu người khác trợ giúp tìm kiếm thông tin. Có những hệ thống đặc biệt trên Internet (ví dụ, hệ thống câu hỏi-trả lời) trong đó một số người dùng có thể giúp những người khác trong việc tìm kiếm thông tin. Có thể mọi người đã quan tâm đến câu hỏi giống như bạn và biết câu trả lời chính xác.

Các phương pháp tìm kiếm trên Internet

Ba cách để tìm kiếm trên Internet

Internet nói chung và World Wide Web nói riêng cung cấp cho người đăng ký quyền truy cập vào hàng nghìn máy chủ và hàng triệu trang web lưu trữ một lượng thông tin không thể tưởng tượng được. Làm sao để không bị lạc trong “đại dương thông tin” này? Để làm được điều này, bạn cần học cách tra cứu và tìm kiếm thông tin cần thiết trên mạng.

Như đã đề cập, có ba cách chính để tìm kiếm thông tin trên Internet.

1. Chỉ định địa chỉ trang.Đây là cách nhanh nhất để tìm kiếm, nhưng nó chỉ có thể được sử dụng nếu địa chỉ của tài liệu được biết chính xác.

2. Điều hướng thông qua các siêu liên kết.Đây là phương pháp kém tiện lợi nhất, vì nó có thể được sử dụng để tìm kiếm các tài liệu chỉ gần nghĩa với tài liệu hiện tại. Nếu tài liệu hiện tại được dành riêng cho, ví dụ, âm nhạc, thì việc sử dụng các siêu liên kết của tài liệu này, sẽ khó có thể truy cập trang web dành riêng cho thể thao.

3. Liên hệ với máy chủ tìm kiếm (công cụ tìm kiếm). Sử dụng công cụ tìm kiếm là cách thuận tiện nhất để tìm kiếm thông tin. Hiện tại, các máy chủ tìm kiếm sau đây phổ biến ở phần nói tiếng Nga của Internet:

Yandex;
Rambler;
Aport.

Có những công cụ tìm kiếm khác là tốt. Ví dụ, một hệ thống tìm kiếm hiệu quả được triển khai trên máy chủ dịch vụ thư mail.ru.

Máy chủ tìm kiếm

Cách dễ tiếp cận và thuận tiện nhất để tìm kiếm thông tin trên World Wide Web là sử dụng các công cụ tìm kiếm. Đồng thời, thông tin có thể được tìm kiếm theo danh mục, cũng như tập hợp các từ khóa đặc trưng cho tài liệu văn bản được tìm kiếm.

Xem xét việc sử dụng máy chủ tìm kiếm chi tiết hơn. máy chủ tìm kiếm chứa một số lượng lớn các liên kết đến nhiều loại tài liệu và tất cả các liên kết này đều được hệ thống hóa trong các thư mục chuyên đề. Ví dụ: thể thao, phim, ô tô, trò chơi, khoa học,… Hơn nữa, các liên kết này được máy chủ đặt độc lập, tự động bằng cách thường xuyên xem tất cả các trang web xuất hiện trên World Wide Web. Ngoài ra, máy chủ tìm kiếm cung cấp cho người dùng khả năng tìm kiếm thông tin theo từ khóa. Sau khi nhập từ khóa, máy chủ tìm kiếm bắt đầu duyệt các tài liệu trên các máy chủ Web khác và hiển thị các liên kết đến các tài liệu đó trong đó các từ được chỉ định được tìm thấy. Thông thường, kết quả tìm kiếm được sắp xếp theo thứ tự giảm dần theo xếp hạng tài liệu đặc biệt cho biết mức độ phù hợp của một tài liệu nhất định với tiêu chí tìm kiếm hoặc tần suất nó được yêu cầu trên web.



Ngôn ngữ truy vấn của công cụ tìm kiếm

Một nhóm từ khóa, được hình thành theo các quy tắc nhất định - sử dụng ngôn ngữ truy vấn, được gọi là yêu cầu đối với máy chủ tìm kiếm. Các ngôn ngữ truy vấn cho các công cụ tìm kiếm khác nhau rất giống nhau. Bạn có thể tìm hiểu thêm về điều này bằng cách truy cập phần "Trợ giúp" của máy chủ tìm kiếm mong muốn. Hãy xem xét các quy tắc tạo truy vấn bằng công cụ tìm kiếm Yandex làm ví dụ.

Cú pháp toán tử Toán tử nghĩa là gì Yêu cầu ví dụ
không gian hoặc & Logic AND (trong câu) vật lý trị liệu
&& Logic AND (trong tài liệu) công thức nấu ăn && (pho mát chế biến)
| Lôgic HOẶC hình ảnh | nhiếp ảnh | ảnh chụp nhanh | hình ảnh
+ Sự hiện diện bắt buộc của từ trong tài liệu tìm thấy + trở thành hoặc + không
() Nhóm các từ (công nghệ | sản xuất) (pho mát | pho mát nhỏ)
~ Toán tử nhị phân VÀ KHÔNG (trong một câu) ngân hàng ~ luật
~~ hoặc _ Toán tử nhị phân VÀ KHÔNG (trong tài liệu) Hướng dẫn du lịch Paris ~~ (đại lý | tour)
/ (nm) Khoảng cách bằng chữ (trừ (-) - lùi, cộng (+) - tiến) nhà cung cấp / 2 cà phê ca nhạc / (- 2 4) vị trí tuyển dụng giáo dục ~ / + 1 sinh viên
" " Tìm kiếm theo cụm từ "mũ trùm đầu nhỏ màu đỏ" Tương đương: mũ trùm đầu màu đỏ / +1
&& / (nm) Khoảng cách trong câu (trừ (-) - lùi, cộng (+) - tiến) ngân hàng && / 1 thuế

Để có được kết quả tìm kiếm tốt nhất, bạn cần nhớ một số quy tắc đơn giản:

1. Không tìm kiếm thông tin chỉ trên một từ khóa.

2. Tốt nhất không nên nhập các từ khóa bằng chữ in hoa, vì điều này có thể dẫn đến việc không tìm thấy các từ giống nhau được viết bằng chữ thường.

3. Nếu tìm kiếm của bạn không trả lại bất kỳ kết quả nào, hãy kiểm tra lỗi chính tả trong từ khóa của bạn.

Các công cụ tìm kiếm hiện đại cung cấp khả năng kết nối với yêu cầu được tạo ra của bộ phân tích ngữ nghĩa. Với sự trợ giúp của nó, bạn có thể, bằng cách nhập một từ, chọn tài liệu trong đó có các dẫn xuất của từ này trong các trường hợp, thì, v.v.

Công nghệ thông tin truy xuất thông tin

Tìm kiếm thông tin: các khái niệm cơ bản, các loại và hình thức tổ chức

Tìm kiếm thông tin hoặc truy xuất thông tin là một trong những quá trình thông tin chính. Nhân loại đã làm điều đó từ thời cổ đại. Mục tiêu, khả năng và bản chất của tìm kiếm luôn phụ thuộc vào tính sẵn có, thông tin, tầm quan trọng và khả năng tiếp cận của nó, cũng như các phương tiện tổ chức tìm kiếm.

Cuối thế kỷ 20 - đầu thế kỷ 21 được đặc trưng bởi một mảng khổng lồ thông tin đa dạng không ngừng phát triển, có thể tiếp cận và quan tâm đến các tầng lớp rộng lớn nhất trong xã hội. Hơn nữa, công nghệ Internet và các công cụ phần mềm và phần cứng, cũng có sẵn cho hầu hết mọi người, cho phép quá trình này được thực hiện bất kỳ lúc nào, hầu như ở bất kỳ đâu, cho bất kỳ yêu cầu nào.

Tìm kiếm- một quá trình trong đó, theo trình tự này hay trình tự khác, việc tìm kiếm có tương quan với từng đối tượng được lưu trữ trong mảng. Mục đích của bất kỳ hoạt động tìm kiếm nào là nhu cầu, sự cần thiết hoặc mong muốn tìm kiếm các loại thông tin khác nhau giúp người tìm kiếm có được thông tin, kiến ​​thức, v.v. mà anh ta cần. để nâng cao trình độ chuyên môn, văn hóa và bất kỳ trình độ nào khác của họ; tạo ra thông tin mới và hình thành kiến ​​thức mới; đưa ra các quyết định của người quản lý, v.v.

Theo các chuyên gia, có từ 30 triệu người dùng trở lên trên Internet. Trong số này, hàng chục nghìn người đang trực tuyến (tiếng Anh là "on-line" - truy cập tương tác bất cứ lúc nào) và số lượng người dùng như vậy không ngừng tăng lên. Điều này gây khó khăn cho việc tổ chức tìm kiếm hoạt động và tìm kiếm thông tin cần thiết cho một số lượng lớn người dùng như vậy. Các vấn đề nảy sinh do các khả năng (loại) truy xuất thông tin khác nhau, các cách triển khai khác nhau của chúng trong hệ thống truy xuất thông tin (IPS), mức độ hiểu biết khác nhau của người dùng về khả năng của các hệ thống đó, đặc biệt là trong lĩnh vực tạo truy vấn và xử lý dữ liệu thu được như kết quả của việc thực hiện các truy vấn này và v.v.

Giả định rằng trong tương lai IS sẽ được tạo ra có thể tự động thích ứng với mức độ hiểu biết và yêu cầu của những người dùng cụ thể, nhận thức các yêu cầu bằng ngôn ngữ tự nhiên và sử dụng trí thông minh nhân tạo để cung cấp cho họ thông tin phù hợp và cần thiết. Việc tạo ra IPS như vậy sẽ đòi hỏi trí tuệ và kiến ​​thức của những người sử dụng IPS cụ thể hoặc những người trung gian của họ. Trong khi đó, nhiều người sử dụng các công cụ tìm kiếm được yêu cầu phải có trình độ khá tốt về lĩnh vực chủ đề này.

Có nhiều cách hiểu khác nhau về thuật ngữ "tìm kiếm thông tin" hoặc "tìm kiếm thông tin".

Thuật ngữ " truy xuất thông tin"(Tiếng Anh là" truy xuất thông tin ") được giới thiệu bởi nhà toán học người Mỹ K. Muers. Ông nhận thấy rằng động cơ của một cuộc tìm kiếm như vậy là nhu cầu thông tin, được thể hiện dưới dạng một yêu cầu thông tin. K. Muers đã phân loại các tài liệu, thông tin về sự hiện diện và (hoặc) vị trí của chúng, và thông tin thực tế làm đối tượng truy xuất thông tin.

Đại diện của các thư viện là những người đầu tiên giải quyết các vấn đề của việc tìm kiếm nhân vật học. Họ đã phát triển các công cụ truy xuất thông tin được gọi là " bộ máy tham khảo và tìm kiếm"(danh mục, chỉ mục thư mục, v.v.). Trong báo chí chuyên nghiệp trong nước, thuật ngữ này đã được sử dụng từ những năm 1970. Các thủ thư xác định" truy xuất thông tin "như trong thông tin mảng tài liệu tương ứng yêu cầu thông tin của người dùng.

Theo quan điểm của việc sử dụng công nghệ máy tính " truy xuất thông tin "- một tập hợp các thao tác logic và kỹ thuật với mục tiêu cuối cùng là tìm kiếm các tài liệu, thông tin về chúng, sự kiện, dữ liệu có liên quan đến yêu cầu của người tiêu dùng.

"Sự liên quan"- được cài đặt tại truy xuất thông tin tuân thủ nội dung của tài liệu yêu cầu thông tin hoặc hình ảnh tìm kiếm của tài liệu vào toa tìm kiếm.

Cũng có những định nghĩa khác. Trong mọi trường hợp, việc truy xuất thông tin là do nhu cầu thỏa mãn nhu cầu thông tin của người dùng mong muốn nhanh chóng có được dữ liệu hoặc thông tin họ cần với sự trợ giúp của các công cụ tìm kiếm. Đây là một phương pháp tìm kiếm có mục tiêu và truy xuất các tài liệu và / hoặc dữ kiện có liên quan từ nhiều nguồn thông tin khác nhau, chẳng hạn như cơ sở dữ liệu hoặc thiết bị lưu trữ. Đây là những vật thể sống và không sống đại diện cho nhiều nguồn và vật mang thông tin khác nhau.

Các hệ thống cung cấp việc thực hiện truy xuất thông tin như vậy được gọi là công cụ tìm kiếm(Tái bút). Trong các công nghệ truyền thống, PS đại diện cho các tủ tài liệu và danh mục, địa chỉ và các thư mục khác, chỉ mục, bách khoa toàn thư, bộ máy tham chiếu cho các ấn phẩm và các tài liệu khác.

Vào năm 1945, nhà khoa học và kỹ sư người Mỹ W. Bush, trong bài báo "Cơ chế khả thi của tư duy chúng ta", lần đầu tiên đưa ra một cách rộng rãi câu hỏi về sự cần thiết phải cơ giới hóa việc truy xuất thông tin. Từ những năm 1960, các công cụ tìm kiếm tự động đã xuất hiện làm việc với thông tin. Kể từ thời kỳ này, công việc chuyên sâu đã được thực hiện trong lĩnh vực hình thành và thực hiện các nguyên tắc và phương pháp truy xuất thông tin.

"Công cụ tìm kiếm"thực hiện tìm kiếm giữa các tài liệu của cơ sở dữ liệu hoặc các mảng khác của dữ liệu mà máy có thể đọc được có chứa các từ đã cho.

PS điện tử sử dụng thiết bị đầu cuối thông thường hoặc thông minh (PC) cho phép người dùng thực hiện các truy vấn tìm kiếm bằng cách sử dụng các yếu tố chính thức và mô tả nội dung và sử dụng các toán tử logic đặc biệt; thực hiện tìm kiếm giữa các tài liệu của cơ sở dữ liệu hoặc các mảng dữ liệu mà máy có thể đọc được chứa các từ được chỉ định. Công cụ tìm kiếm chỉ cho phép các thủ tục tìm kiếm và các quy trình liên quan.

Đang tải...
Đứng đầu