Các phương pháp tìm kiếm thông tin hiện đại. Kết quả là, một danh sách các nguồn thông tin được hình thành. Bước này cho phép bạn tạo một hệ thống thông tin cá nhân nhằm giải quyết một vấn đề tìm kiếm cụ thể. Bản chất của phương pháp này là áp dụng

1. Giới thiệu

Mỗi năm, khối lượng Internet tăng lên gấp nhiều lần, do đó xác suất tìm thấy thông tin cần thiết cũng tăng đột biến. Internet kết nối hàng triệu máy tính, nhiều mạng khác nhau, số lượng người sử dụng đang tăng 15-80% hàng năm. Và, tuy nhiên, ngày càng thường xuyên truy cập Internet, vấn đề chính không phải là thiếu thông tin cần thiết, mà là khả năng tìm thấy thông tin đó. Theo quy luật, một người bình thường, do nhiều hoàn cảnh khác nhau, không thể hoặc không muốn dành hơn 15-20 phút để tìm kiếm câu trả lời mà mình cần. Do đó, điều đặc biệt quan trọng là phải học một cách chính xác và thành thạo một điều tưởng chừng như đơn giản - xem ở đâu và như thế nào để có được câu trả lời MONG MUỐN.

Để tìm thông tin bạn cần, bạn cần tìm địa chỉ của nó. Đối với điều này, có các máy chủ tìm kiếm chuyên biệt (rô bốt chỉ mục (công cụ tìm kiếm), thư mục Internet theo chủ đề, hệ thống tìm kiếm meta, dịch vụ tìm kiếm người, v.v.). Lớp tổng thể này tiết lộ các công nghệ chính để tìm kiếm thông tin trên Internet, cung cấp các tính năng chung của các công cụ tìm kiếm, kiểm tra cấu trúc của các truy vấn tìm kiếm cho các công cụ tìm kiếm bằng tiếng Nga và tiếng Anh phổ biến nhất.

2. Công nghệ tìm kiếm

Công nghệ web World Wide Web (WWW) được coi là một công nghệ đặc biệt để chuẩn bị và sắp xếp các tài liệu trên Internet. WWW bao gồm các trang web, thư viện điện tử, danh mục và thậm chí cả bảo tàng ảo! Với lượng thông tin dồi dào như vậy, câu hỏi đặt ra gay gắt: "Làm thế nào để điều hướng trong một không gian thông tin khổng lồ và quy mô lớn như vậy?"
Các công cụ tìm kiếm đến để giải quyết vấn đề này.

2.1 Công cụ tìm kiếm

Công cụ tìm kiếm là phần mềm đặc biệt, mục đích chính là cung cấp khả năng tìm kiếm thông tin chất lượng cao và tối ưu nhất cho người sử dụng Internet. Các công cụ tìm kiếm được lưu trữ trên các máy chủ web đặc biệt, mỗi máy chủ thực hiện một chức năng cụ thể:

  1. Phân tích các trang web và nhập kết quả phân tích vào một hoặc một cấp độ khác của cơ sở dữ liệu máy chủ tìm kiếm.
  2. Tìm kiếm thông tin theo yêu cầu của người dùng.
  3. Cung cấp giao diện thân thiện với người dùng để người dùng tìm kiếm thông tin và xem kết quả tìm kiếm.

Các phương pháp làm việc được sử dụng khi làm việc với các công cụ tìm kiếm này hoặc các công cụ tìm kiếm khác gần như giống nhau. Trước khi tiếp tục thảo luận về chúng, hãy xem xét các khái niệm sau:

  1. Giao diện công cụ tìm kiếm được trình bày dưới dạng một trang với các siêu liên kết, một chuỗi truy vấn (chuỗi tìm kiếm) và các công cụ kích hoạt truy vấn.
  2. Chỉ mục của công cụ tìm kiếm là một cơ sở thông tin chứa kết quả phân tích các trang web, được biên soạn theo các quy tắc nhất định.
  3. Truy vấn là một từ khóa hoặc cụm từ mà người dùng nhập vào thanh tìm kiếm. Các ký tự đặc biệt ("", ~), các ký hiệu toán học (*, +,?) Được sử dụng để tạo thành các truy vấn khác nhau.

Đề án tìm kiếm thông tin trên Internet rất đơn giản. Người dùng nhập một cụm từ khóa và kích hoạt tìm kiếm, do đó nhận được lựa chọn tài liệu theo yêu cầu đã lập (cho sẵn). Danh sách tài liệu này được xếp hạng theo các tiêu chí nhất định để ở đầu danh sách là những tài liệu phù hợp nhất với truy vấn của người dùng. Mỗi công cụ tìm kiếm sử dụng các tiêu chí khác nhau để xếp hạng tài liệu, cả trong phân tích kết quả tìm kiếm và hình thành chỉ mục (điền vào cơ sở dữ liệu chỉ mục của các trang web).

Do đó, nếu bạn chỉ định một truy vấn có cùng thiết kế trong chuỗi tìm kiếm cho mỗi công cụ tìm kiếm, bạn có thể nhận được các kết quả tìm kiếm khác nhau. Đối với người dùng, điều quan trọng là tài liệu nào sẽ xuất hiện trong hai hoặc ba tá tài liệu đầu tiên theo kết quả tìm kiếm và những tài liệu này tương ứng với mong đợi của người dùng ở mức độ nào.

Hầu hết các công cụ tìm kiếm cung cấp hai cách để tìm kiếm - tìm kiếm đơn giản(tìm kiếm đơn giản) và tìm kiếm nâng cao(tìm kiếm nâng cao) có và không có biểu mẫu yêu cầu đặc biệt. Hãy xem xét cả hai loại tìm kiếm trên ví dụ về công cụ tìm kiếm bằng tiếng Anh.

Ví dụ: AltaVista hữu ích cho các truy vấn tùy ý, "Đôi điều về bằng cấp trực tuyến trong công nghệ thông tin", trong khi công cụ tìm kiếm Yahoo cho phép bạn nhận tin tức thế giới, thông tin tỷ giá hối đoái hoặc dự báo thời tiết.

Nắm vững các tiêu chí để tinh chỉnh truy vấn và các kỹ thuật tìm kiếm nâng cao cho phép bạn tăng hiệu quả tìm kiếm và nhanh chóng tìm thấy thông tin cần thiết. Trước hết, bạn có thể tăng hiệu quả tìm kiếm bằng cách sử dụng các toán tử logic (phép toán) Hoặc, Và, Gần, Không, các ký hiệu toán học và đặc biệt trong các truy vấn. Với sự trợ giúp của toán tử và / hoặc ký hiệu, người dùng liên kết các từ khóa theo trình tự mong muốn để có được kết quả tìm kiếm thích hợp nhất cho truy vấn. Các biểu mẫu yêu cầu được thể hiện trong Bảng 1.

Bảng 1

Một truy vấn đơn giản cung cấp một số liên kết đến tài liệu, bởi vì danh sách bao gồm các tài liệu có chứa một trong các từ được nhập theo yêu cầu hoặc một cụm từ đơn giản (xem bảng 1). Toán tử and cho phép bạn chỉ định rằng tất cả các từ khóa nên được đưa vào nội dung tài liệu. Tuy nhiên, số lượng tài liệu có thể vẫn còn nhiều và có thể mất nhiều thời gian để xem xét chúng. Do đó, trong một số trường hợp, việc sử dụng toán tử ngữ cảnh gần sẽ thuận tiện hơn nhiều, điều này chỉ ra rằng các từ phải được đặt trong tài liệu ở khoảng cách vừa đủ. Sử dụng gần làm giảm đáng kể số lượng tài liệu được tìm thấy. Sự hiện diện của ký hiệu "*" trong chuỗi truy vấn có nghĩa là từ đó sẽ được tìm kiếm bằng mặt nạ của nó. Ví dụ, chúng ta hãy lấy một danh sách các tài liệu có chứa các từ bắt đầu bằng "gov" nếu chúng ta viết "gov *" trong chuỗi truy vấn. Đây có thể là những từ chính phủ, thống đốc, v.v.

Công cụ tìm kiếm phổ biến không kém Rambler duy trì thống kê về lưu lượng liên kết từ cơ sở dữ liệu của riêng nó, cùng các toán tử logic VÀ, HOẶC, KHÔNG, ký tự siêu * (tương tự như ký tự * trong AltaVista mở rộng phạm vi truy vấn), ký hiệu hệ số + và - là được hỗ trợ để tăng hoặc giảm các từ quan trọng được nhập vào truy vấn.

Chúng ta hãy xem xét các công nghệ tìm kiếm thông tin phổ biến nhất trên Internet.

2.2 Công cụ tìm kiếm

Công cụ tìm kiếm web là máy chủ có cơ sở dữ liệu khổng lồ gồm các URL tự động truy cập các trang WWW tại tất cả các địa chỉ này, kiểm tra nội dung của các trang này, hình thành và viết từ khóa từ các trang vào cơ sở dữ liệu của chúng (các trang chỉ mục).

Hơn nữa, rô bốt công cụ tìm kiếm theo các liên kết mà chúng gặp trên các trang và lập chỉ mục lại chúng. Vì hầu như bất kỳ trang WWW nào cũng có nhiều liên kết đến các trang khác, với công việc như vậy, công cụ tìm kiếm về mặt lý thuyết có thể bỏ qua tất cả các trang trên Internet.

Đây là loại công cụ tìm kiếm nổi tiếng và phổ biến nhất đối với tất cả người dùng Internet. Mọi người đều biết tên của các công cụ tìm kiếm web (search engine) nổi tiếng - Yandex, Rambler, Aport.

Để sử dụng loại công cụ tìm kiếm này, bạn cần vào nó và gõ vào thanh tìm kiếm từ khóa mà bạn quan tâm. Tiếp theo, bạn sẽ nhận được kết quả từ các liên kết được lưu trữ trong cơ sở dữ liệu của công cụ tìm kiếm gần nhất với truy vấn của bạn. Để tìm kiếm hiệu quả nhất, hãy chú ý trước những điểm sau:

  • quyết định về chủ đề của yêu cầu. Chính xác thì bạn đang tìm kiếm điều gì?
  • chú ý đến ngôn ngữ, ngữ pháp, cách sử dụng các ký tự không phải bảng chữ cái, hình thái học. Điều quan trọng là phải xây dựng và nhập chính xác các từ khóa. Mỗi công cụ tìm kiếm có hình thức yêu cầu riêng - nguyên tắc giống nhau, nhưng các ký hiệu hoặc toán tử được sử dụng có thể khác nhau. Các biểu mẫu yêu cầu bắt buộc cũng khác nhau tùy thuộc vào mức độ phức tạp của phần mềm công cụ tìm kiếm và các dịch vụ mà chúng cung cấp. Bằng cách này hay cách khác, mỗi công cụ tìm kiếm có một phần "Trợ giúp" ("Help"), nơi tất cả các quy tắc cú pháp, cũng như các khuyến nghị và mẹo để tìm kiếm, được giải thích theo cách dễ tiếp cận (ảnh chụp màn hình của các trang công cụ tìm kiếm).
  • sử dụng khả năng của các công cụ tìm kiếm khác nhau. Nếu bạn không thể tìm thấy nó trên Yandex, hãy thử Google. Sử dụng các dịch vụ tìm kiếm nâng cao.
  • để loại trừ các tài liệu có chứa một số thuật ngữ nhất định, hãy sử dụng dấu "-" trước mỗi từ như vậy. Ví dụ: nếu bạn muốn biết thông tin về các tác phẩm của Shakespeare, ngoại trừ "Hamlet", hãy nhập truy vấn dưới dạng: "Shakespeare-Hamlet". Và ngược lại, để đưa các liên kết nhất định vào kết quả tìm kiếm, hãy sử dụng ký hiệu "+". Vì vậy, để tìm các liên kết về việc bán ô tô cụ thể, bạn cần truy vấn "bán + ô tô". Để tăng hiệu quả và độ chính xác của tìm kiếm, hãy sử dụng kết hợp các ký hiệu này.
  • mỗi liên kết trong danh sách kết quả tìm kiếm chứa - một số dòng từ tài liệu được tìm thấy, trong số đó có các từ khóa của bạn. Trước khi nhấp vào liên kết, hãy đánh giá mức độ liên quan của đoạn trích với chủ đề của yêu cầu. Sau khi nhấp vào liên kết đến một trang web cụ thể, hãy cẩn thận xem xét xung quanh trang chính. Theo quy định, trang đầu tiên đủ để hiểu bạn đã đến địa chỉ hay chưa. Nếu có, sau đó tiến hành tìm kiếm thêm thông tin cần thiết trên trang web đã chọn (trong các phần của trang web), nếu không, hãy quay lại kết quả tìm kiếm và thử liên kết tiếp theo.
  • hãy nhớ rằng các công cụ tìm kiếm không tạo ra thông tin độc lập (ngoại trừ những giải thích về chính chúng). Công cụ tìm kiếm chỉ là trung gian giữa chủ sở hữu thông tin (trang web) và bạn. Cơ sở dữ liệu được cập nhật liên tục, các địa chỉ mới được nhập vào chúng, nhưng khoảng cách so với thông tin thực sự tồn tại trên thế giới vẫn còn. Đơn giản vì các công cụ tìm kiếm không hoạt động với tốc độ ánh sáng.

Các công cụ tìm kiếm web nổi tiếng nhất bao gồm Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Trong số những người nói tiếng Nga, người ta có thể chọn ra Yandex, Rambler, Aport.

Công cụ tìm kiếm là công cụ lớn nhất và có giá trị nhất, nhưng không phải là nguồn thông tin duy nhất trên Web, bởi vì ngoài chúng ra còn có những cách khác để tìm kiếm trên Internet.

2.3 Thư mục

Danh mục tài nguyên Internet là một danh mục phân cấp được cập nhật và bổ sung liên tục chứa nhiều danh mục và các máy chủ web riêng lẻ với mô tả ngắn gọn về nội dung của chúng. Phương pháp tìm kiếm danh mục ngụ ý “chuyển xuống từng bước”, tức là chuyển từ các danh mục chung hơn sang nhiều hơn những cái cụ thể. Một trong những lợi thế của thư mục chuyên đề là những giải thích cho các liên kết được đưa ra bởi những người tạo ra thư mục và phản ánh đầy đủ nội dung của nó, tức là, nó mang lại cho bạn cơ hội để xác định chính xác hơn nội dung của máy chủ tương ứng với mục đích như thế nào. tìm kiếm của bạn.

Một ví dụ về danh mục chuyên đề tiếng Nga là tài nguyên http://www.ulitka.ru/.

Trên trang chính của trang web này có một bảng đánh giá chuyên đề,

với sự trợ giúp mà người dùng nhập bảng đánh giá với các liên kết đến các sản phẩm mà anh ta quan tâm.

Ngoài ra, một số thư mục chủ đề cho phép bạn tìm kiếm theo từ khóa. Người dùng nhập từ khóa mong muốn vào thanh tìm kiếm

và nhận được một danh sách các liên kết với mô tả về các trang web phù hợp nhất với yêu cầu của anh ấy. Cần lưu ý rằng việc tìm kiếm này không diễn ra trong nội dung của các máy chủ WWW, mà trong các mô tả ngắn gọn của chúng được lưu trữ trong thư mục.

Trong ví dụ của chúng tôi, thư mục cũng có khả năng sắp xếp các trang web theo số lượt truy cập, theo thứ tự bảng chữ cái, theo ngày vào.

Các ví dụ khác về thư mục tiếng Nga:
[email protected]
Danh sách web
Vsego.ru
Trong số các thư mục bằng tiếng Anh có:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 Tập hợp các liên kết

Bộ sưu tập liên kết là các liên kết được sắp xếp theo chủ đề. Chúng khá khác nhau về nội dung, vì vậy để tìm được lựa chọn phù hợp nhất với sở thích của mình, bạn cần phải tự mình tìm hiểu chúng để hình thành ý kiến ​​của riêng mình.

Ví dụ, chúng tôi sẽ đưa ra một lựa chọn các liên kết "Kho báu của Internet" Công ty cổ phần "Relcom"

Người dùng, bằng cách nhấp vào bất kỳ phần nào mà anh ta quan tâm

  • CÁC NỘI DUNG

    Đối với người lái xe

    • Thiên văn học và chiêm tinh học
    • Nhà của bạn
    • Vật nuôi của bạn
    • Trẻ em là bông hoa của cuộc sống
    • Thời gian rảnh rỗi
    • Các thành phố trên Internet
    • Sức khỏe và y học
    • Cơ quan thông tin và dịch vụ
    • Bảo tàng truyền thuyết địa phương, v.v.,
    • Điện tử ô tô.
    • Bảo tàng ô tô cổ.
    • Ban Bảo vệ Hợp pháp Chủ sở hữu Xe ô tô.
    • thể thao.

    Ưu điểm của loại công cụ tìm kiếm này là trọng tâm của chúng, thông thường lựa chọn bao gồm các tài nguyên Internet hiếm, được lựa chọn bởi một quản trị viên web cụ thể hoặc chủ sở hữu của một trang web.

    2.5 Cơ sở dữ liệu địa chỉ

    Cơ sở dữ liệu địa chỉ là các máy chủ tìm kiếm đặc biệt thường sử dụng phân loại theo loại hoạt động, sản phẩm và dịch vụ được cung cấp và theo địa lý. Đôi khi chúng được bổ sung bằng cách tìm kiếm theo thứ tự bảng chữ cái. Bản ghi cơ sở dữ liệu lưu trữ thông tin về các trang web cung cấp thông tin về địa chỉ e-mail, tổ chức và địa chỉ bưu điện có tính phí.

    Cơ sở dữ liệu địa chỉ bằng tiếng Anh lớn nhất có thể được gọi là: http://www.lookup.com/ -

    Vào các thư mục con này, người dùng tìm thấy các liên kết đến các trang web cung cấp thông tin mà anh ta quan tâm.

    Chúng tôi chưa biết đến cơ sở dữ liệu chính thức về các địa chỉ ở Liên bang Nga.

    2.6 Tìm kiếm kho lưu trữ Gopher

    Gopher là một hệ thống máy chủ được kết nối với nhau (không gian Gopher) được phân phối qua Internet.

    Thư viện văn học phong phú nhất được thu thập trong không gian Gopher, nhưng tài liệu không có sẵn để xem từ xa: người dùng chỉ có thể xem mục lục được sắp xếp theo thứ bậc và chọn một tệp theo tiêu đề. Với sự trợ giúp của một chương trình đặc biệt (Veronica), việc tìm kiếm như vậy có thể được thực hiện tự động bằng cách sử dụng các truy vấn dựa trên từ khóa.

    Cho đến năm 1995, Gopher là công nghệ Internet năng động nhất: tốc độ phát triển của số lượng máy chủ liên quan cao hơn tốc độ phát triển của máy chủ của tất cả các loại Internet khác. Trong mạng EUnet / Relcom, các máy chủ Gopher đã không nhận được sự phát triển tích cực, và ngày nay hầu như không ai nhớ đến chúng.

    2.7 Hệ thống tìm kiếm tệp FTP (Tìm kiếm FTP)

    Công cụ tìm kiếm FTP là một loại công cụ tìm kiếm Internet đặc biệt cho phép bạn tìm các tệp có sẵn trên các máy chủ FTP "ẩn danh". Giao thức FTP được thiết kế để truyền tệp qua mạng và theo nghĩa này, về mặt chức năng, nó là một loại giao thức tương tự của Gopher.

    Tiêu chí tìm kiếm chính là tên tệp được chỉ định theo nhiều cách khác nhau (đối sánh chính xác, chuỗi con, biểu thức chính quy, v.v.). Tất nhiên, kiểu tìm kiếm này không thể cạnh tranh với các công cụ tìm kiếm về khả năng, vì nội dung của tệp không được xem xét theo bất kỳ cách nào trong quá trình tìm kiếm và tệp, như bạn biết, có thể được đặt tên tùy ý. Tuy nhiên, nếu bạn cần tìm một số chương trình nổi tiếng hoặc mô tả tiêu chuẩn, thì với khả năng cao là tệp chứa nó sẽ có tên thích hợp và bạn có thể tìm thấy nó bằng một trong các máy chủ Tìm kiếm FTP:

    FileSearch tìm kiếm các tệp trên máy chủ FTP theo tên của chính tệp và thư mục. Nếu bạn đang tìm kiếm một chương trình hoặc thứ gì đó khác, thì trên các máy chủ WWW, bạn rất có thể sẽ tìm thấy mô tả của chúng và từ các máy chủ FTP, bạn có thể tải chúng về cho mình.

    2.8 Công cụ tìm kiếm trong hội nghị Usenet News

    USENET NEWS là hệ thống hội nghị từ xa cộng đồng Internet. Ở phương Tây, dịch vụ này được gọi là tin tức. Một chất tương tự gần giống của hội nghị từ xa là cái gọi là "tiếng vọng" trong mạng FIDO.

    Theo quan điểm của người đăng ký hội nghị từ xa, USENET là một bảng thông báo có các phần nơi bạn có thể tìm thấy các bài báo về mọi thứ, từ chính trị đến làm vườn. Bảng thông báo này có thể truy cập được thông qua máy tính, tương tự như email. Không cần rời khỏi máy tính, bạn có thể đọc hoặc đăng các bài báo lên một hội nghị cụ thể, tìm lời khuyên hữu ích hoặc tham gia các cuộc thảo luận. Đương nhiên, các bài báo chiếm dung lượng trên máy tính, vì vậy chúng không được lưu trữ mãi mãi mà được hủy định kỳ, nhường chỗ cho các bài viết mới. Trên toàn thế giới, dịch vụ tốt nhất để tìm kiếm thông tin trong các hội nghị Usenet là máy chủ Google Groups (Google Inc.).

    Google Groups là một cộng đồng và dịch vụ nhóm thảo luận trực tuyến miễn phí cung cấp kho lưu trữ lớn nhất về các tin nhắn Usenet trên Internet (hơn một tỷ tin nhắn). Để biết thêm thông tin về các điều khoản sử dụng dịch vụ, vui lòng truy cập http: // groups. google.com/intl/ru /googlegroups/tour/index.html

    Trong số những người nói tiếng Nga, nổi bật nhất là máy chủ Hệ thống Thế giới USENET và hệ thống truyền thông Relcom. Cũng giống như trong các dịch vụ tìm kiếm khác, người dùng nhập chuỗi truy vấn và máy chủ tạo danh sách các hội nghị có chứa từ khóa. Tiếp theo, bạn cần đăng ký các hội nghị đã chọn trong chương trình thời sự. Ngoài ra còn có một máy chủ FidoNet Online của Nga tương tự: hội nghị Fido trên WWW.

    2.9 Hệ thống tìm kiếm meta

    Để tìm kiếm nhanh trong cơ sở dữ liệu của một số công cụ tìm kiếm cùng một lúc, tốt hơn là nên chuyển sang hệ thống tìm kiếm meta.

    Công cụ tìm kiếm meta là công cụ tìm kiếm gửi truy vấn của bạn đến một số lượng lớn các công cụ tìm kiếm khác nhau, sau đó xử lý kết quả, loại bỏ các địa chỉ tài nguyên trùng lặp và trình bày một loạt các nội dung được trình bày trên Internet.

    Công cụ tìm kiếm meta phổ biến nhất thế giới là Search.com.

    Công cụ tìm kiếm Search.com hợp nhất từ ​​CNET, Inc. bao gồm gần hai chục công cụ tìm kiếm, các liên kết đến đó được cung cấp đầy đủ với toàn bộ Internet.

    Sử dụng loại công cụ tìm kiếm này, người dùng có thể tìm kiếm thông tin trong nhiều loại công cụ tìm kiếm, nhưng mặt tiêu cực của các hệ thống này có thể được gọi là sự không ổn định của chúng.

    2.10 Hệ thống tìm kiếm người

    Hệ thống tìm kiếm người là những máy chủ đặc biệt cho phép bạn tìm kiếm mọi người trên Internet, người dùng có thể chỉ định họ tên. và lấy địa chỉ email và URL của họ. Tuy nhiên, cần lưu ý rằng mọi người thường lấy thông tin về địa chỉ email từ các nguồn mở, chẳng hạn như các diễn đàn Usenet. Trong số các hệ thống tìm kiếm người nổi tiếng nhất là:

    Tìm địa chỉ e-mail

    trong các cột tìm kiếm đặc biệt cho thông tin liên hệ (Tên. Thành phố, Họ, Số điện thoại), bạn có thể tìm thấy thông tin bạn quan tâm.

    Hệ thống tìm kiếm người thực sự là những máy chủ lớn, cơ sở dữ liệu của chúng chứa khoảng 6.000.000 địa chỉ.

    3. Kết luận

    Chúng tôi đã xem xét các công nghệ chính để tìm kiếm thông tin trên Internet và trình bày các thuật ngữ chung về các công cụ tìm kiếm hiện đang tồn tại trên Internet, cũng như cấu trúc của các truy vấn tìm kiếm cho các công cụ tìm kiếm bằng tiếng Nga và tiếng Anh phổ biến nhất, và, tổng hợp những điều trên, chúng tôi muốn lưu ý rằng một sơ đồ tối ưu duy nhất tìm kiếm thông tin trên Internet không tồn tại. Tùy thuộc vào thông tin cụ thể bạn cần, bạn có thể sử dụng các công cụ và dịch vụ tìm kiếm thích hợp. Và chất lượng của kết quả tìm kiếm phụ thuộc vào mức độ thành thạo của các dịch vụ tìm kiếm được lựa chọn.

  • Công nghệ tìm kiếm

    Quy luật ma sát và truyền nhiệt và khối lượng trong lớp biên hỗn loạn

    Có một số phiên bản của cách biểu diễn 'luật ma sátʼʼ (đối với trường hợp tham chiếu), dẫn đến các kết quả gần như giống hệt nhau. Phù hợp với khái niệm về lớp biên ʼʼlogaritʼʼ (với giá trị của hằng số nhiễu loạn đầu tiên χ = 0,4) định luật ma sát cho sự hỗn loạn cực kỳ phát triển với ʼʼ độ nhớt tăng cườngʼʼ được tính gần đúng bằng công thức Karman đơn giản:

    Với biểu diễn định luật lũy thừa của cấu hình vận tốc, công thức nên được đề xuất:

    ở đâu: ; N là số mũ của biên dạng vận tốc;

    - hệ số bán kinh nghiệm;

    NHƯNG- hệ số thực nghiệm;

    δ là chiều dày của lớp biên.

    Sử dụng tỷ lệ cho số Reynolds được xây dựng trên các đại lượng tuyến tính khác nhau:

    Điều quan trọng cần lưu ý là đối với trường hợp phát triển một lớp ranh giới hỗn loạn từ cạnh hàng đầu ( x cr = 0) định luật ma sát cũng phải được biểu diễn dưới dạng:

    Giá trị của các giá trị tham số của các công thức được trình bày cho các cấu hình vận tốc khác nhau được tóm tắt trong bảng

    Tham số N
    1/7 1/8 1/9 1/10
    NHƯNG 8,74 9,71 10,6 11,5
    0,0975 0,089 0,0818 0,0757
    1,28 1,25 1,22 1,20
    m 0,250 0,222 0,200 0,182
    B 0,0252 0,0206 0,0190 0,0148
    m 1 0,200 0,182 0,167 0,154
    B1 0,0576 0,0450 0,0362 0,0308

    Các hình thức biểu diễn khác của định luật ma sát cũng được biết đến và sử dụng, dẫn đến những kết quả thực tế tương tự. Vì vậy, V.M. Ievlev đề xuất một ước lượng gần đúng:

    Các công thức về định luật truyền nhiệt và truyền khối lượng thu được từ quy luật ma sátʼʼ cho các điều kiện tiêu chuẩn (trường hợp chuẩn) bằng nguyên lý tương tự bộ ba Reynolds nổi tiếng.

    ở đâu: S- hệ số hiệu chỉnh - Hệ số tương tự Reynolds đối với việc không tuân thủ các điều kiện của (các) tiêu chuẩn, hệ số S trong phép gần đúng đầu tiên được gần đúng thỏa mãn theo quan hệ:

    Điều quan trọng cần lưu ý là đối với trường hợp sử dụng các tham số tích phân, các 'quy luậtʼʼ của nhiệt và truyền khối lượng được mô tả tốt bởi các phụ thuộc:

    Công nghệ web World Wide Web (WWW) được coi là một công nghệ đặc biệt để chuẩn bị và sắp xếp các tài liệu trên Internet. WWW bao gồm các trang web, thư viện điện tử, danh mục và thậm chí cả bảo tàng ảo! Với lượng thông tin dồi dào như vậy, câu hỏi đặt ra gay gắt: ʼʼLàm thế nào để điều hướng trong một không gian thông tin khổng lồ và quy mô lớn như vậy - Các công cụ tìm kiếm ra đời để giải quyết vấn đề này.

    Công cụ tìm kiếm là phần mềm đặc biệt với mục tiêu chính là cung cấp khả năng tìm kiếm thông tin chất lượng cao và tối ưu nhất cho người dùng Internet. Các công cụ tìm kiếm được lưu trữ trên các máy chủ web đặc biệt, mỗi máy chủ thực hiện một chức năng cụ thể:

    1. Phân tích các trang web và nhập kết quả phân tích ở cấp độ này hoặc cấp độ khác của cơ sở dữ liệu của máy chủ tìm kiếm.

    2. Tìm kiếm thông tin theo yêu cầu của người dùng.

    3. Cung cấp giao diện thân thiện với người dùng để người dùng tìm kiếm thông tin và xem kết quả tìm kiếm.

    Các phương pháp làm việc được sử dụng khi làm việc với các công cụ tìm kiếm này hoặc các công cụ tìm kiếm khác gần như giống nhau. Trước khi tiếp tục thảo luận về chúng, hãy xem xét các khái niệm sau:

    1. Giao diện công cụ tìm kiếm được trình bày dưới dạng một trang với các siêu liên kết, một chuỗi truy vấn (chuỗi tìm kiếm) và các công cụ kích hoạt truy vấn.

    2. Công cụ tìm kiếm chỉ mục - ϶ᴛᴏ cơ sở thông tin chứa kết quả phân tích các trang web, được biên soạn theo các quy tắc nhất định.

    3. Truy vấn - ϶ᴛᴏ từ khóa hoặc cụm từ mà người dùng nhập vào thanh tìm kiếm. Các ký tự đặc biệt ("", ~), các ký hiệu toán học (*, +, -) được sử dụng để tạo thành các truy vấn khác nhau.

    Sơ đồ tìm kiếm thông tin rất đơn giản. Người dùng nhập một cụm từ khóa và kích hoạt tìm kiếm, do đó nhận được lựa chọn tài liệu theo yêu cầu đã lập (cho sẵn). Danh sách tài liệu này được xếp hạng theo các tiêu chí nhất định để ở đầu danh sách là những tài liệu phù hợp nhất với truy vấn của người dùng. Mỗi công cụ tìm kiếm sử dụng các tiêu chí khác nhau để xếp hạng tài liệu, cả trong phân tích kết quả tìm kiếm và hình thành chỉ mục (điền vào cơ sở dữ liệu chỉ mục của các trang web).

    Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, nếu bạn chỉ định cùng một truy vấn trong chuỗi tìm kiếm cho mỗi công cụ tìm kiếm, bạn có thể nhận được các kết quả tìm kiếm khác nhau. Đối với người dùng, điều quan trọng là tài liệu nào sẽ xuất hiện trong hai hoặc ba tá tài liệu đầu tiên theo kết quả tìm kiếm và những tài liệu này tương ứng với mong đợi của người dùng ở mức độ nào.

    Hầu hết các công cụ tìm kiếm cung cấp hai cách để tìm kiếm - tìm kiếm đơn giản(tìm kiếm đơn giản) và tìm kiếm nâng cao(tìm kiếm nâng cao) có và không có biểu mẫu yêu cầu đặc biệt. Hãy xem xét cả hai loại tìm kiếm trên ví dụ về công cụ tìm kiếm bằng tiếng Anh.

    Ví dụ: AltaVista hữu ích cho các truy vấn tùy ý, ʼʼMột cái gì đó về bằng cấp trực tuyến trong công nghệ thông tinʼʼ, trong khi công cụ tìm kiếm của Yahoo cho phép bạn nhận tin tức thế giới, thông tin tỷ giá hối đoái hoặc dự báo thời tiết.

    Nắm vững các tiêu chí để tinh chỉnh truy vấn và các kỹ thuật tìm kiếm nâng cao cho phép bạn tăng hiệu quả tìm kiếm và nhanh chóng tìm thấy thông tin cần thiết. Trước hết, bạn có thể tăng hiệu quả tìm kiếm bằng cách sử dụng các toán tử logic (phép toán) Hoặc, Và, Gần, Không, các ký hiệu toán học và đặc biệt trong các truy vấn. Với sự trợ giúp của toán tử và / hoặc ký hiệu, người dùng liên kết các từ khóa theo trình tự mong muốn để có được kết quả tìm kiếm thích hợp nhất cho truy vấn. Một truy vấn đơn giản trả về một số lượng nhỏ các tham chiếu đến tài liệu, bởi vì danh sách bao gồm các tài liệu có chứa một trong các từ được nhập trong khi truy vấn hoặc một cụm từ đơn giản (xem bảng 1). Toán tử and cho phép bạn chỉ định rằng tất cả các từ khóa nên được đưa vào nội dung tài liệu. Tuy nhiên, số lượng tài liệu vẫn phải lớn và cần có đủ thời gian để xem xét. Vì lý do này, trong một số trường hợp, việc sử dụng toán tử ngữ cảnh gần sẽ thuận tiện hơn nhiều, điều này chỉ ra rằng các từ phải được đặt ở vị trí đủ gần trong tài liệu. Sử dụng gần làm giảm đáng kể số lượng tài liệu được tìm thấy. Sự hiện diện của ký hiệu "*" trong chuỗi truy vấn có nghĩa là từ đó sẽ được tìm kiếm bằng mặt nạ của nó. Ví dụ, chúng ta hãy lấy một danh sách các tài liệu có chứa các từ bắt đầu bằng "gov", nếu chúng ta viết "gov *" trong chuỗi truy vấn. Đây là những từ chính phủ, thống đốc, v.v.

    Dịch vụ tìm kiếm thông tin bằng tiếng Nga phát triển nhất được cung cấp bởi máy chủ tìm kiếm Yandex. Trong Yandex, bạn có thể chỉ cần viết bằng tiếng Nga một cụm từ mô tả những gì bạn muốn tìm và hệ thống sẽ phân tích và xử lý yêu cầu của bạn, sau đó cố gắng tìm mọi thứ liên quan đến một chủ đề nhất định. Bạn có thể, bằng cách sử dụng các toán tử đặc biệt, soạn một chuỗi giải thích cho công cụ tìm kiếm những yêu cầu của bạn đối với thông tin bạn quan tâm. Bạn có thể tìm thấy một số toán tử ngôn ngữ truy vấn Yandex tại đây: http://help.yandex.ru/search/ -id = 481939

    Công cụ tìm kiếm Rambler phổ biến không kém giữ thống kê về lưu lượng liên kết từ cơ sở dữ liệu của riêng nó, cùng các toán tử logic VÀ, HOẶC, KHÔNG, ký tự siêu * (tương tự như ký tự * trong AltaVista mở rộng phạm vi truy vấn), ký hiệu hệ số + và -, để tăng hoặc giảm tầm quan trọng của các từ được nhập trong truy vấn.

    Chúng ta hãy xem xét các công nghệ tìm kiếm thông tin phổ biến nhất trên Internet.

    Chủ đề 3 Làm việc với các công cụ tìm kiếm trên Internet


    Sau khi nghiên cứu chủ đề này, bạn sẽ học và lặp lại:

    Máy chủ tìm kiếm để làm gì?
    - bổ nhiệm các bộ phận chính của máy chủ tìm kiếm;
    - những loại tìm kiếm thông tin nào tồn tại trên Internet;
    - các quy tắc cơ bản để tạo yêu cầu trong công cụ tìm kiếm Yandex.

    Tìm kiếm theo URL

    Cách nhanh nhất và đáng tin cậy nhất để tìm kiếm thông tin trên Internet là tìm kiếm các URL. Nhiều người trong số họ được phát hành trong các ấn phẩm in, sách tham khảo đặc biệt, được nghe trên sóng của các đài phát thanh nổi tiếng và từ màn hình TV.

    ♦ Người hâm mộ câu lạc bộ bóng đá Zenit thuộc lòng địa chỉ www.fc-zenit.ru.
    ♦ Các fan của nhóm "Korol i Shut" đều biết rõ về trang web chính thức của nhóm này là www.korol.spb.ru.
    ♦ Người hâm mộ kênh NTV có thể dễ dàng tìm thấy trang web của kênh tại www.ntv.ru. Để truy cập nhanh vào các tài nguyên trên, chỉ cần khởi chạy một chương trình trình duyệt, chẳng hạn như Internet Explorer và nhập một URL quen thuộc vào thanh địa chỉ.

    Công cụ tìm kiếm

    Có một lượng lớn tài liệu trên Internet. Để tạo điều kiện thuận lợi cho việc tìm kiếm thông tin cần thiết, các công cụ tìm kiếm đặc biệt được tạo ra.

    công cụ tìm kiếm- Đây là các hệ thống tự động thăm dò các máy chủ được kết nối với mạng toàn cầu và lưu trữ thông tin về dữ liệu có sẵn trên các máy chủ trong cơ sở dữ liệu của chúng. Theo một yêu cầu được xây dựng đặc biệt, các công cụ tìm kiếm cung cấp thông tin về nơi bạn có thể lấy dữ liệu cần thiết.

    Theo quy luật, công cụ tìm kiếm bao gồm ba phần: rô bốt, lập chỉ mục và chương trình xử lý yêu cầu.

    Robot (Nhện, Robot hoặc Bot) là một chương trình truy cập các trang web và đọc (toàn bộ hoặc một phần) nội dung của chúng. Các rô bốt của công cụ tìm kiếm khác nhau về sơ đồ riêng để phân tích nội dung của một trang web.
    Chỉ mục công cụ tìm kiếm- đây là kho lưu trữ hình ảnh tìm kiếm được truy cập bởi các trang rô bốt. Hình ảnh tìm kiếm của tài liệu (bao gồm cả trang web) là mô tả nội dung của tài liệu bằng ngôn ngữ truy xuất thông tin đặc biệt. Mô tả này chứa các mã cho các từ khóa của tài liệu, phản ánh ý nghĩa và nội dung của nó. Các chỉ mục trong mỗi công cụ tìm kiếm khác nhau về số lượng và cách thức lưu trữ thông tin. Cơ sở dữ liệu của các công cụ tìm kiếm hàng đầu lưu trữ thông tin về hàng chục triệu tài liệu và khối lượng chỉ mục của chúng là hàng trăm gigabyte. Các chỉ mục được cập nhật và bổ sung định kỳ, do đó, kết quả của công việc của một công cụ tìm kiếm với cùng một truy vấn có thể khác nhau nếu tìm kiếm được thực hiện vào những thời điểm khác nhau.

    Yêu cầu xử lý là một chương trình, theo yêu cầu của người dùng, "tìm kiếm" chỉ mục về sự hiện diện của thông tin cần thiết và trả về các liên kết đến các tài liệu được tìm thấy. Tập hợp các liên kết ở đầu ra của hệ thống được chương trình phân phối theo thứ tự phù hợp giảm dần y, nghĩa là từ mức độ phù hợp cao nhất với yêu cầu đến mức thấp nhất.

    Hiện tại, phổ biến nhất đối với người dùng Internet Nga là ba công cụ tìm kiếm loại chỉ mục chính:

    Các hệ thống này có tính đến các đặc điểm ngữ pháp của tiếng Nga, vì vậy kết quả tìm kiếm của họ trong các nguồn thông tin bằng tiếng Nga có chất lượng cao hơn so với các hệ thống của phương Tây.

    Các công cụ tìm kiếm khác nhau về mức độ bao phủ của các nguồn thông tin:

    ♦ Các công cụ tìm kiếm nói chung có một cơ sở dữ liệu về tất cả các lĩnh vực kiến ​​thức và được phân biệt bởi một chỉ mục mở rộng và một lượng lớn thông tin tích lũy;
    ♦ Các công cụ tìm kiếm có mục đích đặc biệt chỉ tìm kiếm các trang web có chủ đề cụ thể, chẳng hạn như các trang web về âm nhạc hoặc bảo tàng.

    Các đặc điểm chính của công cụ tìm kiếm là:

    ♦ khối lượng tài liệu trong mục lục;
    ♦ tần suất cập nhật thông tin;
    ♦ không gian thông tin mà rô bốt công cụ tìm kiếm bao phủ và sự đa dạng của các loại tài liệu về thông tin được thu thập;
    ♦ yêu cầu tốc độ xử lý;
    ♦ tiêu chí để xác định mức độ liên quan (sự tương ứng của tài liệu được tìm thấy với truy vấn tìm kiếm);
    ♦ khả năng chi tiết hóa và làm rõ yêu cầu.

    Tìm kiếm bằng phiếu đánh giá của công cụ tìm kiếm

    Thư mục tìm kiếm là một tập hợp (chọn lọc) có hệ thống các liên kết đến các tài nguyên Internet khác. Các liên kết được tổ chức dưới dạng một công cụ đánh giá chuyên đề, là một cấu trúc phân cấp, di chuyển theo đó bạn có thể tìm thấy thông tin mình cần.

    Hãy để chúng tôi làm ví dụ về cấu trúc của danh mục Internet tìm kiếm Yandex. Đây là một thư mục có mục đích chung, vì nó chứa các liên kết đến các tài nguyên Internet theo hầu hết các hướng có thể. Danh mục này bao gồm các chủ đề sau:

    ♦ Kinh doanh và kinh tế;
    ♦ Tài liệu tham khảo và liên kết;
    ♦ Xã hội và chính trị;
    ♦ Nhà và gia đình;
    ♦ Khoa học và giáo dục;
    ♦ Giải trí và nghỉ dưỡng;
    ♦ Máy tính và thông tin liên lạc;
    ♦ Văn hóa nghệ thuật.

    Mỗi chủ đề bao gồm nhiều tiểu mục và những tiểu mục này lần lượt chứa các điểm đánh giá, v.v.

    Giả sử bạn đang chuẩn bị một sự kiện cho Ngày Chiến thắng và muốn tìm kiếm trên Internet những lời trong bài hát quân sự nổi tiếng của Bulat Okudzhava "You hear the boots ầm ầm". Việc tìm kiếm có thể được tổ chức như sau: Danh mục Yandex Văn hóa và nghệ thuật Âm nhạc Bài hát của tác giả.

    Phương pháp tìm kiếm này khá nhanh và hiệu quả. Cuối cùng, bạn chỉ được cung cấp 5 liên kết, trong số đó có các liên kết đến các trang web có các bài hát của những người nổi tiếng. Nó vẫn chỉ để tìm thấy trên trang web một kho lưu trữ với lời bài hát của B. Okudzhava và chọn văn bản mong muốn trong đó.

    Một vi dụ khac. Giả sử bạn định mua một chiếc điện thoại di động và muốn so sánh các đặc điểm của các thiết bị từ các công ty khác nhau. Việc tìm kiếm có thể được tiến hành theo các tiêu đề danh mục sau: Danh mục Yandex Máy tính và thông tin liên lạc Truyền thông di động Điện thoại di động.

    Sau khi nhận được một số tài liệu tham khảo hạn chế, bạn có thể nhanh chóng xem chúng và chọn một chiếc điện thoại bằng cách xem xét các đặc điểm của các hãng và các sửa đổi của thiết bị.

    Tìm kiếm từ khóa

    Hầu hết các công cụ tìm kiếm đều có khả năng tìm kiếm theo từ khóa. Đây là một trong những kiểu tìm kiếm phổ biến nhất. Để tìm kiếm theo từ khóa, hãy nhập từ hoặc một số từ cần tìm trong một cửa sổ đặc biệt và nhấp vào nút Tìm kiếm. Công cụ tìm kiếm sẽ tìm thấy trong cơ sở dữ liệu của nó và hiển thị các tài liệu có chứa những từ này. Có thể có nhiều tài liệu như vậy, nhưng rất nhiều trong trường hợp này không nhất thiết có nghĩa là tốt.

    Hãy tiến hành một số thử nghiệm với bất kỳ công cụ tìm kiếm nào. Giả sử chúng tôi quyết định bắt đầu một bể cá và chúng tôi quan tâm đến bất kỳ thông tin nào về chủ đề này.

    Thoạt nhìn, điều đơn giản nhất là tìm kiếm từ "bể cá". Ví dụ: hãy kiểm tra điều này trong công cụ tìm kiếm Yandex. Kết quả tìm kiếm sẽ có hơn 460.000 trang trên 3.500 trang web - một số lượng lớn các liên kết. Hơn nữa, nếu bạn quan sát kỹ hơn, trong số đó sẽ có các trang web đề cập đến nhóm Thủy cung của B. Grebenshchikov, các trung tâm mua sắm và các hiệp hội không chính thức có cùng tên, và nhiều hơn nữa không liên quan đến cá cảnh.

    Dễ dàng đoán rằng một tìm kiếm như vậy không thể làm hài lòng ngay cả những người dùng khiêm tốn. Sẽ phải dành quá nhiều thời gian để lựa chọn trong số tất cả các tài liệu được đề xuất có liên quan đến chủ đề chúng ta cần, và thậm chí nhiều hơn nữa để tìm hiểu nội dung của chúng.

    Bạn có thể kết luận ngay rằng thông thường không nên tìm kiếm theo một từ, vì rất khó xác định chủ đề của một tài liệu, trang web hoặc trang web bằng một từ. Ngoại lệ là những từ hiếm và thuật ngữ hầu như không bao giờ được sử dụng bên ngoài chủ đề của chúng.

    Hãy thử làm rõ các điều kiện tìm kiếm và nhập cụm từ "cá cảnh". Kết quả tìm kiếm sẽ có hơn 20.000 trang và khoảng 650 trang. Như bạn thấy, số lượng liên kết đã giảm hơn 20 lần. Kết quả này phù hợp với chúng tôi hơn, nhưng tất cả đều giống nhau, trong số các liên kết được đề xuất mà bạn có thể gặp, ví dụ, bộ lưu niệm của Nga gồm nhãn phù hợp với hình ảnh cá và bộ sưu tập bảo vệ màn hình máy tính để bàn và danh mục cá cảnh có ảnh và bể cá các cửa hàng phụ kiện.

    Rõ ràng là chúng ta nên tiếp tục đi theo hướng tinh chỉnh các điều kiện tìm kiếm.

    Để làm cho việc tìm kiếm hiệu quả hơn, tất cả các công cụ tìm kiếm đều có một ngôn ngữ truy vấn đặc biệt với cú pháp riêng của nó. Các ngôn ngữ này tương tự nhau về nhiều mặt. Học tất cả chúng khá khó, nhưng bất kỳ công cụ tìm kiếm nào cũng có hệ thống trợ giúp cho phép bạn thành thạo ngôn ngữ mong muốn.

    Dưới đây là mười quy tắc đơn giản để tạo một yêu cầu trong công cụ tìm kiếm Yandex.

    1. Từ khóa trong truy vấn phải được viết bằng chữ thường (nhỏ). Điều này sẽ đảm bảo rằng tất cả các từ khóa đều được tìm kiếm, không chỉ những từ khóa bắt đầu bằng chữ hoa.

    2. Việc tìm kiếm có tính đến tất cả các dạng của từ theo các quy tắc của tiếng Nga, bất kể dạng của từ trong truy vấn. Ví dụ: nếu từ “biết” được chỉ định trong truy vấn, thì các từ “biết”, “biết”, v.v. cũng sẽ đáp ứng điều kiện tìm kiếm.

    3. Để tìm kiếm một cụm từ ổn định, bạn nên đặt các từ trong dấu ngoặc kép, ví dụ: “bát đĩa sứ”.

    4. Để tìm kiếm theo dạng từ chính xác, bạn phải đặt dấu chấm than trước từ đó. Ví dụ: để tìm kiếm từ "Tháng 9" trong trường hợp thông minh, bạn sẽ viết "! Tháng 9".

    5. Để tìm kiếm trong một câu, các từ trong truy vấn được phân tách bằng dấu cách hoặc dấu &: "tiểu thuyết phiêu lưu" hoặc "phiêu lưu & tiểu thuyết". Một số từ được nhập trong truy vấn, được phân tách bằng dấu cách, có nghĩa là tất cả chúng phải được đưa vào một câu của tài liệu đang được tìm kiếm.

    6. Nếu bạn chỉ muốn chọn những tài liệu trong đó xuất hiện mọi từ được chỉ định trong truy vấn, hãy đặt dấu cộng "+" trước mỗi từ đó. Ngược lại, nếu bạn muốn loại trừ bất kỳ từ nào khỏi kết quả tìm kiếm, hãy đặt dấu trừ "-" trước từ này. Các dấu "+" và "-" phải được viết với khoảng trắng từ dấu trước và được ghép với từ tiếp theo. Ví dụ: truy vấn "Volga-car" sẽ tìm các tài liệu có chứa từ "Volga" chứ không phải từ "car".

    7. Khi tìm kiếm từ đồng nghĩa hoặc từ gần nghĩa, bạn có thể đặt một thanh dọc "|" giữa các từ. Ví dụ, đối với truy vấn "con | đứa trẻ | baby "sẽ tìm tài liệu có bất kỳ từ nào trong số này.

    8. Thay vì một từ trong một truy vấn, bạn có thể thay thế toàn bộ một biểu thức. Để làm điều này, nó phải được đặt trong dấu ngoặc vuông, ví dụ "(child | baby | children | baby) + (care | upbringing)".

    9. Ký tự * ~ "(dấu ngã) cho phép bạn tìm tài liệu có câu chứa từ đầu tiên, nhưng không chứa từ thứ hai. Ví dụ, tìm kiếm "books ~ shop" sẽ tìm thấy tất cả các tài liệu có chứa từ "books" mà không có từ "shop" bên cạnh nó (trong câu).

    10. Nếu toán tử được lặp lại một lần (ví dụ, & hoặc ~), thì việc tìm kiếm sẽ được thực hiện trong câu. Toán tử kép (&&, -) tìm kiếm trong tài liệu. Ví dụ, truy vấn "ung thư - chiêm tinh học" sẽ tìm thấy các tài liệu có từ "ung thư" không liên quan đến chiêm tinh học.

    Bạn có thể sử dụng tìm kiếm nâng cao để có một tập hợp các thuật ngữ phổ biến nhất trong khu vực mong muốn. Trên hình. 3.3 hiển thị cửa sổ tìm kiếm nâng cao trong công cụ tìm kiếm Yandex. Trong chế độ này, các khả năng của ngôn ngữ truy vấn được triển khai dưới dạng biểu mẫu. Một dịch vụ tương tự, bao gồm bộ lọc từ điển, được cung cấp bởi hầu hết các công cụ tìm kiếm.

    Cơm. 3.3. Ví dụ về tìm kiếm nâng cao trong hệ thống Yandex

    Với sự lựa chọn chính xác các từ mong muốn và bắt buộc cũng như loại trừ các cụm từ không mong muốn, việc tìm kiếm như vậy có thể cho kết quả tốt.

    Hãy quay lại với ví dụ về cá cảnh. Sau khi đọc một số tài liệu được cung cấp bởi công cụ tìm kiếm, rõ ràng là việc tìm kiếm thông tin trên Internet không nên bắt đầu bằng việc lựa chọn cá cảnh. Bể cá là một hệ thống sinh học phức tạp, việc tạo ra và duy trì chúng đòi hỏi kiến ​​thức đặc biệt, thời gian và sự đầu tư nghiêm túc.

    Dựa trên thông tin nhận được, một người thực hiện tìm kiếm trên Internet có thể thay đổi hoàn toàn chiến lược tìm kiếm thêm, quyết định nghiên cứu tài liệu đặc biệt liên quan đến vấn đề đang nghiên cứu.

    Để tìm kiếm tài liệu văn học hoặc tài liệu toàn văn, có thể thực hiện truy vấn sau:

    "+ (bể thủy sinh | người chơi thủy sinh | người chơi thủy sinh) + cho người mới bắt đầu + (lời khuyên | tài liệu) + (bài báo | luận án | toàn văn) - (giá cả | cửa hàng | giao hàng | danh mục)".

    Sau khi xử lý yêu cầu của công cụ tìm kiếm, kết quả sau thu được: trang - 195, trang - ít nhất 43.

    Có thể thấy qua thống kê tìm kiếm, kết quả rất thành công. Các liên kết đầu tiên đã dẫn đến các tài liệu được yêu cầu:

    Thiết lập hồ cá> Mẹo cho người mới bắt đầu chơi thủy sinh>
    Các bài báo> Aq uascope. en
    http://aquascope.ru/modules/wfsection/article.php?page=l&articleid=49 (32KB) - tuân thủ nghiêm ngặt.
    TƯ VẤN ĐỂ BẮT ĐẦU THỦY SẢN. Làm thế nào để chọn và lắp đặt một bể cá, làm thế nào để ...
    http://www.aquariums.ru/sovna.htm (2KB) 23/07/2002 - thư từ không nghiêm ngặt.

    Giờ đây, bạn có thể tóm tắt kết quả tìm kiếm, rút ​​ra một số kết luận nhất định và quyết định các hành động có thể thực hiện:

    ♦ Hãy dừng việc tìm kiếm thêm, vì nhiều lý do khác nhau, việc bảo trì bể cá nằm ngoài khả năng của bạn.
    ♦ Đọc các bài báo gợi ý và bắt đầu thiết lập một bể cá.
    ♦ Tìm kiếm tài liệu về chuột đồng hoặc chuột đồng.

    Tìm kiếm Chuyên nghiệp

    Các nhà nghiên cứu và chuyên gia sẽ phải có cách tiếp cận chu đáo hơn đối với việc tổ chức tìm kiếm. Khi tìm kiếm thông tin trên Internet một cách chuyên nghiệp, các yêu cầu sau phải được đáp ứng:

    ♦ tốc độ tìm kiếm cao;
    ♦ độ tin cậy của thông tin nhận được;
    ♦ tính đầy đủ của phạm vi bảo hiểm của các nguồn lực trong quá trình tìm kiếm.

    Tốc độ. Tốc độ tìm kiếm chủ yếu phụ thuộc vào hai yếu tố: vào việc lập kế hoạch tìm kiếm có năng lực (lựa chọn dịch vụ và công cụ tìm kiếm) và kỹ năng làm việc với tài nguyên đã được chọn (khả năng hiểu nhanh cấu trúc và phương pháp điều hướng của nó). Các chỉ mục tìm kiếm không đủ để đảm bảo tốc độ tìm kiếm. Ngoài chúng, có một số tài nguyên tìm kiếm trên Internet, việc sử dụng chúng đảm bảo hiệu suất của một tìm kiếm chuyên nghiệp.

    Độ tin cậy. Câu hỏi về độ tin cậy của thông tin nhận được từ Internet là rất phù hợp, vì bất kỳ ai cũng có thể đặt bất kỳ thông tin nào ở đó mà không có bất kỳ sự kiểm soát nào đối với việc tuân thủ thực tế của nó. Điều này dẫn đến một số lượng lớn các nguồn không đáng tin cậy, chẳng hạn như tóm tắt và các bài báo học kỳ đã tràn ngập Internet.

    Có các dịch vụ tìm kiếm đặc biệt cho phép bạn đánh giá độ tin cậy của một nguồn thông tin trên Internet.

    Tính hoàn chỉnh. Điều kiện cần thiết để thu thập thông tin quy mô đầy đủ thành công là kiến ​​thức về các loại tài nguyên chính tồn tại ngày nay và việc sử dụng các dịch vụ tìm kiếm khác nhau. Không có công cụ tìm kiếm nào có thể bao quát tất cả các tài nguyên của Internet.

    Như một quy luật, để đạt được một kết quả tích cực, người dùng phải sử dụng các dịch vụ của một số công cụ tìm kiếm. Bạn có thể tự làm việc đó, chuyển từ hệ thống này sang hệ thống khác hoặc bạn có thể giao công việc này cho một trong các công cụ metasearch (meta là thành phần đầu tiên của các từ ghép biểu thị các hệ thống để mô tả và nghiên cứu các hệ thống khác).

    Cơm. 3.4. Cửa sổ Metasearch

    Công cụ Metasearch không có cơ sở dữ liệu tìm kiếm của riêng mình và sử dụng tài nguyên của nhiều công cụ tìm kiếm khác khi tìm kiếm. Do đó, xác suất tìm thấy thông tin cần thiết là rất cao. Công việc trong hệ thống metasearch được thực hiện theo các quy tắc tương tự như công việc trong các công cụ tìm kiếm. Điều này là do các công cụ metasearch là một loại tiện ích bổ sung cho các công cụ tìm kiếm và sử dụng cơ sở dữ liệu chỉ mục của chúng trong công việc. Sự xuất hiện của các công cụ metasearch giống với sự xuất hiện của các công cụ tìm kiếm nổi tiếng. Trên hình. 3.4 hiển thị các cửa sổ của công cụ metasearch myweb.ru và metabot.ru.

    Kinh nghiệm cho thấy rằng trong hầu hết các trường hợp, kết quả tốt hơn đạt được khi sử dụng một số chỉ mục tìm kiếm độc lập hơn là sử dụng một công cụ metasearch.

    Kiểm soát câu hỏi và nhiệm vụ

    1. Mục đích của một chương trình trình duyệt là gì?

    2. Bạn biết chương trình trình duyệt nào?

    3. Người dùng lập kế hoạch tìm kiếm trên Internet có thể tìm thấy URL ở đâu?

    4. Công nghệ tìm kiếm cho điểm đánh giá của công cụ tìm kiếm là gì?

    5. Công nghệ tìm kiếm từ khóa là gì?

    6. Những yêu cầu nào phải được tuân thủ trong việc tìm kiếm thông tin trên Internet một cách chuyên nghiệp?

    7. Khi nào bạn cần chỉ định các dấu "+" hoặc "-" trong tiêu chí tìm kiếm?

    8. Tiêu chí tìm kiếm nào trong Yandex được đặt bởi cụm từ sau:

    (vú em | giáo viên | gia sư) ++ (chăm sóc | nuôi dạy | giám sát).

    9. Nhân đôi dấu (∼∼ hoặc ++) có nghĩa là gì khi tạo một truy vấn phức tạp?

    10. Mức độ liên quan của tìm kiếm là gì?

    11. Mục đích của động cơ metasearch là gì?

    Bài giảng 4. Các công cụ truy xuất thông tin

    Việc cập nhật liên tục mảng thông tin, kết hợp với sự gia tăng khối lượng dữ liệu, khiến việc xem xét các tài liệu sẵn có trở nên vô cùng khó khăn và do đó, việc tìm kiếm, có thể được chia theo điều kiện thành:

    • tìm kiếm thực tế:trong bách khoa toàn thư, sách tham khảo, từ điển,
    • tìm kiếm thư mục:thư viện, thư mục, chương trình.
    • tìm kiếm tài liệu:tài liệu điện tử, thư viện điện tử, tạp chí điện tử.

    Tầm quan trọng của vấn đề truy xuất thông tin đã dẫn đến sự hình thành của cả một ngành công nghiệp với nhiệm vụ chính xác là hỗ trợ người dùng điều hướng trong không gian mạng. Làm cho ngành này trở nên đặc biệtdịch vụ tìm kiếm hoặc các dịch vụ. Theo truyền thống, chúng được chia thành:

    • thư mục hoặc danh mục
    • công cụ tìm kiếm

    Những giống này trông rất giống nhau về mặt hình ảnh, bởi vì"mỗi thư mục có công cụ tìm kiếm riêng và mỗi công cụ tìm kiếm có thư mục riêng". Tuy nhiên, các nguyên tắc làm việc của họ dựa trên các cách tiếp cận và công nghệ hoàn toàn khác nhau. Ngoài ra, mỗi loại dịch vụ tìm kiếm được sử dụng để giải quyết một loại vấn đề nhất định. Việc truy xuất thông tin liên quan đến việc sử dụng các chiến lược, phương pháp, cơ chế và công cụ nhất định. Hành vi của người dùng quản lý quá trình tìm kiếm không chỉ được xác định bởi nhu cầu thông tin, mà còn bởi tính đa dạng của công cụ của hệ thống - các công nghệ và công cụ được cung cấp bởi hệ thống. Việc lựa chọn công cụ quyết định phần lớnchiến lược tìm kiếm và các công nghệ tìm kiếm.

    Công nghệ tìm kiếm- trình tự thống nhất (được tối ưu hóa trong một hệ thống truy xuất thông tin cụ thể) để sử dụng hiệu quả các công cụ tìm kiếm riêng lẻ trong quá trình người dùng tương tác với hệ thống.

    Công nghệ tìm kiếm được sử dụngHệ thống thông tin có thể được chia thành 3 loại:

    • danh mục chuyên đề và danh mục chuyên ngành (thư mục trực tuyến);
    • công cụ tìm kiếm (tìm kiếm toàn văn);
    • công cụ tìm kiếm meta.

    Danh mục chuyên đềcung cấp cho việc xử lý các tài liệu và phân công chúng vào một trong một số danh mục, danh sách trong số đó đã được xác định trước. Trên thực tế, điều này quen thuộc với tất cả các thủ thư.lập chỉ mục dựa trên phân loại. Danh mục chuyên ngành hoặc hướng dẫn được tạo trên các nhánh và chủ đề riêng biệt.công cụ tìm kiếm(phương tiện tìm kiếm tiên tiến nhất trên Internet) thực hiện công nghệ tìm kiếm toàn văn. Các văn bản nằm trên các máy chủ được yêu cầu được lập chỉ mục.Khi sử dụng tiền metasearch Yêu cầu được thực hiện đồng thời bởi một số công cụ tìm kiếm. Kết quả tìm kiếm được kết hợp thành một tổng thể, sắp xếp theo mức độ liên quan, danh sách.

    Công cụ tìm kiếm - một phức hợp phụ thuộc lẫn nhau của ngôn ngữ truy xuất thông tin và ngôn ngữ định nghĩa / quản lý dữ liệu cung cấp các chuyển đổi cấu trúc và ngữ nghĩa của các đối tượng xử lý (tài liệu, từ điển, bộ sưu tập kết quả tìm kiếm).

    1. Sách tham khảo

    Các công cụ tìm kiếm của nhóm thứ nhất là các thư mục điện tử có cấu trúc theo chủ đề hoặc hệ thống phân cấp rõ ràng,giống như cấu trúc của một danh mục thư viện có hệ thống. Làm việc với các thư mục cho phép bạn điều hướng các tài nguyên Internet trong các nhánh kiến ​​thức riêng lẻ, đi sâu từ cái chung đến cái riêng, thay đổi các nhánh phân cấp, quay lại một vài bước, v.v.

    Trong số những phát triển của Nga trong lĩnh vực này là:

    • Aport (địa chỉ: www.aport.ru),
    • List.ru (địa chỉ: list.mail.ru),
    • Danh sách web (địa chỉ: www.weblist.ru),
    • Ivan Susanin (địa chỉ: www.susanin.net
    • Ốc (địa chỉ: www.ulitka.ru).

    Đặc điểm phân biệt chính của sách tham khảo là chúng được làm bằng tay. Ban biên tập của mỗi cuốn sách tham khảovề bản chất công việc, họ giống với bộ phận biên mục và hệ thống hóa của các thư viện lớn, thường xuyên xem xét nội dung của các máy chủ mới xuất hiện và theo dõi các thay đổi trên các máy chủ hiện có. Dữ liệu tiết lộ được phân tích và nhập vào các phần của cuốn sách tham khảo phù hợp với phân loại được chấp nhận. Mô tả toàn bộ máy chủ (hoặc một phần, nếu nó có vẻ là một khối hoàn toàn độc lập) được cung cấp kèm theo chú thích ngắn gọn chứa thông tin chung về bản chất của thông tin có sẵn. Trong một số trường hợp, thông tin bổ sung được nhập về ngôn ngữ của tài liệu, sự tham gia của tài nguyên, vị trí thực của nó, v.v.

    Các tham số chính đặc trưng cho lợi thế của thư mục là:

    • âm lượng;
    • hiệu quả của việc phản ánh các nguồn lực mới hoặc thay đổi;
    • tính nhất quán và nhất quán của sơ đồ phân loại theo thứ bậc;
    • cấu trúc giao nhau.

    Khối lượng của thư mục xác định mức độ tin cậy của nó hoặc "sức mạnh thông tin ". Trong một số hệ thống, có một cơ chế đặc biệt kiểm tra định kỳ tính khả dụng của trang web và loại trừ nó khỏi danh sách trong trường hợp "vắng bóng" lâu trên Web. Tính logic (khoa học) của sơ đồ phân loại được áp dụng xác định mức độ dễ dàng mà người dùng tìm thấy thông tin cần thiết. Hệ thốngtham khảo chéocho phép bạn xác định thông tin bằng các cách tiếp cận khác nhau (ví dụ: theo lãnh thổ hoặc theo ngành). Trong trường hợp này, sơ đồ phân loại sẽ tự động dẫn người dùng đến đối tượng mong muốn, bất kể đường tìm kiếm nào được chọn.

    Khả năng biên dịch một truy vấn cho loại công cụ tìm kiếm này không đóng một vai trò đặc biệt. Các tìm kiếm phức tạp đòi hỏi chi tiết yêu cầu không được thực hiện bằng danh mục.

    Thư mục được thiết kế để giải quyếtba loại nhiệm vụ:

    • định hướng trong một nhánh kiến ​​thức không quen thuộc;
    • tìm kiếm các đối tượng lớn, chẳng hạn như máy chủ của các tổ chức hoặc các dự án quan trọng;
    • có được danh sách tài nguyên được tạo sẵn có hình ảnh tìm kiếm bị mờ (thư viện thuộc một loại nhất định, lịch trình vận chuyển hoặc trang web của các đảng phái chính trị, v.v.)

    Một ví dụ khác là so sánh thư mục tài nguyên với danh mục có hệ thống của thư viện, trong đó một cuốn sách (trong trường hợp này là toàn bộ trang web) chỉ còn lại mô tả và chú thích.

    2. Công cụ tìm kiếm

    Công việc của các công cụ tìm kiếm (search engine) dựa trên các nguyên tắc công nghệ hoàn toàn khác nhau. Nhiệm vụ của công cụ tìm kiếm là cung cấp một tìm kiếm thông tin chi tiết, chỉ có thể đạt được thông qua kế toán ( lập chỉ mục ) nội dung của càng nhiều trang web càng tốt. Khác với thư mục, các công cụ tìm kiếm hoạt động theo chế độ tự động và có nguyên tắc hoạt động thống nhất.

    Công cụ tìm kiếm bao gồm hai thành phần cơ bản. Thành phần đầu tiên là chương trình robot , có nhiệm vụ di chuyển từ máy chủ này sang máy chủ khác và tìm tài liệu mới (hoặc thay đổi) ở đó, tải chúng về máy tính chính của hệ thống. Robot xem qua nội dung của tài liệu, tìm các liên kết mới, đến cả các tài liệu khác trên máy chủ và các trang bên ngoài. Sau đó, chương trình độc lập đi đến các liên kết được chỉ định, tìm các tài liệu mới, sau đó quá trình này được lặp lại một lần nữa,nhớ lại "phương pháp lăn cầu tuyết" nổi tiếng trong thư mục. Các tài liệu đã xác định được xử lý (lập chỉ mục) bởi thành phần thứ hai của công cụ tìm kiếm. Trong trường hợp này, theo quy định, tất cả nội dung của trang đều được tính đến, bao gồm văn bản, hình minh họa, tệp âm thanh và video. Tất cả các từ trong tài liệu đều được lập chỉ mục, giúp bạn có thể sử dụng các công cụ tìm kiếm để tìm kiếm chi tiết về các chủ đề hẹp nhất. Hình thành tập tin chỉ mục , lưu trữ thông tin về từ khóa nào, bao nhiêu lần, sử dụng trong tài liệu nào và trên máy chủ nào, tạo thành cơ sở dữ liệu mà thủ thư truy cập khi nhập các tổ hợp từ khóa trong chuỗi truy vấn.

    Đầu ra của kết quả được thực hiện bằng cách sử dụng một mô-đun đặc biệt tạo raxếp hạng kết quả thông minh . Điều này có tính đến:

    • vị trí của thuật ngữ trong tài liệu (tiêu đề, tiêu đề, nội dung văn bản), tần suất lặp lại của nó,
    • tỷ lệ phần trăm của cụm từ tìm kiếm trên văn bản của trang,
    • số lượng và thẩm quyền của các liên kết bên ngoài đến trang này từ các trang khác.

    Đến các thông số cơ bản của công cụ tìm kiếm kể lại:

    • số lượng máy chủ được lập chỉ mục và các tài liệu riêng lẻ (khối lượng tệp chỉ mục);
    • mức độ hiệu quả của việc cập nhật cơ sở dữ liệu bằng cách bao gồm thông tin về vật liệu mới và xóa những vật liệu lỗi thời;
    • khả năng đưa ra một yêu cầu;
    • tính thông minh của hệ thống xếp hạng kết quả tìm kiếm;
    • sự hiện diện của các chức năng dịch vụ bổ sung tạo thuận lợi cho công việc của người dùng.

    Khả năng của một công cụ tìm kiếm để diễn đạt một truy vấn càng chính xác càng tốt sẽ quyết định phần lớn đến chất lượng của các kết quả thu được. Mỗi máy có từ vựng riêng, cho phép bạn trình bày chi tiết theo các cách khác nhautìm kiếm thứ tự.

    Tất cả các công cụ tìm kiếm đều cómô-đun xếp hạng kết quả tìm kiếm. Nó là thành phần cơ bản thứ hai của tất cả các hệ thống. Danh sách các yếu tố được tính đến khi xác định vị trí của một tài liệu trong danh sách các liên kết rộng bất thường: từ vị trí của từ trên trang đến xếp hạng (thẩm quyền) của các trang liên kết đến tài liệu được tìm thấy.

    • Google (địa chỉ: www.google.com),
    • AlltheWeb (địa chỉ: www.alltheweb.com),
    • Alta Vista (địa chỉ: www.altavista.com).

    Các công cụ tìm kiếm tương tự cũng tồn tại ở Nga. Tất cả chúng đều được thiết kế để làm việc với các tài liệu tiếng Nga và có một http://www.metabot.ru).

    Kết luận về chủ đề của khối bài giảng

    Công cụ tìm kiếm thực hiện lựa chọn các trang từ cơ sở dữ liệu theo yêu cầu, sau đó các trang được sắp xếp theo mức độ phù hợp giảm dần (lưu ý A.A.)

    Trong trường hợp này, có một sự tương đồng trực tiếp với các nguyên tắc hoạt động của các danh mục tóm tắt phân tán của thư viện. Cơ hội chính tìm kiếm meta là khả năng gửi các yêu cầu của người dùng đồng thời tới các công cụ tìm kiếm khác nhau - với sự tổng hợp kết quả sau đó. (ghi chú của A.A.)

    Khi chuyển sang các thư mục, thủ thư có thể chỉ nhận được thông tin rất chung chung về chủ đề và không bao giờ - dữ liệu chi tiết: từ máy chủ của một tập đoàn lớn chứa hàng nghìn trang, thư mục sẽ chỉ hiển thị tên và một vài dòng chú thích.

    Đang tải...
    Đứng đầu