IPS ialah Tujuan dan fungsi sistem pencarian maklumat
IPS ialah Tujuan dan fungsi sistem pencarian maklumat

Video: IPS ialah Tujuan dan fungsi sistem pencarian maklumat

Video: IPS ialah Tujuan dan fungsi sistem pencarian maklumat
Video: Perbedaan Lokomotif Diesel Electric dan Hidraulik 2024, Disember
Anonim

Sukar untuk orang moden membayangkan kehidupan tanpa Internet dan akses hampir serta-merta kepada sumber maklumat. Pengguna jarang memikirkan bagaimana pencarian kandungan yang dikehendaki pada rangkaian dijalankan. Tetapi ini sangat menarik.

Sistem mendapatkan maklumat (IPS) ialah sistem perisian dan perkakasan kompleks yang memilih maklumat atas permintaan pengguna. Maklumat disimpan pada pelayan dalam bentuk digital, seperti buku yang pernah ada di rak perpustakaan. Sistem ini terdiri daripada banyak subsistem. Masing-masing melaksanakan tugasnya dalam proses memproses permintaan pengguna dan memberikannya maklumat dalam bentuk teks atau bunyi. Kepelbagaian tugas yang perlu diselesaikan menentukan kerumitan seni bina sistem pencarian maklumat moden (singkatan daripada sistem pencarian maklumat). Sejenis "kotak hitam": pada input - teks permintaan, apa yang ada di dalamnya - tidak diketahui, pada output - maklumat komprehensif.

Fail kad dalam kehidupan sebenar
Fail kad dalam kehidupan sebenar

Strim input

Permintaan untuk maklumat yang dibentuk oleh seseorang dalam bentuk teks pada skrin alatnya,membentuk sebahagian kecil daripada permintaan yang diproses oleh enjin carian. Tatasusunan utama pertanyaan carian dibentuk oleh robot yang menerima permintaan manusia dan melakukan carian berbilang langkah serta maklum balas dengan pengguna. Sistem perolehan maklumat termasuk Google, Yandex dan lain-lain yang terkenal, memproses berjuta-juta permintaan setiap hari.

Objek carian sumber

Set objek awal yang menarik untuk carian ialah dokumen, rekod, video, imej dan banyak lagi. Mereka dicipta di luar IPS. Sistem penyimpanan dan perolehan maklumat am harus mempunyai sistem bibliografi terbina dalam - sejenis katalog yang membolehkan anda mencari sebarang jenis objek.

Objek atau transformasi digitalnya menjadi "sumber kemasukan" ke dalam IPS. Antaranya ialah maklumat yang diperlukan pengguna dipilih.

Cari maklumat
Cari maklumat

Sumber luar

Paparan pemilihan maklumat menggunakan sumber pengetahuan luaran. Ini adalah maklumat yang dicari oleh pengguna. Tajuk filem, petikan buku dan banyak lagi. Untuk carian komputer, maklumat ini mesti diterjemahkan ke dalam pertanyaan dalam bahasa algoritma. Dalam IPS, ini dilakukan menggunakan blok untuk mencipta, mengindeks dan membangunkan pertanyaan.

Sebaik-baiknya, ketiga-tiga proses ini-perwakilan, pengindeksan dan pembangunan pertanyaan-harus bergantung pada sumber pengetahuan yang sama, tetapi dalam amalan, ini tidak boleh dicapai.

Sumber pengetahuan hendaklah sentiasa disemak dan dikemas kini, dan kemas kini hendaklah sama dandisegerakkan. Dan sumber pengetahuan luaran sentiasa mendahului penggunaannya secara kronologi dalam enjin carian untuk pertanyaan, kadangkala selama beberapa tahun.

Sistem pencarian maklumat
Sistem pencarian maklumat

Persembahan

Perwakilan objek asal terdiri daripada data input dalam beberapa gabungan atau diubah mengikut peraturan dan algoritma sistem perolehan maklumat tertentu.

Paparan ialah lebih kurang salinan yang diubah suai bagi objek carian asal. Dalam koleksi teks penuh yang tidak disunting, setiap teks adalah perwakilannya sendiri. Dalam koleksi objek pameran dan artifak muzium, perwakilan boleh menjadi perihalan objek yang diubah dengan imejnya. Dalam sesetengah kes, representasi mungkin sebahagiannya diperoleh daripada objek asal dan sebahagiannya daripada penerangan: dalam enjin carian bibliografi, representasi diperoleh daripada objek - contohnya, tajuk, nama pengarang akan digabungkan dengan anotasi karya.

Mencari apa yang anda perlukan
Mencari apa yang anda perlukan

Indeks boleh cari

Memandangkan maklumat dalam sistem perolehan maklumat disimpan dalam bentuk perwakilan, adalah logik untuk mengandaikan bahawa carian dijalankan mengikut perwakilan dan, selepas pemilihan, diberikan kepada pengguna. Dalam amalan, ini tidak berlaku. Contohnya, katalog perpustakaan dalam talian semasa biasanya mengehadkan carian kepada beberapa medan: pengarang, tajuk dan sari kata dalam paparan yang mengandungi medan lain yang tidak dicari. Ini adalah sebab yang mencukupi mengapa perlu dibezakanpandangan dan indeks yang boleh dicari, yang merupakan bahagian carian bagi paparan. Ia mentakrifkan semua yang sepatutnya boleh dicari. Indeks yang boleh dicari, seperti paparan dan objek sumber, boleh dibahagikan kepada sub-indeks yang berasingan untuk menyediakan carian disasarkan yang lebih tepat

Enjin carian biasanya mempunyai struktur sintetik secara dalaman untuk memadankan hasil carian yang sah. Struktur ini ialah komponen kedua bagi indeks yang boleh dicari.

Secara prosedur, proses pengindeksan boleh dilaksanakan dengan cara yang berbeza: indeks yang boleh dicari boleh diperolehi melalui:

  • menyalin perwakilan yang boleh dicari secara literal;
  • dengan menyalin butiran paparan. Ini mungkin sebahagian atau semua pandangan yang wujud secara fizikal hanya sebagai serpihan, diedarkan mengikut peraturan untuk membuat indeks untuk carian, yang akan dikumpulkan apabila perlu.
Pengurusan carian
Pengurusan carian

Minta Peraturan Reka Bentuk dan Permintaan Rasmi

Kejuruteraan pertanyaan ialah fungsi yang menjadi pengantara antara pertanyaan pengguna dan pertanyaan rasmi. Ia mengubah pertanyaan pengguna, memadankannya dengan kamus arahan mendapatkan semula, spesifikasi indeks dan indeks sebelum mendapatkan semula. Pada awal perkembangan IPS, peranan ini secara tradisinya diberikan kepada pakar IT yang berkelayakan.

Membangunkan pertanyaan komputer yang boleh memadankan pertanyaan kamus ke dalam sistem indeks yang boleh dicari biasanya dirujuk sebagai modul "input kamus". Automasi fungsi ini menjanjikan dan menawarkan peluang untuk kaedah carian pakar dan probabilistik.

Permintaan rasmi menjadi permintaan rasmi selepas permintaan pengguna telah ditukar. Contoh transformasi formal tersebut termasuk pemotongan, penggantian, normalisasi, vektorisasi dan transformasi lain bagi perwakilan "luaran" kepada perwakilan "dalaman" IPS komputer (penyahsulitan - sistem perolehan maklumat).

Set Pautan Dokumen yang Diekstrak

Set sumber maklumat yang terhasil secara logiknya merupakan subset daripada pandangan yang dibuat oleh peraturan padanan yang digunakan pada pertanyaan rasmi oleh indeks yang boleh dicari.

Biasanya, tetapi tidak semestinya, terdapat proses pengisihan berasingan untuk set maklumat yang dipulihkan. Katalog perpustakaan dalam talian biasanya menyusun semula set yang diterima mengikut abjad oleh pengarang sebelum dipaparkan. Dalam sistem perolehan maklumat yang menghasilkan kedudukan yang ketat, susunan kedudukan mendahului sebarang susunan semula.

Analisis data
Analisis data

Strim output

Output hasil carian dilakukan secara tradisional pada paparan, lebih kerap dalam bentuk aliran objek untuk digunakan di tempat lain atau untuk tujuan lain, melengkapkan gelung carian utama. Strim sedemikian boleh dihantar ke peranti visualisasi, storan untuk pemprosesan selanjutnya atau gunakan sebagai aliran input kepada perkhidmatan pemilihan lain.

Sistem perolehan maklumat membenarkan maklum balas daripadahasil daripada sebarang proses pemilihan. Output daripada sebarang proses boleh menjadi maklum balas kepada proses lain. Maklum balas boleh menyediakan asas untuk pertimbangan pakar pada mana-mana peringkat.

Disyorkan: