Pemahaman mendalam tentang cara kerja mesin pencari

Cara Kerja Mesin Pencari

Prinsip kerja mesin pencari ditunjukkan pada Gambar 1, yang terutama meliputilaba-laba merangkakdanambil dan bangun perpustakaandanpemrosesan webdanlayanan pengambilanmenanggapi dalam bernyanyiPresentasi hasilMasing-masing dari kelima area tersebut dijelaskan di bawah ini.

Penjelasan tentang prinsip kerja mesin pencari — Gambar 1 Penjelasan diagram prinsip kerja mesin pencari (Gambar dari Ensiklopedia Baidu)

Langkah 1: Merayap Laba-laba

Masalah pertama yang harus dipecahkan oleh mesin pencari adalah bagaimana cara mengakses dan memanfaatkan informasi yang sangat banyak di Internet secara efektif.Untuk mencapai tujuan ini, sistem perayapan data telah menjadi salah satu komponen yang sangat diperlukan dari mesin pencari. Sistem perayapan data terutama bertanggung jawab untuk mengumpulkan, menyimpan, dan memperbarui informasi di Internet. Mesin pencari dapat diibaratkan sebagai laba-laba, yang merayapi Internet, oleh karena itu mesin pencari juga dikenal sebagai laba-laba web atau laba-laba mesin pencari. Setiap laba-laba web memiliki namanya sendiri, seperti BaiduSpider dari Baidu, Sogou Web Spider dari Sogou, Googlebot dari Google, dan Bingbot dari Bing.

Ketika merayapi halaman web, mesin pencari menjalankan beberapa laba-laba secara bersamaan. Mereka merayapi dari sejumlahLokasi benih yang pentingPertama-tama, URL baru terus ditemukan dan dirayapi melalui hyperlink di halaman web, dan proses ini diulangi lagi dan lagi untuk merayapi sebanyak mungkin halaman web. Karena halaman web di Internet dapat dimodifikasi, dihapus, atau muncul hyperlink baru kapan saja, mesin pencari besar seperti Baidu
Mesin harus terus diperbarui dengan halaman yang telah dirayapi di masa lalu.

Ketika laba-laba merayapi sebuah situs, pertama-tama ia akan memeriksa apakah ada file Robots.txt di direktori root situs tersebut. Jika ada, konvensi di dalamnya digunakan untuk menentukan cakupan halaman web yang akan dirayapi.Saat memasuki sebuah situs web, laba-laba akan merayapi semua halaman di situs web tersebut menggunakan strategi seperti kedalaman-pertama, lebar-pertama, atau terbaik-pertama.

1. Strategi yang mengutamakan kedalaman

Laba-laba web awal biasanya merayap menggunakan strategi kedalaman-pertama.Cara kerja strategi depth-first adalah setelah merayapi sebuah halaman web, jika ada tautan lain di dalamnya, laba-laba akan terus merayapi salah satu tautan tersebut ke halaman web berikutnya, kemudian mencari tautan baru di halaman web tersebut dan terus merayapi lebih dalam.Proses ini akan terus berlanjut hingga tidak ada tautan yang belum dijelajahi dan laba-laba akan kembali ke halaman web awal dan kemudian melanjutkan perayapan lebih dalam melalui tautan lain. Hanya ketika semua tautan telah dilalui, maka seluruh proses perayapan akan berakhir, seperti yang ditunjukkan pada Gambar 2.

Strategi Perayapan Dalam — Gbr. 2 Strategi perayapan dengan kedalaman pertama

Urutan perayapan kedalaman pertamaYa: n sub-kolom halaman beranda situs web→A1→A2→---------→A. Halaman beranda situs web→B1→B2→---------→n sub-kolom dari B. Halaman beranda→C1→C2→---------→n sub-kolom dari C. Beranda→D1→D2→---------→n sub-kolom D.

2. Strategi yang mengutamakan lebar

Strategi Breadth-first adalah strategi perayapan di mana laba-laba web datang ke sebuah halaman web dan merayapi semua tautan di halaman tersebut terlebih dahulu, lalu merayapi tingkat tautan web berikutnya.

Strategi perayapan dengan mengutamakan lebar — Gbr. 3 Strategi perayapan lebar-dulu

Urutan perayapan lebar pertamaYa: Halaman beranda situs web → Semua halaman tautan tingkat pertama (A, B, C, ---------) → Semua halaman tautan tingkat kedua (A1, A2 ---------B1, B2 ---------) → Semua halaman tautan tingkat kedua (A11, A12 ---------B21, B22 ---------).

3. Strategi Prioritas Terbaik

Strategi prioritas terbaik adalah strategi perayapan yang ketika laba-laba web tiba di sebuah halaman web, ia mengumpulkan semua tautan di dalamnya ke dalam basis alamat dan menganalisisnya, yang kemudian menyaring tautan yang lebih penting untuk dirayapi. Faktor-faktor yang mempengaruhi pentingnya tautan terutama adalah nilai PR (PageRank, algoritme peringkat halaman), ukuran situs web, dan kecepatan respons. Dalam strategi ini, ketika nilai PR sebuah tautan lebih tinggi, semakin besar ukuran situs, semakin cepat kecepatan respons, maka tautan tersebut akan diprioritaskan untuk dirayapi.

Tautan pengetahuan →Klik di sini untuk melihat pengetahuan ensiklopedi PR

Nilai PR didasarkan pada tautan eksternal situs dan jumlah serta kualitas tautan internal untuk mengukur popularitas standar situs, yang dibagi menjadi 0 ~ 10. Nilai PR yang lebih tinggi menunjukkan bahwa situs tersebut lebih populer (semakin penting). Misalnya, nilai PR 1; menunjukkan bahwa situs tersebut tidak terlalu populer; sedangkan nilai PR 7 ~ 10, situs tersebut sangat populer (sangat penting). Secara umum, situs web dengan nilai PR 4 menunjukkan bahwa situs web tersebut lebih populer.

Langkah 2: Merayap untuk membangun perpustakaan

Setelah jangka waktu yang lama, laba-laba web dapat merayapi semua halaman web di Internet, tetapi sumber daya halaman web ini sangat besar, dan juga bercampur dengan sejumlah besar "halaman web sampah", ditambah dengan sumber daya mesin pencari yang terbatas, biasanya hanya sebagian dari halaman web yang dirayapi ke dalam database.

Ketika laba-laba web tiba di sebuah halaman web, pertama-tama laba-laba web akan mendeteksi isinya dan menilai apakah informasi di dalamnya adalah "spam" (misalnya, adanya sejumlah besar konten duplikat, kode yang kacau, atau tingkat pengulangan yang tinggi dari konten yang telah dimasukkan, dll.). Setelah mendeteksi, web spider akan memasukkan halaman web yang berharga dan menyimpan informasi halaman web tersebut ke dalam basis data halaman asli.

Langkah 3: Pemrosesan Halaman Web

Setelah web spider merayapi data halaman web, halaman web tidak dapat langsung digunakan untuk layanan pengindeksan karena jumlah datanya yang terlalu besar, web spider juga harus melakukan banyak pekerjaan pra-pemrosesan, seperti penataan halaman web, pemisahan kata, penghilangan kata, pengurangan noise, penghilangan penekanan, membangun pustaka pengindeksan, melakukan analisis tautan dan integrasi data, dan lain sebagainya.

1. Halaman web terstruktur

Dalam data halaman web yang dirayapi oleh laba-laba web, selain teks yang terlihat yang dapat dilihat oleh pengguna di browser mereka, juga berisi tag HTML, program JavaScript, navigasi, tautan ramah, iklan, dan konten lain yang tidak dapat digunakan untuk penghitungan peringkat. Halaman web terstruktur menghapus konten-konten ini dari data halaman web dan mempertahankan teks isi, konten tag , teks jangkar, anotasi gambar dan video, dll. yang dapat digunakan untuk pemeringkatan.
Seperti dalam kode di bawah ini.

<div id="baike-title">
    <h1>
<span class="title">Youyuan SEO</span>
    </h1>
</div>

Setelah menyusun halaman, teks yang tersisa yang digunakan untuk pemeringkatan adalah "Youyuan SEO"

2. Segmentasi

Terminologi ini khusus untuk mesin pencari berbahasa Mandarin, karenaBahasa seperti bahasa Inggris memiliki spasi yang memisahkan kata satu sama lain, sedangkan bahasa Mandarin tidak memiliki pemisah antar kata, sehingga mesin pencari harus terlebih dahulu memecah kalimat menjadi beberapa kata.Sebagai contoh."Youyuan SEO"akan dibagi menjadi 2 kata yaitu "Woo-won" dan "SEO".

Ada banyak metode pemisahan kata, terutama termasuk pemisahan kata berbasis kamus, pemisahan kata berbasis arti kata, dan pemisahan kata berbasis statistik. Saat ini, mesin pencari utama biasanya menggabungkan ketiga metode ini untuk membentuk satu set sistem pemisahan kata.

3. Pergi untuk menghentikan kata-kata

Baik dalam bahasa Inggris atau Mandarin, konten halaman akan memiliki frekuensi yang tinggi, tetapi konten artikel tidak memiliki arti sebenarnya dari kata henti, seperti bahasa Mandarin "ah" "ha" "ah" "yah" "the" "ground" "get" dan seterusnya, bahasa Inggris "a" "an "yang", "dari", "ke", dan sebagainya. Karena kata henti pada konten halaman tidak memiliki arti utama, maka mesin pencari akan menghapus kata-kata tersebut, sehingga baik data indeks untuk membuat subjek lebih menonjol, tetapi juga untuk mengurangi banyak perhitungan yang tidak perlu.

4. Pengurangan kebisingan

Di dalam konten halaman, ada juga bagian konten yang tidak begitu relevan dengan tema halaman, misalnya, teks pemberitahuan hak cipta, bilah navigasi, iklan, dan sebagainya. Ini sama sekali tidak terkait dengan tema halaman konten yang termasuk dalam noise, tema halaman hanya dapat berperan sebagai gangguan. Oleh karena itu, mesin pencari perlu mengidentifikasi dan menghilangkan noise. Metode dasar pengurangan kebisingan didasarkan pada tag HTML pada halaman untuk memotong, membedakan header, navigasi, body, footer, iklan, dan area lainnya, area konten yang tidak relevan dihapus, sisanya adalah konten utama halaman.

5. Menghilangkan pembobotan

Ada juga sejumlah besar konten duplikat di Internet, "yang terutama dihasilkan oleh reproduksi timbal balik situs web dan penggunaan templat web. Dalam pencarian pengguna, jika hasil pencarian berisi sejumlah besar konten yang identik, itu akan mengurangi pengalaman pengguna, sehingga mesin pencari perlu diindeks sebelum identifikasi konten duplikat dan pemrosesan, proses ini disebut "de-duplikasi".

Metode dasar de-duplikasi adalah menghitung sidik jari kata kunci karakteristik halaman, yaitu memilih bagian kata kunci yang paling sering muncul dari konten utama halaman, lalu menghitung sidik jari digital dari kata kunci tersebut. Jika sidik jari kata kunci dari halaman tersebut sama, halaman yang bersangkutan akan dinilai sebagai konten duplikat, tidak disertakan.

Selain itu, penambahan sederhana dari "the" "ground" untuk "get" atau menukar urutan paragraf dengan cara semu, dan tidak dapat melarikan diri dari algoritme penekanan mesin pencari, ini karena jenis operasi ini tidak dapat mengubah karakteristik artikel dari kata kunci.

6. Pembentukan perpustakaan indeks

Setelah konten halaman web diproses dengan sub-kata, penghilangan kata henti, pengurangan noise dan penghilangan penekanan, kumpulan kata kunci yang mencerminkan konten utama halaman dapat diperoleh.Mesin pencari akan mencatat frekuensi setiap kata kunci dalam halaman, berapa kali, format (seperti judul, cetak tebal, teks jangkar, dll.), Lokasi dan informasi lainnya, dan berdasarkan informasi ini untuk menghitung pentingnya setiap kata kunci, dan kemudian sesuai dengan pentingnya kata kunci untuk mengurutkan. Mesin pencari akan membangun halaman dan kata kunci yang sesuai ke dalam indeks ortografis dan menyimpannya ke dalam perpustakaan indeks.

Melalui indeks ortografis dapat dengan cepat menemukan halaman yang berisi kata kunci yang mana, tetapi pencarian sebenarnya adalah melalui kata kunci untuk menemukan halaman yang berisi kata kunci tersebut. Di indeks baris depan, Anda perlu memindai setiap halaman untuk menentukan apakah mengandung kata kunci yang sesuai, perhitungannya besar, tidak dapat memenuhi hasil peringkat pengembalian waktu nyata. Oleh karena itu, mesin pencari juga akan direkonstruksi menjadi indeks terbalik, halaman ke pemetaan kata kunci menjadi pemetaan kata kunci ke halaman

Dalam indeks terbalik, setiap kata kunci berhubungan dengan serangkaian halaman. Ketika pengguna mencari sebuah kata kunci, ia dapat segera menemukan semua halaman yang mengandung kata kunci tersebut dengan menemukan kata kunci tersebut di dalam indeks terbalik.

7. Melakukan analisis tautan

Saat membeli barang di Internet, pengguna tidak hanya menelusuri deskripsi barang dari penjual, tetapi juga memeriksa evaluasi pembeli terhadap barang tersebut. Ada situasi yang sama ketika mesin pencari mengurutkan halaman. Selain mempertimbangkan kepadatan kata kunci dan posisi halaman web itu sendiri, juga perlu memperkenalkan kriteria selain halaman web untuk mengukur halaman web. Di halaman web di luar standar, analisis tautan cukup penting, mesin pencari akan menganalisis semua tautan eksternal yang ditautkan ke halaman web, jumlah dan kualitas tautan eksternal dapat mencerminkan kualitas halaman web dan relevansinya dengan kata kunci.

Analisis tautan memakan waktu karena banyaknya jumlah halaman web di Internet dan fakta bahwa hubungan tautan antar halaman web diperbarui setiap saat. Mesin pencari harus menyelesaikan analisis tautan sebelum dapat melakukan pengindeksan terbalik, yang akan berdampak pada peringkat indeks.

8. Melakukan integrasi data

Selain file HTML, mesin pencari biasanya dapat merayapi dan mengindeks berbagai jenis file berbasis teks, seperti file PDF, XLS, PPT, TXT, dan sebagainya. Namun, untuk konten non-teks seperti gambar, video, animasi, dan sebagainya, mesin pencari belum dapat memprosesnya secara langsung, hanya melalui teks penjelas.

Format data yang berbeda disimpan secara terpisah, tetapi ketika mengindeks dan menyortir, mesin pencari cenderung menghubungkan konten yang terkait dengan data untuk menentukan relevansi dan kepentingannya, dan kemudian membentuk basis data akhir yang dapat ditelusuri yang kondusif untuk peringkat penelusuran.

Langkah 4: Mengambil layanan

Setelah mesin pencari membangun basis data pencarian, mesin pencari dapat menyediakan layanan pencarian bagi pengguna. Saat pengguna memasukkan kata kunci pencarian, mesin pencari pertama-tama akan memproses kata kunci pencarian, memfilter dan membaginya, lalu mengekstrak halaman yang cocok dari database indeks, dan kemudian mengurutkan skor halaman secara komprehensif melalui dimensi yang berbeda, dan akhirnya mengoptimalkan hasil dengan mengumpulkan data pencarian pengguna untuk mendapatkan hasil pencarian akhir.

1. Menangani istilah pencarian

Memproses kata kunci pencarian dan memproses kata kunci halaman yang mirip dengan mesin pencari pada kata kunci pencarian input pengguna juga perlu dibagi menjadi kata-kata dan pengurangan noise dan pemrosesan lainnya, yaitu dibagi menjadi frasa kunci, dan menghilangkan hasil pencarian arti kata tersebut tidak bagus. Seperti mengetik "layar biru komputer bagaimana melakukan ah", mesin pencari akan dipecah menjadi "komputer" "layar biru" "bagaimana melakukan "3 kata kunci, seperti yang ditunjukkan pada Gambar 4.

Pemrosesan istilah pencarian — Gambar 4 Memproses istilah pencarian

2. Ekstrak halaman

Tentukan kata kunci yang baik, mesin pencari akan mengambil dari database pencarian yang berisi halaman kata kunci, tetapi halaman ini tidak semua akan berpartisipasi dalam peringkat. Karena hasil pencarian umumnya akan memiliki ratusan ribu atau bahkan puluhan juta item, jika semua diperingkat, mesin pencari akan sangat banyak melakukan perhitungan, kecepatannya akan sangat lambat, dan pengguna biasanya hanya akan melihat hasil beberapa halaman pertama. Oleh karena itu, mesin pencari biasanya hanya menampilkan 100 halaman hasil pencarian. Menurut perhitungan default 10 hasil pencarian per halaman, mesin pencari biasanya hanya perlu mengembalikan 1000 hasil pencarian!

3. Peringkat komprehensif

Mesin pencari akan didasarkan pada berbagai aspek skor halaman yang terlibat dalam pemeringkatan peringkat komprehensif untuk mendapatkan hasil pencarian akhir. Kriteria untuk peringkat komprehensif terutama mencakup aspek-aspek berikut.

Relevansi:Sejauh mana konten halaman cocok dengan istilah pencarian. Mesin telusur mengevaluasi seberapa baik sebuah halaman cocok dengan istilah penelusuran berdasarkan faktor-faktor seperti jumlah istilah penelusuran yang disertakan di halaman, posisi istilah di halaman, dan teks jangkar yang digunakan oleh halaman lain untuk mengarahkan ke halaman tersebut.
Otoritas:Situs web yang otoritatif biasanya menyediakan konten yang lebih otentik dan dapat diandalkan sehingga memiliki keunggulan yang lebih tinggi dalam peringkat. Mesin pencari menilai otoritas situs web berdasarkan kredibilitas dan reputasinya dan memberi peringkat halaman situs web yang lebih otoritatif lebih tinggi.
Ketepatan waktu:Mesin pencari melihat apakah halaman tersebut merupakan halaman yang baru saja diterbitkan dan apakah konten halaman tersebut merupakan informasi terbaru. Seiring berjalannya waktu, ketepatan waktu menjadi semakin penting dalam peringkat kutipan pencarian.
Kekayaan:Keragaman dan kelengkapan konten halaman. Jika konten halaman kaya dan beragam, tidak hanya dapat memenuhi kebutuhan tunggal pengguna, tetapi juga memenuhi berbagai kebutuhan pengguna yang lebih luas.
Pembobotan:Mesin pencari juga akan memberi bobot pada beberapa halaman khusus. Misalnya, halaman seperti situs web resmi dan saluran khusus dapat diberi peringkat lebih tinggi.
Downgrade:Mesin pencari juga akan menurunkan peringkat beberapa halaman web yang dicurigai melakukan kecurangan untuk memastikan kualitas dan keandalan hasil pencarian.

4. Pengoptimalan Penelusuran

Terakhir, mesin pencari juga mengoptimalkan hasil pencarian berdasarkan informasi seperti alamat IP, waktu pencarian, riwayat pencarian sebelumnya, dan halaman yang dilihat.

Secara umum, melalui alamat IP, kami dapat memperoleh wilayah pengguna, dan sesuai dengan kebiasaan pencarian pengguna di setiap wilayah, kami dapat mengembalikan hasil peringkat dari wilayah spesifik pengguna. Melalui waktu pencarian, catatan pencarian sebelumnya dan halaman web yang dijelajahi serta informasi lainnya dapat memahami minat, kekhawatiran, dll. Pengguna, sehingga kami dapat memberikan hasil pencarian yang lebih akurat dan personal.

Langkah 5: Presentasi hasil

Saat ini, hasil pencarian mesin pencari disajikan dalam berbagai bentuk, seperti ringkasan, gambar, video, unduhan perangkat lunak, langkah demi langkah, dan informasi berita.

Gaya abstrak:Cara penyajian yang paling primitif hanya menampilkan judul, ringkasan yang relevan, dan tautan yang relevan, seperti yang ditunjukkan pada Gambar 5 di bawah ini. Penyajian situs web perusahaan dan situs web informasi sebagian besar dalam bentuk ringkasan.

Gaya Gambar:Sebuah gambar ditampilkan di atas gaya ringkasan, seperti yang ditunjukkan pada Gambar 6 di bawah ini

Gaya Video:Ini digunakan untuk menampilkan halaman web yang berisi video, menampilkan gambar thumbnail video bersama dengan informasi seperti durasi video di atas gaya ringkasan, seperti yang ditunjukkan pada Gambar 7:

Gaya pengunduhan perangkat lunak:Digunakan untuk menampilkan halaman untuk menyediakan unduhan perangkat lunak, selain judul, juga akan menampilkan ikon perangkat lunak, versi, ukuran, waktu pembaruan, lingkungan operasi dan informasi lainnya serta tombol untuk mengunduh, klik tombol yang sesuai untuk mengunduh perangkat lunak secara langsung, seperti yang ditunjukkan pada Gambar 8:

perangkat lunak dapat diunduh — Gbr. 8 Jenis unduhan perangkat lunak

Langkah demi langkah:Ini terutama digunakan untuk menampilkan langkah-langkah operasi, dan akan menampilkan beberapa gambar mini dan teks singkat dari langkah-langkah tersebut, seperti yang ditunjukkan pada Gambar 9.

Gaya Umpan Berita:Ini akan menampilkan judul beberapa item berita, situs penerbitan dan waktu penerbitannya, dan akan menampilkan informasi ringkasan item berita, seperti yang ditunjukkan pada Gambar 10.

Artikel asli oleh Woo-won SEO, jika direproduksi, sebutkan sumbernya: https://www.ycsu.com/id/236/

Pandangan mendalam tentang cara kerja mesin pencari

Cara Kerja Mesin Pencari

Langkah 1: Merayap Laba-laba

1. Strategi yang mengutamakan kedalaman

2. Strategi yang mengutamakan lebar

3. Strategi Prioritas Terbaik

Langkah 2: Merayap untuk membangun perpustakaan

Langkah 3: Pemrosesan Halaman Web

1. Halaman web terstruktur

2. Segmentasi

3. Pergi untuk menghentikan kata-kata

4. Pengurangan kebisingan

5. Menghilangkan pembobotan

6. Pembentukan perpustakaan indeks

7. Melakukan analisis tautan

8. Melakukan integrasi data

Langkah 4: Mengambil layanan

1. Menangani istilah pencarian

2. Ekstrak halaman

3. Peringkat komprehensif

4. Pengoptimalan Penelusuran

Langkah 5: Presentasi hasil

Tinggalkan Balasan

Pandangan mendalam tentang cara kerja mesin pencari

Cara Kerja Mesin Pencari

Langkah 1: Merayap Laba-laba

1. Strategi yang mengutamakan kedalaman

2. Strategi yang mengutamakan lebar

3. Strategi Prioritas Terbaik

Langkah 2: Merayap untuk membangun perpustakaan

Langkah 3: Pemrosesan Halaman Web

1. Halaman web terstruktur

2. Segmentasi

3. Pergi untuk menghentikan kata-kata

4. Pengurangan kebisingan

5. Menghilangkan pembobotan

6. Pembentukan perpustakaan indeks

7. Melakukan analisis tautan

8. Melakukan integrasi data

Langkah 4: Mengambil layanan

1. Menangani istilah pencarian

2. Ekstrak halaman

3. Peringkat komprehensif

4. Pengoptimalan Penelusuran

Langkah 5: Presentasi hasil

Direkomendasikan

Tinggalkan Balasan