APPRILIA AGUSTI_50420026_2IA19_RANGKUMAN WEB CRAWLING_PWS PERT9

 

 WEB CRAWLING

APPRILIA AGUSTI

 Jurusan Tekhnik Informatika Universitas Gunadarma

Jl. KH. Noer Ali, RT.005/RW.006A, Jakasampurna, Kota Bekasi, Jawa Barat 17145

 

1.       PENDAHULUAN

1.1   Latar belakang Masalah

Pertumbuhan teknologi Internet telah berkembang pesat dan menjadi salah satu kebutuhan sehari-hari. Pengguna Internet di seluruh dunia mempublikasikan sumber daya yang mereka miliki di Internet sehingga memudahkan persebaran dan akses informasi dari mana saja. Untuk mendapatkan dan menyaring informasi yang dibutuhkan, pengguna Internet dapat menggunakan mesin pencarian (search engine) yang telah tersedia, misalnya Google, Yahoo, Bing, DuckDuckGo dan lain sebagainya. Mesin pencari tersebut melakukan pencarian berdasarkan kata kunci yang dimasukkan oleh pengguna, selanjutnya mencocokkan kata kunci dengan isi konten yang tersebar di Internet. Sehubungan dengan keterbatasan sumber daya komputasi dan waktu, maka dibutuhkan suatu cara untuk mengambil konten yang ada di Internet dalam waktu yang singkat dan dapat diindeks secara otomatis serta tersimpan pada database. Untuk memudahkan pengambilan informasi yang tersebar dan selalu berubah-ubah di Internet dalam jumlah besar diperlukan sebuah web crawler.

Web Crawler atau dengan kata lain Web Spider ataupun Web Robot merupakan salah satu komponen penting dalam sebuah mesin pencari modern. Fungsi utama Web Crawler adalah melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di Internet. Hasil pengumpulan situs web selanjutnya akan di indeks oleh mesin pencari sehingga mempermudah pencarian informasi di Internet. Perancangan sebuah web crawler yang baik saat ini masih menemui banyak kesulitan. Kesulitan merancang sebuah web crawler dibagi menjadi dua, yaitu kesulitan secara internal dan kesulitan secara eksternal. Secara internal, crawler harus dapat mengatasi besarnya volume data. Sedangkan secara eksternal, crawler harus mengatasi besar dan cepatnya perubahan situs web dan link jaringan yang ada. Data - data yang disimpan merupakan metadata yang ada pada web tersebut, misalnya header, content, footer, dan sebagainya. Dalam implementasi selanjutnya diharapkan data[1]data yang sudah tersimpan tersebut dapat diakses secara offline untuk berbagai keperluan, salah satunya dapat digunakan sebagai repositori dokumen pembanding pada aplikasi pendeteksian plagiarisme tugas kuliah mahasiswa.

 


2.       LANDASAN TEORI

2.1   Definisi Web Crawler

Web crawler atau yang juga dikenal web spider, spider bot, web bot, crawler, adalah sebuah program software komputer yang digunakan oleh mesin pencari untuk mengindeks halaman web dan konten yang dimiliki setiap website. Web Crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan. Web crawler menggali setiap data yang ada di internet seperti seperti : meta data, keyword, dan lain sebagainya. Kemudian web crawler atau si (spider man) ini akan meng index seluruh data kita ke dalam data base search engine.Sampai pada akhirnya halaman website akan ditampilkan di SERP (search engine rage page). Indexing adalah proses yang terbilang cukup penting karena akan membantu pengguna menemukan kueri yang relevan dengan cepat. Indexing ini sendiri dapat kamu bandingkan dengan pengindeksan sebuah buku, di mana kamu akan menemukan indeks dengan daftar pertanyaan dalam urutan abjad dan halaman yang menyebutkannya dalam buku teks.

2.2   Jenis – Jenis Crawler

1.       Social Media Crawling

Tidak semua media sosial memungkinkan untuk dirayapi, karena beberapa jenis crawling bisa saja ilegal dan melanggar privasi data. Namun, terdapat beberapa penyedia platform media sosial yang terbuka terhadap hal ini, misalnya Twitter dan Pinterest. Mereka mengizinkan spider bot untuk memindai halaman jika tidak mengungkapkan informasi pribadi apa pun.

2.     News Crawling

Dengan munculnya internet, berita-berita dari berbagai belahan dunia dapat diakses dengan cepat. Untuk mengambil data tersebut dari berbagai website tentu dapat tak terkendali. 

Terdapat banyak web crawlers yang dapat mengatasi hal ini. Perayap tersebut mengambil data dari konten berita baru, lama, dan yang diarsipkan, hingga membaca RSS feeds. Crawlers ini memindai informasi seperti tanggal penerbitan, nama penulis, paragraf utama, judul utama, dan bahasa dari konten berita tersebut.

3.     Video Crawling

Menonton sebuah video terbilang jauh lebih mudah daripada membaca banyak konten sekaligus. Jika kamu menyematkan video YouTube, Soundcloud, atau konten video lainnya di website kamu, konten tersebut dapat diindeks juga oleh beberapa web crawlers. 

4.     Email Crawling

Email crawling sangat berguna untuk mendapatkan leads karena jenis perayapan ini membantu memindai alamat email. Namun perlu dicatat bahwa crawling jenis ini bisa saja ilegal karena melanggar privasi serta tidak dapat digunakan tanpa izin dari pengguna.

 

 

5.   Image Crawling

Jenis crawling ini diterapkan pada gambar. Internet dipenuhi dengan representasi visual. Karenanya, jenis bot ini membantu pengguna menemukan gambar yang relevan dari jutaan gambar yang terdapat di mesin pencari.

 

2.3          Contoh Web Crawler

1.     Googlebot

Googlebot adalah web crawler yang paling banyak digunakan saat ini. Seperti namanya, web crawler ini adalah milik Google.

Googlebot mengumpulkan berbagai dokumen yang ada di sebuah website untuk membuat indeks yang dapat dicari oleh search engine Google. Web crawler yang satu ini merujuk pada dua jenis web crawler, yaitu desktop crawler dan mobile crawler.

2.     HTTrack

HTTrack adalah web crawler yang bersifat open source. Kamu bisa men-download situs world wide web (www) dari internet ke komputermu sehingga kamu bisa melihatnya secara offline. Jika sudah men-download konten situs tersebut, kamu bisa membukanya melalui browser-mu tanpa koneksi internet.

3.       Cyotek Webcopy

Serupa dengan HTTrack, Cyotek Webcopy dapat digunakan untuk men-download situs dari internet ke komputermu. Salah satu kelebihan web crawler ini adalah memungkinkan penggunanya memilih bagian yang ingin di-download. Jadi, kamu bisa memilih apakah ingin men-download semua bagian situs, foto tertentu, dan sebagainya.

4. Webhose

Contoh web crawler berikutnya adalah Webhose. Webhose adalah web crawler yang dapat mengubah konten website yang tidak terstruktur menjadi data feeds yang dapat dibaca oleh mesin.Data feeds yang dimaksud dapat mencakup banyak sumber data, seperti diskusi online, situs berita, dan lainnya.

 

2.4          Cara Kerja Web Crawler

Search engine harus melakukan crawling dan indexing sebelum akhirnya menampilkan konten website pada SERP mereka. Proses ini dilakukan dengan bantuan tools yang disebut web crawler, web robot, atau web spider. Pada dasarnya, web crawler melakukan tugas sesuai namanya, yaitu crawling. Web crawler akan menemukan konten di berbagai website untuk diindeks dalam search engine. Pertama, web crawler akan mengunjungi sebuah situs dan berbagai link yang terdapat dalam laman tersebut. Namun jika situsmu terbilang baru dan belum ada link lain di dalamnya, kamu bisa meminta search engine untuk mendatangi situsmu, seperti dikutip dari WebFX. Caranya mudah. Kamu hanya perlu memasukkan URL situsmu di Google Search Console. Kemudian, tugas tools web crawling berikutnya adalah mencatat setiap link yang mereka temukan ke indeks mereka.

Namun, perlu kamu catat bahwa web crawler hanya akan mengumpulkan informasi dari laman yang bersifat publik, ya. Web crawler tidak ikut mencatat laman private yang tidak dapat diakses. Setelah itu, web crawler akan mengumpulkan berbagai informasi, seperti tulisan dan meta tag. Informasi tersebut akan tersimpan dalam indeks search engine sehingga dapat muncul ketika pengguna mencari konten dengan keyword yang serupa.

 

 

3.        KESIMPULAN

Sehubungan dengan keterbatasan sumber daya komputasi dan waktu, maka dibutuhkan suatu cara untuk mengambil konten yang ada di Internet dalam waktu yang singkat dan dapat diindeks secara otomatis serta tersimpan pada database. Untuk memudahkan pengambilan informasi yang tersebar dan selalu berubah-ubah di Internet dalam jumlah besar diperlukan sebuah web crawler. Web Crawler atau dengan kata lain Web Spider ataupun Web Robot merupakan salah satu komponen penting dalam sebuah mesin pencari modern. Fungsi utama Web Crawler adalah melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di Internet. Data - data yang disimpan merupakan metadata yang ada pada web tersebut, misalnya header, content, footer, dan sebagainya. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik.

Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan. Web crawler menggali setiap data yang ada di internet seperti seperti : meta data, keyword, dan lain sebagainya.

 

4.       REFERENSI

https://glints.com/id/lowongan/web-crawling-adalah/#.YozFRahBw2w

https://www.exabytes.co.id/blog/apa-itu-web-crawler/

https://webcache.googleusercontent.com/search?q=cache:TbosFEATDWAJ:https://jurnal.untan.ac.id/index.php/justin/article/view/18687+&cd=1&hl=id&ct=clnk&gl=id

 


Komentar

Postingan populer dari blog ini

Rangkuman Regulasi Pengadaan Barang dan Jasa_APPRILIA AGUSTI_50420206_2IA19_BISNIS INFORMATIKA