APPRILIA AGUSTI_50420026_2IA19_RANGKUMAN WEB CRAWLING_PWS PERT9
WEB
CRAWLING
APPRILIA AGUSTI
Jurusan Tekhnik
Informatika Universitas Gunadarma
Jl. KH. Noer Ali,
RT.005/RW.006A, Jakasampurna, Kota Bekasi, Jawa Barat 17145
1.
PENDAHULUAN
1.1
Latar
belakang Masalah
Pertumbuhan
teknologi Internet telah berkembang pesat dan menjadi salah satu kebutuhan
sehari-hari. Pengguna Internet di seluruh dunia mempublikasikan sumber daya
yang mereka miliki di Internet sehingga memudahkan persebaran dan akses
informasi dari mana saja. Untuk mendapatkan dan menyaring informasi yang
dibutuhkan, pengguna Internet dapat menggunakan mesin pencarian (search engine)
yang telah tersedia, misalnya Google, Yahoo, Bing, DuckDuckGo dan lain
sebagainya. Mesin pencari tersebut melakukan pencarian berdasarkan kata kunci
yang dimasukkan oleh pengguna, selanjutnya mencocokkan kata kunci dengan isi
konten yang tersebar di Internet. Sehubungan dengan keterbatasan sumber daya
komputasi dan waktu, maka dibutuhkan suatu cara untuk mengambil konten yang ada
di Internet dalam waktu yang singkat dan dapat diindeks secara otomatis serta
tersimpan pada database. Untuk memudahkan pengambilan informasi yang tersebar
dan selalu berubah-ubah di Internet dalam jumlah besar diperlukan sebuah web
crawler.
Web
Crawler atau dengan kata lain Web Spider ataupun Web Robot merupakan salah satu
komponen penting dalam sebuah mesin pencari modern. Fungsi utama Web Crawler
adalah melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di
Internet. Hasil pengumpulan situs web selanjutnya akan di indeks oleh mesin
pencari sehingga mempermudah pencarian informasi di Internet. Perancangan
sebuah web crawler yang baik saat ini masih menemui banyak kesulitan. Kesulitan
merancang sebuah web crawler dibagi menjadi dua, yaitu kesulitan secara
internal dan kesulitan secara eksternal. Secara internal, crawler harus dapat
mengatasi besarnya volume data. Sedangkan secara eksternal, crawler harus
mengatasi besar dan cepatnya perubahan situs web dan link jaringan yang ada.
Data - data yang disimpan merupakan metadata yang ada pada web tersebut,
misalnya header, content, footer, dan sebagainya. Dalam implementasi
selanjutnya diharapkan data[1]data
yang sudah tersimpan tersebut dapat diakses secara offline untuk berbagai
keperluan, salah satunya dapat digunakan sebagai repositori dokumen pembanding
pada aplikasi pendeteksian plagiarisme tugas kuliah mahasiswa.
2. LANDASAN TEORI
2.1 Definisi Web Crawler
Web crawler atau yang juga dikenal web
spider, spider bot, web bot, crawler, adalah sebuah program software komputer
yang digunakan oleh mesin pencari untuk mengindeks halaman web dan konten yang
dimiliki setiap website. Web Crawler adalah suatu program atau
script otomat yang relatif simple, yang dengan metode tertentu melakukan scan
atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data
yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot,
crawl dan automatic indexer.Web crawl dapat digunakan untuk beragam tujuan.
Penggunaan yang paling umum adalah yang terkait dengan search engine. Search
engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada
di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga
ketika pengguna Internet mengetikkan kata pencarian di komputernya, search
engine dapat dengan segera menampilkan web site yang relevan. Web crawler
menggali setiap data yang ada di internet seperti seperti : meta data, keyword,
dan lain sebagainya. Kemudian web crawler atau si (spider man) ini akan meng
index seluruh data kita ke dalam data base search engine.Sampai pada akhirnya
halaman website akan ditampilkan di SERP (search engine rage page). Indexing adalah
proses yang terbilang cukup penting karena akan membantu pengguna menemukan
kueri yang relevan dengan cepat. Indexing ini sendiri dapat
kamu bandingkan dengan pengindeksan sebuah buku, di mana kamu akan menemukan
indeks dengan daftar pertanyaan dalam urutan abjad dan halaman yang
menyebutkannya dalam buku teks.
2.2 Jenis – Jenis Crawler
1. Social
Media Crawling
Tidak
semua media sosial memungkinkan untuk dirayapi, karena beberapa jenis crawling
bisa saja ilegal dan melanggar privasi data. Namun, terdapat beberapa penyedia
platform media sosial yang terbuka terhadap hal ini, misalnya Twitter dan
Pinterest. Mereka mengizinkan spider bot untuk memindai halaman jika
tidak mengungkapkan informasi pribadi apa pun.
2. News
Crawling
Dengan
munculnya internet, berita-berita dari berbagai belahan dunia dapat diakses
dengan cepat. Untuk mengambil data tersebut dari berbagai website tentu
dapat tak terkendali.
Terdapat
banyak web crawlers yang dapat mengatasi hal ini. Perayap tersebut
mengambil data dari konten berita baru, lama, dan yang diarsipkan, hingga
membaca RSS feeds. Crawlers ini memindai informasi seperti tanggal
penerbitan, nama penulis, paragraf utama, judul utama, dan bahasa dari konten
berita tersebut.
3. Video
Crawling
Menonton
sebuah video terbilang jauh lebih mudah daripada membaca banyak konten
sekaligus. Jika kamu menyematkan video YouTube, Soundcloud, atau konten video
lainnya di website kamu, konten tersebut dapat diindeks juga oleh
beberapa web crawlers.
4. Email
Crawling
Email crawling sangat
berguna untuk mendapatkan leads karena jenis perayapan ini membantu
memindai alamat email. Namun perlu dicatat bahwa crawling jenis ini
bisa saja ilegal karena melanggar privasi serta tidak dapat digunakan tanpa
izin dari pengguna.
5. Image
Crawling
Jenis crawling ini
diterapkan pada gambar. Internet dipenuhi dengan representasi visual.
Karenanya, jenis bot ini membantu pengguna menemukan gambar yang relevan dari
jutaan gambar yang terdapat di mesin pencari.
2.3
Contoh Web Crawler
1. Googlebot
Googlebot
adalah web crawler yang paling banyak digunakan saat ini. Seperti
namanya, web crawler ini adalah milik Google.
Googlebot
mengumpulkan berbagai dokumen yang ada di sebuah website untuk membuat indeks yang dapat dicari oleh search
engine Google. Web crawler yang satu ini merujuk pada dua jenis web
crawler, yaitu desktop crawler dan mobile crawler.
2. HTTrack
HTTrack
adalah web crawler yang bersifat open source. Kamu bisa men-download situs world
wide web (www) dari internet ke komputermu sehingga kamu bisa melihatnya
secara offline. Jika sudah men-download konten situs tersebut, kamu bisa
membukanya melalui browser-mu tanpa koneksi internet.
3. Cyotek
Webcopy
Serupa dengan HTTrack, Cyotek Webcopy dapat digunakan untuk men-download situs dari internet ke komputermu. Salah satu kelebihan web crawler ini adalah memungkinkan penggunanya memilih bagian yang ingin di-download. Jadi, kamu bisa memilih apakah ingin men-download semua bagian situs, foto tertentu, dan sebagainya.
4.
Webhose
Contoh web
crawler berikutnya adalah Webhose. Webhose adalah web crawler yang
dapat mengubah konten website yang tidak terstruktur menjadi data
feeds yang dapat dibaca oleh mesin.Data feeds yang dimaksud dapat
mencakup banyak sumber data, seperti diskusi online, situs berita,
dan lainnya.
2.4
Cara Kerja Web Crawler
Search engine harus melakukan crawling dan indexing sebelum
akhirnya menampilkan konten website pada SERP mereka. Proses ini
dilakukan dengan bantuan tools yang disebut web crawler, web
robot, atau web spider. Pada dasarnya, web crawler melakukan
tugas sesuai namanya, yaitu crawling. Web crawler akan menemukan
konten di berbagai website untuk diindeks dalam search engine. Pertama,
web crawler akan mengunjungi sebuah situs dan berbagai link yang
terdapat dalam laman tersebut. Namun jika situsmu terbilang baru dan belum
ada link lain di dalamnya, kamu bisa meminta search engine untuk
mendatangi situsmu, seperti dikutip dari WebFX. Caranya mudah. Kamu hanya perlu memasukkan URL situsmu
di Google Search Console. Kemudian, tugas tools web crawling berikutnya
adalah mencatat setiap link yang mereka temukan ke indeks mereka.
Namun, perlu kamu catat bahwa web
crawler hanya akan mengumpulkan informasi dari laman yang bersifat publik,
ya. Web crawler tidak ikut mencatat laman private yang
tidak dapat diakses. Setelah itu, web crawler akan mengumpulkan
berbagai informasi, seperti tulisan dan meta tag. Informasi tersebut akan
tersimpan dalam indeks search engine sehingga dapat muncul ketika
pengguna mencari konten dengan keyword yang serupa.
3. KESIMPULAN
Sehubungan dengan keterbatasan sumber daya komputasi dan waktu, maka dibutuhkan suatu cara untuk mengambil konten yang ada di Internet dalam waktu yang singkat dan dapat diindeks secara otomatis serta tersimpan pada database. Untuk memudahkan pengambilan informasi yang tersebar dan selalu berubah-ubah di Internet dalam jumlah besar diperlukan sebuah web crawler. Web Crawler atau dengan kata lain Web Spider ataupun Web Robot merupakan salah satu komponen penting dalam sebuah mesin pencari modern. Fungsi utama Web Crawler adalah melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di Internet. Data - data yang disimpan merupakan metadata yang ada pada web tersebut, misalnya header, content, footer, dan sebagainya. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik.
Tujuan utamanya
adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata
pencarian di komputernya, search engine dapat dengan segera menampilkan web
site yang relevan. Web crawler menggali setiap data yang ada di internet
seperti seperti : meta data, keyword, dan lain sebagainya.
4. REFERENSI
https://glints.com/id/lowongan/web-crawling-adalah/#.YozFRahBw2w
https://www.exabytes.co.id/blog/apa-itu-web-crawler/
Komentar
Posting Komentar