sepenggal kisah hidup: WEB CRAWLER?

pada tugas softskill saya ini saya akan membahas tentang analisis web, yang berhubungan dengan Web Crawler ...

Tugas Softskill

firman joyo prakoso 52411897
masandi darajat 54411344
rendy anggara 55411960
reza aulia 56411038
yoga putra 57411524

- APA ITU WEB CRAWLER?

Web crawler merupakan sebuah program/script otomatis yang dapat memproses halaman web. Disebut dengan web spider atau web robot. Prinsip dasarnya sangat sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser. Bermula pada point awal berupa sebuah link alamat website dan dibuka pada browse.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

Web Crawl juga berguna untuk memastikan bahwa database mereka yang menggunakannya tetap up to date alias selalu terbaharui.

- DIGUANAKAN DIMANA?

Beberapa contoh dari Web Crawler :

1. Teleport Pro, salah satu software web crawler untuk keperluan offline browsing, software ini cukup popular terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di Tenmax .

2. HTTrack, Ditulis dengan menggunakan C, merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik dari software ini free dan dapat didownload pada website resminya di HTTrack .

3. Googlebot, web crawler untuk membangun index pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan oleh orang lain melalui Google, bisa jadi itu dari Googlebot.

4. Yahoo!Slurp, merupakan search engine Yahoo, teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

5. YaCy, berbeda dengan yang lain, YaCy dibangun atas prinsip P2p (peer-to-peer), di develop dengan java, dan didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy ialah Sciencenet, untuk pencarian dokumen di bidang sains.

- CARA KERJA CRAWLER?

Prinsip kerja Spiderbot atau Crawler pada hakekatnya adalah melakukan pemindaian (scanning) terhadap hyperlink yang terhubung ke halaman lain yang belum dikumpulkan pada halaman-halaman yang telah dikumpulkan sebelumnya.
Proses inilah yang disebut oleh para blogger sebagai "Sistem Pengindeks Google".

Spiderbot memulai kerjanya dari sejumlah halaman yang terdapat URL, kemudian melakukan scanning terhadap URL lain (outbound link) yang terhubung dari halaman tersebut.
Pekerjaan ini dilakukan secara berulang dalam sebuah siklus tanpa henti.
Sedang siklus ini sendiri diatur oleh kontrol logika yang biasanya diprogram secara khusus untuk efisiensi lebih tinggi.

Selain melakukan scanning URL dalam sebuah halaman web, Spiderbot juga akan mengirimkan teks yang terdapat dalam halaman tersebut kepada sistem pengindeks teks (text indexing system) yang akan melakukan indexing terhadap teks dan memungkinkan pencarian melalui kata kunci.

Langkah-langkah yang dilakukan spider-bot antara lain:

- Melakukan resolusi DNS
- Mengambil halaman web melalui HTTP
- Menyimpan halaman web dalam media penyimpanan
- Melakukan scanning terhadap keberadaan outbound link

Selanjutnya proses ini diulang oleh Spiderbot hingga dapat mengumpulkan halaman dalam jumlah yang mencukupi.

Dua fungsi utama web crawler adalah:

1. Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

2. Melakukan proses kunjungan/visit secara rekursif.
Dari setiap hyperlink, Web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi.

Khusus untuk proses perulangan pengunjung hyperlink, dapat terjadi spider trap, yaitu proses berulang tanpa akhir karena Web crawler terperangkap untuk terus melakukan pencarian dalam jumlah tak terbatas. Hal ini dapat terjadi secara tidak sengaja maupun sengaja.

Ketidak sengajaan dapat terjadi karena terdapat kesalahan pada desain program web crawler sehingga membaca ulang hyperlink yang sudah diakses, atau sebuah website secara tidak sengaja memiliki halaman dinamis yang tak terbatas, contohnya halaman dinamis yang tercipta berdasarkan tanggal kalender.

Kesengajaan dapat terjadi jika website memang dirancang untuk melumpuhkan Web Crawler, misalnya dengan membuat halaman dinamis dengan angka tak terhingga.