1/16/2013

Cara Membuat File Robots.txt untuk SEO


Robots.txt adalah sebuah file teks yang secara de-facto dijadikan sebagai rujukan awal oleh program penelusur milik mesin pencari (search engine) atau layanan internet sejenis. Program penelusur yang lazim disebut sebagai web robotweb crawler, atau web spider, akan memeriksa apakah sebuah situs memiliki file robots.txt dan kemudian memeriksa instruksi yang diberikan di dalamnya. Para robot mesin pencari ini kemudian akan mengindeks halaman web berdasarkan isntruksi yang ada di filerobots.txt.

web robots

Dengan membuat file robots.txt dan menempatkannya di website Anda, maka proses indeks dapat lebih efektif dan terkontrol. Sebagai contoh, jika Anda tidak ingin halaman-halaman tertentu diindeks dan kemudian ditampilkan di mesin pencari, maka Anda dapat melarangnya melalui file robots.txt. Penerapannya bisa untuk melarang indeks ke lokasi halaman yang sudah dihapus, melarang lokasi yang rawan dianggap duplikasi konten secara SEO (misalnya tag atau kategori), dan sebagainya. Anda juga bisa memblokir robot dari situs tertentu yang tidak jelas fungsinya namun menghabiskan bandwidth hosting Anda.

Ada dua bagian perintah utama yang lazim digunakan di file robots.txt, yaitu :
  • User-agent: untuk menetapkan pengaturan pada robot yang tercantum di bagian ini. Jika pengaturan diberlakukan untuk semua robot, maka gunakan simbol bintang *.
  • Disallow: untuk menetapkan halaman mana yang tidak boleh diindeks oleh robot yang disebutkan di bagian User-agent. Perintah pelarangan diawali dengan simbol garis miring /.
Berikut ini beberapa contoh penulisan perintah di dalam file robots.txt:

Untuk mempersilakan semua program robot untuk mengindeks situs Anda, maka cukup tuliskan baris berikut:
User-agent: *
Disallow:
Penjelasan: semua robot tidak ada yang dilarang alias bebas mengindeks. Perintah ini paling lazim digunakan para pemilik situs.

Sebaliknya, jika ingin melarang robot manapun untuk mengindeks situs Anda, maka tuliskan baris berikut:
User-agent: *
Disallow: /
Penjelasan: semua robot dilarang mengindeks (misalnya dipakai di situs underground)

Untuk melarang para robot mengakses halaman tertentu, tuliskan baris berikut:
User-agent: *
Disallow: /login.html
Disallow: /cadangan/
Disallow: /member/info.php
Penjelasan: robot tidak boleh mengindeks file login.html, folder cadangan, dan halaman info.php di folder member.

Untuk melarang sebuah program robot tertentu namun mengijinkan robot-robot lainnya, tuliskan baris berikut:
User-agent: NamaRobot
Disallow: /
Penjelasan: robot bernama NamaRobot tidak boleh mengindeks, yang lain boleh (baca catatan di bagian akhir untuk mengenal nama robot).

Untuk mengijinkan sebuah robot tertentu dan melarang robot-robot lainnya, tuliskan baris berikut:
User-agent: Google
Disallow:

User-agent: *
Disallow: /
Penjelasan: robot Google boleh mangeindeks, lainnya tidak boleh.

Sebagai tip, Anda juga dapat menuliskan lokasi file sitemap.xml situs Anda di baris terakhir:
User-agent: *
Disallow:

Sitemap: http://www.komputeran.com/feeds/posts/default?orderby=updated
Penjelasan: tambahkan url lengkap alamat file sitemap situs Anda. Jika punya beberapa sitemap, tuliskan di baris berikutnya.

Beberapa robot mesin pencari terkemuka juga bisa memahami penggunaan wildcard untuk melarang beberapa lokasi dengan satu atau dua baris perintah:
User-agent: * 
Disallow: /*.pdf$
Disallow: /arsip*/
Penjelasan: baris kedua melarang semua robot mengindeks semua file pdf. Baris ketiga melarang pengindeksan pada folder-folder yang diawali dengan kata arsip (misalnya /arsip-2010, /arsip-2011, /arsiplama, dan sebagainya).

Catatan penting:
  • Hati-hati dalam menyusun perintah di robots.txt, kesalahan perintah bisa berakibat situs Anda tidak diindeks oleh mesin pencari.
  • File robots.txt harus diberi nama persis: robots.txt dan bukan dengan nama lain (pastikan huruf kecil semua).
  • File robots.txt harus diletakkan di direktori utama (root). Contoh:http://www.komputeran.com/robots.txt .
  • Khusus pengguna Blogger, Anda dapat membuat file robots.txt untuk blog Anda via fitur yang telah tersedia di bagian: Setelan > Preferensi penelusuran > Perayap dan pengindeksan.
  • Jika Anda ingin melarang program robot tertentu namun tidak mengetahui nama User-agent-nya, maka periksa log atau analisis statistik situs Anda, atau temukan daftarnya di situs http://www.user-agents.org.
  • Jika Anda ingin agar sebuah halaman atau folder rahasia di situs Anda tidak diindeks program robot, sebaiknya jangan menggunakan robots.txt untuk melarangnya. Hal ini disebabkan file robots.txt dapat diakses dan dilihat oleh siapapun, sehingga justru akan menjadi bumerang. Gunakan file .htaccess atau metode pengaman lainnya jika memang Anda ingin benar-benar merahasiakan lokasi tertentu.
[source]