1. Robots.txt nedir?
  • Alan adının kök dizininde bulunan (https://siteadresi.com/robots.txt gibi)
  • Düz metin (plain text) formatında bir dosyadır.
  • Arama motoru botları, siteyi taramaya başlamadan önce genelde ilk bu dosyayı kontrol eder.

Temel amaçları:
  • Gereksiz/önemsiz sayfaların taranmasını sınırlamak (ör: filtre sayfaları, arama sonuçları, admin paneli vb.)
  • Sunucuya binen tarama yükünü azaltmak
  • Belirli botları engellemek veya yönlendirmek

2. Robots.txt ne işe yaramaz?
Burası önemli:

  • robots.txt gizlilik aracı değildir. Bir URL’i robots.txt ile engellesen de, URL; harici linklerden dolayı yine arama sonuçlarında “başlıksız” görünebilir.
  • Sayfanın indekslenmesini kesin olarak engellemek istiyorsan esas yöntem
    Kod:
    <meta name="robots" content="noindex">
    ya da HTTP header ile noindex kullanmaktır.
  • robots.txt, zaten indekslenmiş bir sayfayı sonuçlardan otomatik kaldırmaz.

3. Temel robots.txt örnekleri

a) Her şeye izin veren basit yapı
Kod:
User-agent: *
Disallow:
Sitemap: https://www.siteadresi.com/sitemap.xml

b) Tüm botlara /admin ve /tmp klasörlerini yasaklamak
Kod:
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Sitemap: https://www.siteadresi.com/sitemap.xml

c) Bazı dosya türlerini taratmayı engellemek
Kod:
User-agent: *
Disallow: /*.pdf$
Disallow: /*.zip$

d) Sadece belirli bir bota özel kural yazmak (ör. Googlebot)
Kod:
User-agent: Googlebot
Disallow: /deneme/

User-agent: *
Disallow:

4. Temel direktifler (kurallar)

  • User-agent: Hangi bota hitap ettiğini belirtir. * tüm botlar demektir.
  • Disallow: Bu yolun taranmasını engeller. Ör: Disallow: /admin/
  • Allow: Engellenen bir yol içinde istisna tanımlar (Google destekler).
    Ör:
    Kod:
    User-agent: *
    Disallow: /uploads/
    Allow: /uploads/public/
  • Sitemap: XML site haritanın adresini belirtir.
    Ör: Sitemap: https://www.siteadresi.com/sitemap.xml

5. SEO açısından robots.txt nasıl kullanılmalı?

Dikkat etmen gereken ana noktalar:
  • Önemli sayfaları (kategori, ürün, içerik) asla yanlışlıkla engelleme. En sık yapılan hatalardan biri:
Robots.txt .webp


Kritik hata örneği:
Kod:
User-agent: *
Disallow: /
Bu, tüm sitenin tüm botlara kapandığı anlamına gelir.

  • Tarama bütçesini boşa harcayan URL’leri engellemek mantıklı:
    • Site içi arama sayfaları (/search? gibi)
    • Filtre/kombinasyon parametreleri (?color=, ?sort=, vb.)
    • Gereksiz tekrar eden listelemeler
  • Ama indekslenmesini istediğin ama taranmaması gereken yerlerde robots.txt kullanma; bunun yerine noindex + gerekiyorsa nofollow kullan.
  • Google, robots.txt ile engellenen bir sayfayı taramaz; dolayısıyla içindeki noindex etiketini de göremez.

6. Hazırlama ve test etme adımları

  1. Alan adının kök dizinine robots.txt adında bir dosya oluştur.
  2. Yukarıdaki örneklerden sitene uygun kuralları yaz.
  3. Dosyayı FTP / Dosya yöneticisi ile kök dizine yükle (örneğin WordPress için genelde public_html veya sitenin en üst dizini).
  4. Tarayıcıdan kontrol et: https://siteadresi.com/robots.txt
  5. Google Search Console > Ayarlar > Araçlar bölümündeki robots testi (Eski araçlarda “robots.txt Tester”) ile kuralları test et.

7. Örnek: Standart bir içerik sitesi için mantıklı bir taslak

Kod:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?s=
Sitemap: https://www.siteadresi.com/sitemap.xml

  • WordPress admin klasörünü engeller ama admin-ajax.php'ye izin verir (tema/plugin için gerekli olabilir).
  • Site içi arama sonuçlarını (/?s=) taramayı kısıtlar.
  • Sitemap’ı botlara bildirir.

Sonuç
robots.txt, arama motoru botlarının siteyi nasıl tarayacağını yöneten basit ama kritik bir dosyadır. Doğru kullanıldığında tarama bütçesini verimli kullanmanı ve gereksiz URL’lerin önünü kesmeni sağlar; ancak gizlilik veya kesin indeks engelleme için tek başına yeterli değildir. Dosyayı her düzenlediğinde, canlıya almadan önce mutlaka test edip önemli sayfaları yanlışlıkla kapatmadığından emin olman gerekir.

Bu tarz ve benzer içerikler için çok daha fazlası burada: