1. Ana Sayfa
  2. Teknoloji Bilgileri

Robots.txt Nedir ? Robots.txt Nasıl Oluşturulur ?

Robots.txt Nedir ? Robots.txt Nasıl Oluşturulur ?
robot-txt
+ - 0

Robots.txt Nedir: Bir web sitesi sahibiyseniz arama motorlarıyla iletişim kurmanızı sağlayan en önemli dosyalardan biri de robots.txt’dir. Basitçe robots.txt nedir diye tanımlamak gerekirse robots.txt dosyası, arama motoru botlarına sitenizin hangi kısımlarını tarayıp hangi kısımlarını taramayacağını söyler. Bu içeriğimizde size robots.txt ne işe yarar ve kuralları nelerdir, robots.txt nasıl oluşturulur gibi konuları örnekler üzerinden anlatacağız.

Robots.txt Nedir Özellikleri Nelerdir?

  • Robots dosyası txt uzantılı bir düz metin dosyasıdır.
  • Dosyanın işlevini gerçekleştirebilmesi için adı mutlaka robots.txt olmalıdır (txt’nin uzantı olduğunu, dosya adına yazmayacağınızı unutmayın).
  • Dosya UTF-8 olarak kodlanan yapıda olmalıdır (diğer karakter kümeleri kullanılmamalıdır).
  • Robots.txt dosyası, botların dosyaya erişebilmesi için web sitesinin kök dizininde (root) bulunmalı ve sadece bir tane olmalıdır (WordPress altyapısı ve cPanel kullanıyorsanız Dosya Yöneticisi > public_html klasörüne erişin ve dosyanın burada olduğunu teyit edin). Robots.txt dosyası, bir alt dizine yerleştirilmemelidir.
  • Alt alan adları (subdomain) için ayrı robots.txt dosyaları oluşturulmalıdır.
  • Web sitesinin kök dizininde doğru bir şekilde yer alan robots.txt dosyasının görüntüleneceği URL şöyledir: https://siteadi.uzantisi/robots.txt (bu linki kullanan herkesin robots.txt dosyanızı görüntüleyebileceğini vurgulayalım).

Robots.txt Neden Önemli?

Arama motorlarının dizinlerine eklenme sürecinde problem yaşamamak ve tarama işlemini kontrol altına alabilmek için robots.txt önemli bir dosyadır. Robots.txt dosyasının, biri diğerinden daha geçerli olmakla birlikte iki ana işlevi var. Öncelikli işlevi, web sitesinin tarayıcı trafiğini yönetmek. İkincil işlevi ise herhangi bir web sayfasını Google, Bing, Yandex gibi arama motorlarının dışında tutmaktır.

Tarayıcı Trafiğini Yönetmek

Doğru yapılandırılmış bir robots.txt dosyası, botların web sitesinin tüm dosyalarını tarayarak sitede yoğunluğuna sebep olmamaları, dolayısıyla da sunucuyu aşırı derecede meşgul etmemeleri için kullanılır. Böylelikle belirli dosyaların taranması engellenerek hem tarama bütçesinden hem de sunucu performansından tasarruf sağlanmış olur.

Arama Motorlarının Dışında Tutmak

Web sitenizin tüm sayfalarının arama motoru dizinlerine eklenmesini istemeyebilirsiniz (değersiz sayfalar, kopya sayfalar, Gizlilik Sözleşmesi gibi içeriği değişmeyen sayfalar vb). Ayrıca bazı alt dizinlerin ve önemli dosyaların da dizine eklenerek arama motoru sonuçlarında görüntülenmesini istemezsiniz (bazı bilgiler sitenizin hacklenmesini kolaylaştırabilir). Bütün bu düzenlemeleri büyük ölçüde robots.txt aracılığıyla yaparsınız; ancak aşağıda detaylı olarak açıklayacağımız gibi yeterli değildir.

Robots.txt Ne İşe Yarar?

Robots.txt Nedir ?
Robots.txt Nedir ?

Dosyayı doğru bir şekilde yapılandırıp kullanabilmek için anlaşılması gereken en önemli mesele robots.txt ne işe yarar sorusu. Robots dosyası temelde arama motorlarıyla iletişim kurmanızı sağlar. Bu iletişimi doğru bir şekilde inşa edebilmeniz için işlevini, hangi konularda işe yaradığını ve yaramadığını bilmeniz gerekir. Şimdi farklı dosya türleri için robots.txt ne işe yarar açıklamaya çalışalım:

Robots.txt, web sayfalarınızın taranma sürecini daha iyi bir şekilde yönetmenizi sağlar. Bu sayede tarama trafiği daha iyi yönetilir, sunucuda aşırı yük oluşmaz, tarama bütçesi doğru kullanılır. Ancak robots.txt dosyası, taranması istenmeyen web sayfalarıyla ilgili her zaman iyi bir çözüm sunmamaktadır.

Güvenilir arama motorları, dosyadaki yönergelere uysa bile bu, dosya aracılığıyla taranmasını ve dizine eklenmesini engellediğiniz ‘web sayfalarının’ kesinlikle dizine eklenmeyeceği anlamına gelmez. Eğer taranmasını istemediğiniz ve bunu sadece robots.txt dosyasında belirttiğiniz bir sayfaya başka bir siteden bağlantı verilirse sayfa taranıp dizine eklenebilir.

Bir web sayfasının dizine eklenmesini istemiyorsanız doğru ve kesin yöntem noindex etiketi kullanmaktır. Google, böyle durumlar için robots.txt’de Googlebot’un sayfayı taranmasına izin verip sayfanın HTML kodlarında noindex etiketi kullanmanızı ya da sayfayı şifreyle korumanızı öneriyor.

Örneğin mevcutta dizine eklenmiş ve arama motorlarında gösterilen ancak dizinden kaldırmak istediğiniz sayfalar için de robots.txt engellemesi yerine noindex kullanmak daha etkili bir çözümdür (ya da sayfayı silip uygun bir 301 yönlendirmesi yapmak).

Medya Dosyalarını Engelleme

Sitenizde yer alan görsel, video, ses gibi medya dosyalarının da dizine eklenmesini istemiyorsanız onların taranmasını da robots.txt dosyası üzerinden engelleyebilirsiniz. Ama web sayfaları için geçerli olan durum burada da geçerlidir. Eğer medya dosyalarınıza link verilirse onlar da taranıp dizine eklenebilmektedir. Burada da ya medya dosyalarınızın yer aldığı dizini şifreyle koruma ya da noindex yöntemini kullanabilirsiniz (Görsel dosyalarınızın Google aramalarında görüntülenmemesi için buradan, video dosyalarınızın Google aramalarında görüntülenmemesi için de buradan bilgi alabilirsiniz).

Komut, stil dosyaları gibi önemli kaynak dosyalarınızın da taranmasını robots.txt ile engelleyebilirsiniz (ki bu önemlidir). Burada dikkat edilmesi gereken nokta, web sayfalarınız yüklenirken taranmasını engellediğiniz dosyaların sayfaları ne kadar etkileyeceğidir. Botlar, sayfayı daha iyi bir şekilde analiz edip anlamak için bu kaynak dosyadaki verileri kullanıyorsa çeşitli tarama problemleri yaşamaya başlayabilirsiniz. Doğru engellemeleri yaparsanız önemli site dosyalarının arama motorlarında herkese açık olarak görüntülenmelerine engel olursunuz.

NOT: Arama motoru botları sitenizi ziyaret ettiğinde ilk olarak robots.txt dosyasını kontrol eder ve birnevi tarama izni almış olur. Bir robots.txt dosyası yoksa da siteniz taranarak dizine eklenmektedir. Yukarıda da değindiğimiz gibi farklı yöntemlerle dizine eklenme sürecini düzenleyebilirsiniz (meta etiketler ve şifreleme). Ancak bu dosyayı oluşturmak / düzenlemek son derece kolaydır ve daha kontrollü olmak için robots.txt oluşturmak iyi bir yoldur.

Robots.txt Dosyası Kuralları Nelerdir?

Robots.txt dosyaları, birkaç farklı başlıktan oluşan yönergeler / kurallar içerir. Bu yönergeler (talimatlar da diyebiliriz) farklı arama motorlarının botları için gruplar halinde de oluşturulabilir. Dosyanızda bir veya daha fazla grup oluşturabilirsiniz.

Bir grup şu bilgileri içerir:

  • User-agent; kuralın hangi bot için geçerli olduğu bilgisi (tarama yapmasına izin verilen ya da verilmeyen bot). Bu bilgi, herhangi bir kuralın ilk satırıdır.
  • Disallow; botun erişmesine izin verilmeyen dizinler, dosyalar
  • Allow; botun erişmesine izin verilen dizinler, dosyalar

User-agent ifadesinden sonra Googlebot, Googlebot-news, Bingbot gibi ifadeler kullanarak hangi botların sitenizi taramasına izin verdiğinizi belirtebileceğiniz gibi asterix (*) işaretini kullanarak tüm botlara da (çeşitli AdsBot tarayıcıları hariç) izin verebilirsiniz (User-agent: *).

Bir ya da birkaç Disallow yönergesi yazılabilmektedir. Eğer bir sayfanın taranmasını istemiyorsanız sayfayı tarayıcıda gösterildiği şekliyle belirtmelisiniz. Taranmasını istemediğiniz dizin de “/” işaretiyle başlayıp “/” işaretiyle sona ermeli.

Bir ya da birkaç Allow yönergesi yazılabilmektedir. Allow parametresi, Disallow ile taranmasına izin verilmeyen bir dizinde yer alan alt dizine ya da sayfaya tarama izni vermek için kullanılır. Dolayısıyla bir dizinin taranmasına izin vermek için; Allow ile özellikle belirtmenize gerek yoktur. (Allow, aynı robots.txt dosyasındaki Disallow yönergelerini geçersiz kılmak içindir). Taranmasını istediğiniz dizin “/” işaretiyle başlayıp “/” işaretiyle sona ermelidir.

Site Haritası linki de yönergelerin altına eklenebilmektedir. Burada dikkat edilmesi gereken tam URL girmektir. Yani Site Haritası’nın varsa; http ve https ya da başında www olan ve olmayan versiyonları ayrı ayrı belirtilmelidir. Böylelikle botlara kesinlikle taramalarını istediğiniz sayfalara nasıl ulaşacakları net bir şekilde söylenmiş olur.

UYARI: Doğru yapılandırılmamış bir robots dosyası sitenizde ciddi tarama ve dizine ekleme problemlerine sebep olabilir. Robots.txt’nin nasıl oluşturulduğunu aşağıda açıklayacağız.

Robots.txt Oluşturma İşleminde Dikkat Edilmesi Gerekenler

Aşağıda paylaştığımız birkaç farklı robots.txt dosyası örneğini incelediğinizde dikkat etmeniz gereken başlıkları daha iyi anlayabilirsiniz.

  • Robots.txt dosyasında her yönerge bir satırda yer almalıdır.
  • Her satır; bir tane yönerge, bir tane iki nokta üst üste işareti (:) ve bir tane de değerden (path değeri) oluşmalıdır. Okunabilirlik açısından boşluk bırakılabilmektedir.
  • Değer kök dizinini belirtmek için “/” karakteri ile başlatılır (kurallar küçük/büyük harfe duyarlıdır; bu yüzden de dosya ya da dizin isimlerini olduğu gibi yazmalısınız).
  • Yönergeden sonra herhangi bir değer yazılmadıysa yönerge yok sayılmaktadır.
  • Her bir grup, User-agent satırıyla başlamalıdır. Gruplar, her satır başında bir yönerge olacak şekilde birkaç farklı yönerge içerebilir.
  • Disallow kuralıyla erişimi engellenmeyen bir dizin ya da sayfa, varsayılan olarak Allow şeklinde değerlendirilebilmektedir.
  • “#” işareti ile başlayan her içerik, botlar tarafından yorum olarak değerlendirilmektedir.

Robots.txt Örnekleri

Birkaç robots.txt örneği üzerinden yönergeleri detaylı bir şekilde anlatmaya çalışalım:

Burada Group 01 olarak belirttiğimiz grupta (ki bunu belirtmenize gerek yoktur). Googlebot’a sitemizin hiçbir yerini tarama izni vermiyoruz. Group 02 olarak belirttiğimiz grupta ise Bingbot’a admin dizini hariç sitemizi tarayabileceğini söylüyoruz. Burada Disallow parametresi ile belirttiğimiz bir yönergeyi, Allow parametresi ile geçersiz kıldık. Bingbot’a admin dizini içerisinde yer alan xxxxxxx.php isimli dosyayı tarama izni verdik.

Başka bir robots.txt örneği

Burada bütün botlara, uploads klasörünü taramayın; ama uploads klasörü içerisinde yer alan xxxxxx.jpg isimli dosyayı tarayabilirsiniz diyoruz.

Bu robots.txt örneğinde de sadece Googlebot ve AdsBot-Google’a sitemizi taraması için izin verip; diğer botları engelliyoruz. Aynı mantıkla hareket ederek sadece bir tarayıcıyı engelleyip diğerlerine izin verebilirsiniz.

Siteniz, henüz yayına hazır değilse ya da başka herhangi bir sebepten dolayı sitenizi taramaya tamamen kapatmak isterseniz; şöyle bir robots.txt örneği kullanabilirsiniz. Farklı botlar için grupları artırabilirsiniz.

Sitenizde kullanabileceğiniz basit bir robots.txt örneği şu şekilde olabilmektedir. (Kullandığınız sisteme göre dosya isimleriniz ya da ön ekleriniz daha farklı olabilmektedir):

UYARI: Robots.txt dosyasına başka insanlar da bağlantı adresini girerek ulaşabilir ve dosyanın içeriğini görüntüleyebilir. Eğer güvenlik sebebiyle dosya ön eklerinin ya da dosya isimlerinin (bu örnek için wp) görünmesini istemiyorsanız; bunun yanında bu sizin için çok önemliyse robots.txt yerine dizinleri şifreleyip taramaya kapatmanız daha iyi olabilmektedir. Örneğin dizindeki bir klasör içerisinde sizin için önemli dosyaları tutuyorsunuz ve klasörün adı da ‘herhangibirsey’. O zaman robots.txt dosyanıza şöyle bir yönerge eklemeniz gerekir (botların tarama yapmaması için): Disallow: /herhangibirsey/. Artık bağlantı adresinizi girerek dosyanızı görüntüleyen herkes; gizli dosyalarınızın nerede ve hangi isimli klasörde olduğunu biliyor.

UYARI: Google, Bing, Yandex gibi saygın ve güvenilir arama motorları yönergelere uysa da güvenilir olmayan botlar yönergelere uymayabilir. Bu nedenle de sunucunuzdaki önemli dosyaları botların erişimine kapatmak için; bu tür dosyaları şifrelemenin en iyi çözüm olduğunu söyleyebiliriz.

NOT:

“Disallow: /wp-content/plugins/” gibi bir yönergeyi başka robots.txt nasıl oluşturulur kaynaklarında görmüş olabilirsiniz. Ancak bu yönerge tüm WordPress eklentilerinizin taranmasını engelleyeceği için; botların sayfalarınızı doğru bir şekilde anlayamamasına sebep olabilmektedir. Bu durum Search Console üzerinden URL Denetleme Aracı’nı kullanarak web sayfalarınızı incelediğinizde karşınıza ‘engellenen kaynaklar’ olarak çıkabilir. Ancak bu sayfanızın Google aramalarında görüntülenmediği anlamına da gelmez.

Robots.txt nasıl oluşturulmaktadır ve yönergeler ne anlama gelmektedir örnekler üzerinden anlatmaya çalıştık. Umarız robots.txt dosyanızı yapılandırırken işinize yarar.

Google Robots.txt Test Aracı

Robots.txt dosyasını Google’ın test aracı ile test edebilir ve karşılaşılan problemleri görebilirsiniz. Aracı açtığınızda dosya kısmının aşağısında yer alan URL alanına herhangi bir içeriğinizin bağlantı adresini yapıştırarak; robots.txt dosyasının doğru bir şekilde çalışıp çalışmadığını denetleyebilirsiniz. Botu değiştirerek farklı botların da sayfayı tarayıp taramadığını öğrenebilirsiniz.

UYARI: Google dosyayı sadece Googlebot için değerlendireceğinden dolayı robots.txt dosyanızı Bing ve Yandex test araçlarıyla da test edebilirsiniz.

Google’ın test aracı ile yapacağınız değişiklikler/düzenlemeler, sitenizin kök dizininde bulunan dosyayı değiştirmez. Burada yeniden oluşturduğunuz dosyayı bilgisayarınıza indirip daha sonra sitenizin kök dizinine yükleyebilirsiniz. Ya da kök dizininde dosyayı bulup üst menüden Düzenle diyerek yeni yönergeleri kopyalayıp yapıştırabilirsiniz.

Robots.txt dosyanızda değişiklik yaptıysanız yeni dosyanızı yine Google’ın test aracını kullanarak Google’a gönderebilirsiniz. (Test aracını açın, dosyanın altında bulunan Gönder butonuna tıklayın; eğer yeni dosya kök dizininizde güncel haliyle bulunuyorsa Yüklenen sürümü kontrol et ve ardından Gönder deyin).

Önerilen Yazı
En İyi WordPress Yedek Alma Eklentileri

Robots.txt Nasıl Oluşturulmalıdır ?

Robots dosyası, metin belgesi olarak bilgisayar ortamında hazırlanıp sitenin kök dizinine yüklenebileceği gibi çeşitli web araçları kullanılarak online ortamda oluşturup bilgisayara indirilebilir; aynı zamanda yine sitenin kök dizinine yüklenebilmektedir. Ayrıca WordPress gibi bir altyapı kullanıyorsanız Yoast SEO gibi çeşitli eklentiler yardımıyla da otomatik olarak oluşturulabilir.

UYARI: Google, 500 kibibayt’tan büyük boyutlu robots dosyalarında 500 kibibayt sonrasını yok sayar (1 Kibibayt (KiB) 1024 bayt’a eşittir).

Yoast SEO Eklentisi ile Robots.txt Oluşturma

WordPress admin paneli > Yoast SEO (sol menü) > Araçlar > Dosya Düzenleyicisi yolunu takip ederek robots.txt dosyası oluşturabilirsiniz. Değişiklik yapmak istediğinizde de yine aynı yolu kullanarak yapabilirsiniz

NOT: Tarama bütçesini doğru kullanmak ve SEO performansınızı artırmak için arama motorlarına sitenizin hangi sayfalarını taramaları gerekmediğini söylemek önemli. Örneğin Hakkımızda ya da Gizlilik Sözleşmesi gibi sayfaları noindex etiketi ile etiketleyerek içeriği değişmeyen; bunun yanında sonuç sıralamasında gösterilmesi gerekmeyen sayfaların taranmasını engelleyebilirsiniz. Noindex etiketi ekleme işlemini Yoast SEO ile kolayca yapabilirsiniz.

“Robots.txt Nedir” sorusuna karşılık bulabildiğinizi umuyoruz..

Yazar Hakkında

Yorum Yap