Sve sto ste zeleli znati o Robots.txt

ulysses · 31 Kol 2010

Važnost fajla robots.txt

Iako je fajl robots.txt veoma važan ukoliko želite da vaš sajt bude dobro pozicioniran na pretraživačima, mnogi web sajtovi nemaju ovaj fajl.

Ako na vašem sajtu ne postoji fajl robots.txt, ovaj članak će vam pokazati kako da ga kreirate. Ako imate fajl robots.txt, pročitajte nekoliko saveta kako bi izbegli eventualne greške koje ovaj fajl može da sadrži.

Osnovne stvari o fajlu robots.txt?

Kada crawler web pretraživača poseti vaš sajt, on prvo traži jedan poseban fajl. Taj fajl nosi naziv robots.txt a njegova je namena da spajderu web pretraživača kaže koje strane vašeg sajta treba da budu indeksirane a koje treba da ignoriše.

Fajl robots.txt je obični tekstualni fajl (ne HTML), koji se smešta u root direktorijuma sajta, na primer:

http://www.moj-website.com/robots.txt
Kako se kreira fajl robots.txt?

Kao što je prethodno pomenuto, fajl robots.txt je obični tekstualni fajl. Za njegovo kreiranje možete koristiti bilo koji tekst editor. Sadržaj robots.txt fajla čine tzv. zapisi (records).

Zapis sadrži informacije bitne za pretraživače. Svaki zapis čine dva polja: jedna User agent linija i jedna ili više Disallow linija. Evo i primera:

User-agent: googlebot
Disallow: /cgi-bin/

Fajl robots.txt će omogućitii pristup “googlebot-u”, Google-ovom spajderu, da indeksira sve stranice sajta osim fajlova u okviru “cgi-bin” direktorijuma. Svi fajlovi iz direktorijuma “cgi-bin” biće ignorisani od strane googlebot-a.

Ako ostavite Disallow liniju praznu, pretraživač će indeksirati sve web stranice. U svakom slučaju, morate uneti Disallow liniju za svaki zapis User agent linije.

Ako spajderima svih pretraživača želite da dodelite ista prava, sadržaj fajla robots.txt treba da izgleda ovako:

User-agent: *
Disallow: /cgi-bin/
Kako da saznate nazive user agent-a?

Nazive user agent-a ćete naći proverom log fajla po fajlu robots.txt. Najčešće, spajderima svih pretraživača treba dodeliti ista prava. U tom slučaju koristite “User-agent: *” kao što je predhodno navedeno.
Šta treba izbegavati?

Ako pravilno ne formatirate vaš robots.txt fajl, pojedini ili svi fajlovi vašeg sajta neće biti indeksirani od strane pretraživača. Da bo ovo sprečili, uradite sledeće:

1.Ne koristite komentare u robots.txt fajlu

Iako su komentari dozvoljeni u okviru robots.txt fajlova, oni ipak mogu zbuniti spajdere nekih pretraživača.

“Disallow: support # Don’t index the support directory” može biti interpretirano kao “Disallow: support#Don’t index the support directory”.

2. Ne stavljajte praznine na početak linija. Na primer, ne:

User-agent: *
Disallow: /support

nego

User-agent: *
Disallow: /support

3. Ne menjajte raspored komandi. Nemojte pisati:

Disallow: /support
User-agent: *

već

User-agent: *
Disallow: /support

4. Ne stavljajte više od jednog direktorijuma u jednoj Disallow liniji. Na primer:

User-agent: *
Disallow: /support /cgi-bin/ /images/

Spajderi pretraživača ne razumeju ovaj format. Prava sintaksa izgleda ovako:

User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

5. Koristite odgovarajuću veličinu slova. Imena fajlova na vašem serveru su case senzitivna. Ako je ime vašeg direktorijuma “Support”, ne pišite “support” u robots.txt fajlu.

6. Ne nabrajajte sve fajlove. Ukoliko želite da spajderi pretraživača ignorišu sve fajlove određenog direktorijuma, ne morate nabrajati sve fajlove. For example:

User-agent: *
Disallow: /support/orders.html
Disallow: /support/technical.html
Disallow: /support/helpdesk.html
Disallow: /support/index.html

Umesto toga, dovoljno je samo:

User-agent: *
Disallow: /support

7. Ne postoji “Allow” komanda

Ne koristite “Allow” komandu u vašem robots.txt fajlu. Samo navedite fajlove i direktorijume koji ne trebaju biti indeksirani. Svi ostali fajlovi će automatski biti indeksirani.
Fajl robots.txt - saveti i trikovi:

1. Kako da dopustite spajderima pretraživača da indeksiraju sve fajlove

Svi fajlovi vašeg web sajta će biti indeksiranu ukoliko vaš robors.txt fajl sadrži samo sledeće dve linije:

User-agent: *
Disallow:

2. Kako blokirati indeksiranje svih fajlova od strane spajdera

Ukoliko ne želite da spajderi indeksiraju fajlove vašeg sajta, upišite sledeće dve linije:

User-agent: *
Disallow: /

3. Kako naći složenije primere robots.txt fajlova

Ukoliko želite da vidite malo složenije primere, pogledajte robots.txt fajlove velikih web sajtova.

Vaši sajtovi treba da imaju odgovarajuće robots.txt fajlove ukoliko želite da imate dobre pozicije na pretraživačima. Pretraživači mogu visoko rangirati vaš sajt, jedino kada znaju šta treba da rade sa fajlovima vašeg sajta.

izvor

m4ster · 31 Kol 2010

Jako dobar post, ali imam jedno pitanje.

Zasto bih ja htio da mi neki dijelovi sajta budu neindexirani? Vjerojatno postoji neki razlog pa bih molio da mi netko navede neke primjere.

Prvo sto mi pada na pamet je mozda ako postoje duplicirani sadrzaji, odnosno 2 ista članka na mom sajtu, pa da onda za jednog onemogucim indexiranje...

ward · 31 Kol 2010

m4ster kaže:
Jako dobar post, ali imam jedno pitanje.

Zasto bih ja htio da mi neki dijelovi sajta budu neindexirani? Vjerojatno postoji neki razlog pa bih molio da mi netko navede neke primjere.

Prvo sto mi pada na pamet je mozda ako postoje duplicirani sadrzaji, odnosno 2 ista članka na mom sajtu, pa da onda za jednog onemogucim indexiranje...

Ja neznam pravi odgovor na to : mozda jer neke podstranice su u fazi izrade,razrade,nisu jos kompletne,il jednostavno zelis postici određeni tajming..
Znam da neki blogeri napisu nekoliko članaka,i da onda opale svaki tjedan po jedan i slicno...

inace barem u joomli,mozes za svaki članak odredit odmah prije nego ga izbacis, dal da ga indeksira ili ne..

Davor Bomestar · 31 Kol 2010

Pa znam za jedan sajt koji je imao jednu sekciju gdje je vukao novosti sa brdo sajtova i to je bio dupli sadrzaj. Radi snazne domene ti textovi su bili indexirani svaki dan, posto su velike kolicine sadrzaja bile indexirane dnevno lako moguce da ih je Google zbog toga penalizirao. Za takve slucajeve je ok da cijelu tu sekciju sajta stavis da se neindexira.

Mozda imas neke informacije na sajtu koje ne zelis da budu indexirane. Recimo imas neki tekst koji zelis da vide samo tvoji e-mail pretplatnici ili tako nes, dati ces im link na to i oni ce moc doc na stranicu bez problema ali putem trazilica nitko nece moc doci do te stranice. Mozda imas probnu verziju sajta gdje isprobavas razne stvari pa ne zelis da ti ljudi dolaze tamo. Ima raznih primjena.

rovad · 31 Kol 2010

dbomestar kaže:
Pa znam za jedan sajt koji je imao jednu sekciju gdje je vukao novosti sa brdo sajtova i to je bio dupli sadrzaj. Radi snazne domene ti textovi su bili indexirani svaki dan, posto su velike kolicine sadrzaja bile indexirane dnevno lako moguce da ih je Google zbog toga penalizirao. Za takve slucajeve je ok da cijelu tu sekciju sajta stavis da se neindexira.

Mozda imas neke informacije na sajtu koje ne zelis da budu indexirane. Recimo imas neki tekst koji zelis da vide samo tvoji e-mail pretplatnici ili tako nes, dati ces im link na to i oni ce moc doc na stranicu bez problema ali putem trazilica nitko nece moc doci do te stranice. Mozda imas probnu verziju sajta gdje isprobavas razne stvari pa ne zelis da ti ljudi dolaze tamo. Ima raznih primjena.

Tako je, masu puta sam pomoću tražilica našao page-ove koji nikako ne bi smjeli bit vidljivi na tražilicama.
Npr. http://www.onehourgoogle.com/jv/pif.html
Ironija kod ovog primjera je da lik prodaje neke SEO šeme, a ne zna zaštitit svoj vlastiti sajt - perverzija čista hhhhh :hysterical :crazy_grin

E tu bi sad dobro došao ovaj robot.txt da ga se podesi malo, jelte...

EDIT: e sad sam provjerio, poslao sam poruku tipu kad sam naišao na ovo da to sredi tako da se ne može naći preko tražilica, nije više moguće naći preko Google-a

idss · 6 Velj 2013

Da li je moguće osim foldera i fajlova blokirati i url adrese, i da li je potrebno dodati nofollow na linkove i kako?

Primer na mom multilinguage sajtu gde zbog duplog sadrzaja ne želim da mi se indexiraju drugi jezici osim osnovnog:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /it/
Disallow: /de/
Disallow: /fr/
Disallow: /en/
Disallow: /sr/
Disallow: /component/hwdmediashare/mediaitem/

renato100 · 9 Velj 2013

Jel može netko objasniti ovu situaciju? Već sam lud od toga. Imam periode kad mi jednostavno Googlebot ne može dohvatiti datoteku robots.txt ili kaže da je nedostupna. Čak sam primjetio veliki pad posjećenosti i pad u rankingu.

Slika je u privitku....

tryengraved · 12 Velj 2013

Ne znam o cemu se radi, isto mi se desava duze vremena na jednom sajtu. I mene zanima, nemam vremena da trazim razloge. Ako je za utjehu, stranica mi rangira na prvom mjestu za keyword, kao i podstranica za vazan longtail keyword, vec par mjeseci :sigh

Bubni.com · 24 Velj 2013

jeli ovo i dalje aktuelno ili wordpres ovo radi automatski

prijatelj mi je testirao izgled neke svoje stranice na mojoj domeni i to je stojalo 3-4 dana i google je indeksiro sadrzaj. i kad odem u google webmaster > zdravelje>pogreske u indeksiranju kaze mi da ima 499 gresaka. Pokusao sam da rucno uklonim te stare url-ove ali ide sporo imali tko kavu ideju

Hvala

Sve sto ste zeleli znati o Robots.txt

ulysses

Iskusan lik

m4ster

Dobro znana faca

ward

Dobro znana faca

Davor Bomestar

Legenda

rovad

Legenda

idss

Član

renato100

Član

Prilozi

tryengraved

Iskusan lik

Bubni.com

Novi član

Poštujemo vašu privatnost