Kako pravilno konfigurirati Robots.txt?

Pravilni roboti txt za html stran ustvarjajo načrte dejanj za robote iskalnikov, ki jim sporočajo, da lahko preverijo. Pogosto se ta datoteka imenuje Protokol za odstranjevanje robotov. Prva stvar, ki išče robote pred iskanjem po spletnem mestu, je robots.txt. Lahko kaže na zemljevid spletnega mesta ali ga obvesti, da ni preveril določenih poddomen. Robots.txt ni potreben, če iskalniki iščejo najpogosteje uporabljene. V tem procesu je zelo pomembno, da je datoteka pravilno oblikovana in da ne sme indeksirati lastne strani z osebnimi podatki uporabnika.

Načelo robota za skeniranje

Ko iskalnik ustreza datoteki in vidi prepovedan naslov URL, ga ne bo skeniral, lahko pa ga indeksira. To je posledica dejstva, da čeprav roboti ne smejo gledati vsebine, se lahko spomnijo povratnih povezav, ki kažejo na zavrnjen naslov URL. Zaradi blokiranega dostopa do povezave se bo naslov URL pojavil v iskalnikih, vendar brez odrezkov. Če prihajajoča marketinška strategija zahteva pravilno robotsko txt za bitrix, zagotovite preverjanje mesta na zahtevo uporabnika s skenerji.


Po drugi strani pa lahko, če je datoteka formatirana nepravilno, spletna stran ni prikazana v rezultatih iskanja in je ne bo mogoče najti. Datoteke iskalnika ni mogoče obiti. Programer si lahko ogleda datoteko robots.txt katerega koli spletnega mesta tako, da na primer odide na svojo domeno in jo spremlja z uporabo datoteke robots.txtwww.domain.com/robots.txt. Uporabite orodje, kot je oddelek SEO Unamo, v katerega lahko vnesete katero koli domeno, in storitev bo prikazala informacije o prisotnosti datoteke. Omejitve skeniranja:
  • Uporabnik ima zastarelo ali zaupno vsebino.
  • Slike na spletnem mestu ne bodo vključene v rezultate iskanja slik.
  • Mesto še ni pripravljeno, da bi robot lahko prikazal predstavitev.
  • Upoštevati je treba, da so informacije, ki jih uporabnik želi prejeti od iskalnika, na voljo vsakomur, ki vnese URL. Te tekstovne datoteke ne smete uporabljati za skrivanje občutljivih podatkov. Če ima domena napako 404 (ni najdena) ali 410 (mimo), iskalnik preveri spletno mesto, kljub prisotnosti robots.txt v tem primeru, meni, da datoteka manjka. Druge napake, kot je na primer 500 (Notranja napaka strežnika), 403 (Prepovedano), časovna omejitev ali "nedostopnost", upoštevajo navodila za robots.txt, vendar pa je obvod lahko odložen, dokler ni na voljo datoteka.


    Ustvari iskalno datoteko

    Številne aplikacije CMS, kot je WordPress, že imajo datoteko robots.txt. Preden lahko pravilno konfigurirate Robots txt WordPress, se morate seznaniti z njegovimi zmožnostmi, da boste izvedeli, kako dostopati do njega. Če programer sam ustvari datoteko, mora izpolnjevati naslednje pogoje:
  • Mora biti napisana z malimi črkami.
  • Uporabite kodiranje UTF-8.
  • Shranjevanje datoteke (.txt) v urejevalnik besedila.
  • Če uporabnik ne ve, kam naj ga namesti, se bo obrnil na svojega prodajalca programske opremeZagotavljanje spletnega strežnika, s katerim boste izvedeli, kako dostopati do korena domene ali obiskati Google konzolo in jo prenesti. S to funkcijo lahko Google preveri tudi, ali bot deluje pravilno in seznam spletnih mest, ki so blokirana z uporabo te datoteke.
    Osnovna oblika pravilne roboti txt za bitrix:
  • Legenda robots.txt.
  • #, komentarji, ki se uporabljajo samo kot opombe.
  • Te pripombe bodo skenerji prezrli skupaj z morebitnimi napakami uporabnikov.
  • Uporabniški agent - označuje, v katerem iskalniku so navedena navodila za datoteko.
  • Dodajanje zvezdice (*) pove skenerjem, da so navodila ustvarjena za vsakogar.
  • Navedite določen bot, kot je Googlebot, Baiduspider, Applebot. Disallow, pove skenerjem, katere dele spletnega mesta ni treba optično prebrati. Izgleda takole: User-agent: *. Zvezda pomeni "vsi roboti". Vendar pa lahko določite strani za določene robote. Če želite to narediti, morate vedeti ime bot, za katerega so določena priporočila. Pravilni roboti txt za Yandex lahko izgledajo takole:
    Če botu ni treba obiti mesta, jo lahko določite, in da bi našli imena uporabniških agentov, se priporoča, da se seznanite z zmogljivostmi spletnega mesta useragentstring.com.

    Optimizacija strani

    Dve taki vrstici se štejeta za popolno datoteko robots.txt, z eno robotsko datoteko, ki vsebuje več vrstic uporabniških agentov in direktiv, ki prepovedujejo ali dovoljujejo pajkanje. Glavni format pravilnega besedila Robots:
  • Uporabniški agent: [uporabniško ime agenta].
  • Disallow: [URL niz, ki ni optično prebran].
  • V datoteki je vsak blok direktiv prikazan kot ločena, ločena vrstica. V datoteki se skupaj z uporabniškim imenikom agenta uporablja vsako pravilo glede na določen niz particioniranih nizov. Če ima datoteka pravilo, ki velja za več agentov, bo robot upošteval samo najbolj specifično skupino navodil.

    Tehnična skladnja

    Lahko ga gledamo kot "jezik" datotek robots.txt. Obstaja pet izrazov, ki lahko obstajajo v tem formatu, med njimi so najpomembnejši:
  • User-agent je spletni pajek z navodilom za pajkanje, običajno iskalnik.
  • Disallow - Ukaz, ki se uporablja za usmerjanje uporabnika k agentu potrebe (prehoda) določenega URL-ja. Za vsakega obstaja samo en prepovedan pogoj.
  • Dovoli. Za Googlebot, ki dostopa, je tudi stran po meri prepovedana.
  • Crawl-delay - Določa, koliko sekund mora biti optični bralnik prečrtan. Ko bot ne potrdi, je hitrost nastavljena v Google konzoli.
  • Sitemap - Uporablja se za določanje lokacije zemljevidov, povezanih z XML, povezanih z URL-jem.
  • Primerjava modelov

    Ko gre za dejanske URL-je blokov ali dovoljenj pravilnih robotov txt, so lahko operacije precej zapletene, saj vam omogočajo, da uporabite ujemanje vzorcev za dosego številnih možnih parametrov URL-jev. Tako Google kot Bing uporabljata dva znaka, ki določata strani ali podmape, ki jih SEO želi izključiti. Ta dva znaka imata zvezdico (*) in znak za dolar ($), kjer je: * znakzamenjavo, ki predstavlja zaporedje znakov. $ - se ujema s koncem URL-ja.

    Google ponuja velik seznam možnih skladenj za predloge, ki uporabniku pojasnijo, kako konfigurirati datoteko robots txt. Nekatere običajne uporabe vključujejo:
  • Preprečevanje ponavljanja vsebine v rezultatih iskanja.
  • Shranjevanje vseh delov spletnega mesta zasebno.
  • Shranjevanje notranjih strani rezultatov iskanja na podlagi odprte izjave.
  • Navedba lokacije.
  • ​​
  • Preprečevanje iskalnikov za indeksiranje določenih datotek.
  • Označuje obvoznico z zakasnitvijo za zaustavitev preobremenitve in hkrati skeniranje več področij vsebine.
  • Preverjanje prisotnosti robotske datoteke

    Če ni območij za skeniranje, potem robots.txt sploh ni potrebno. Če uporabnik ni prepričan, kaj je ta datoteka, jo je treba vnesti v korensko domeno in vnesti konec URL-ja, približno: moz.com/robots.txt. Številni iskalniki prezrejo te datoteke. Vendar pa praviloma ti skenerji ne pripadajo uglednim iskalnikom. Prihajajo iz različnih spammerjev, poštnih agregatov in drugih vrst avtomatiziranih pošto, ki so široko dostopni na internetu. Pomembno je vedeti, da uporaba standarda za izključitev robotov ni učinkovit varnostni ukrep. Pravzaprav lahko nekateri roboti začnejo s stranmi, na katerih uporabnik nastavi svoj način skeniranja. Obstaja več delov, ki so vključeni v standardno datoteko izključitve. Preden povem delo, na kateremstrani ne bi smelo delovati, morate navesti, kateri robot naj govori. V večini primerov bo uporabnik uporabil preprosto deklaracijo, kar pomeni "vsi roboti".

    Optimizacija SEO

    Pred optimizacijo mora uporabnik zagotoviti, da ne blokira nobene vsebine ali delov spletnega mesta, ki jih je treba zaobiti. Povezave na strani, ki jih blokira pravilna beseda Robots txt, ne bodo upoštevane. To pomeni:
  • Če niso povezane z drugimi stranmi, ki so na voljo iskalnikom, to pomeni, da strani ne blokira robots.txt ali meta-robot, in s tem povezani viri ne bodo skenirani in jih zato ni mogoče indeksirati.
  • Povezava z zaklenjene strani na ciljno povezavo ni mogoča. Če obstaja takšna stran, je najbolje, da uporabite drug mehanizem za zaklepanje kot robots.txt.
  • Ker lahko druge strani neposredno povežejo s stranjo, ki vsebuje osebne podatke, in želijo to stran blokirati iz rezultatov iskanja, uporabite drugačno metodo, kot so zaščita z geslom ali podatki o indeksu brez podatkov. Nekateri iskalniki imajo več prilagojenih agentov. Google na primer uporablja Googlebot za standardno iskanje in Googlebot-Image za iskanje slik. Večina prilagojenih agentov iz istega iskalnika sledi istim pravilom, zato ni treba določiti direktiv za vsakega od več iskalnih robotov, vendar pa lahko s tem lahko natančno konfigurirate preverjanje vsebine spletnega mesta. Iskalnik cachevsebino datoteke in ponavadi posodobi vsebino predpomnjenja vsaj enkrat na dan. Če uporabnik spremeni datoteko in jo želi hitreje posodobiti, kot je standardno, lahko pošlje datoteko robots.txt Googlu.

    Iskalniki

    Da bi razumeli, kako roboti txt pravilno delujejo, morate vedeti o zmožnostih iskalnikov. Skratka, njihove zmogljivosti so v tem, da pošiljajo "skenerje", ki so programi, ki brskajo po internetu zaradi informacij. Nato shranijo nekaj teh informacij, da jih pozneje posredujejo uporabniku. Za mnoge je Google internet. Pravzaprav imajo prav, ker je to morda njegov najpomembnejši izum. In čeprav so se iskalniki močno spremenili, odkar so bili ustvarjeni, so njihova osnovna načela enaka. Skenerji, znani tudi kot "roboti" ali "pajki", najdejo stran iz milijard spletnih strani. Iskalniki jim dajejo navodila o tem, kam naj gredo, posamezna spletna mesta pa lahko sodelujejo tudi z roboti in jim sporočijo, na katere strani naj bodo pregledani. Praviloma se lastniki spletnih mest ne želijo prikazovati na spletnih iskalnikih: administrativnih straneh, portalskih portalih, kategorijah in oznakah ter drugih informacijskih straneh. Datoteko robots.txt lahko uporabite tudi tako, da iskalniki ne pregledujejo strani. Skratka, robots.txt pove spletnim pajkom, kaj naj naredijo.

    Prepovedane strani

    To je večina datoteke za izključitev robotov. Z enostavnim oglasom uporabnik določi bot ali skupino botov, tako da ne iščejo določenihstrani Sintaksa je preprosta, na primer, da se prepove dostop do vsega, kar je v imeniku "admin" strani napisano: Disallow: /admin. Ta vrstica bo preprečila pajkanje vaših domen.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html in vsega drugega, ki spada pod skrbniški imenik. Če želite prepovedati eno stran, jo usmerite v vrstico: Disallow: /public/exception.html. Zdaj se stran "izjeme" ne bo premaknila, ampak vse ostalo v "javni" mapi. Če želite vključiti več strani, jih preprosto navedite:
    Te štiri vrstice pravilne roboti txt za simfonijo bodo veljale za vsakega uporabnika agenta, ki je določen na vrhu oddelka # robots.txt za https://www.symphonyspace.org/.
    Zemljevid spletnega mesta: https://www.symphonyspace.org/sitemaps/1/sitemap.xml. Drugi ukazi: # live - ne dovolite pajkom indeksiranja cpresources /ali ponudnika /. Custom agent: * Disallow: /cpresources /. Disallow: /Proizvajalec /Disallow: /.env.

    Določanje standardov

    Uporabnik lahko določi različne strani za različne pošto, ki združujejo prejšnja dva elementa, tako izgleda. Primer pravilnih robotov txt za vse iskalnike je predstavljen spodaj.
    Oddelki "admin" in "private" so za Google in Bing nevidni, vendar bo Google še vedno videl "tajni" imenik, medtem ko Bing tega ne bo storil. Z uporabniškim posrednikom zvezdice lahko določite splošna pravila za vse pošto, nato pa v naslednjih razdelkih podajte konkretna navodila za robote. Z zgoraj navedenim znanjem lahko uporabnik napiše primer pravilnih robotov txt za vse iskalnike. Preprosto zaženite vaš najljubši urejevalnik besedila inObvestite pošto, da v določenih delih mesta niso dobrodošli.

    Nasveti za povečanje zmogljivosti strežnika

    SublimeText je vsestranski urejevalnik besedil in zlati standard za mnoge programerje. Njegovi nasveti za programsko opremo poleg tega temeljijo na učinkovitem kodiranju. uporabniki cenijo prisotnost bližnjic v programu. Če želi uporabnik videti primer datoteke robots.txt, pojdite na katero koli spletno mesto in dodajte "/robots.txt" na konec. Tukaj je del datoteke GiantBicycles robots.txt. Program omogoča ustvarjanje strani, ki jih uporabniki ne želijo prikazati na iskalnikih. In ima tudi nekaj ekskluzivnih stvari, ki jih malo ljudi ve. Na primer, če datoteka robots.txt pove botrovom, kjer vam ni treba iti, Sitemap naredi nasprotno in jim pomaga najti tisto, kar iščejo, in čeprav iskalniki verjetno že vedo, kje je zemljevid spletnega mesta, ne vpliva na njih. Obstajata dve vrsti datotek: stran HTML ali datoteka XML. Stran HTML je tista, ki obiskovalcem prikazuje vse obstoječe strani na spletnem mestu. V lastni datoteki robots.txt je videti tako: Sitemap: //www.makeuseof.com/sitemap_index.xml. Če iskalnik ne indeksira spletnega mesta, čeprav so ga pajki spleta večkrat pajkali, se morate prepričati, ali je datoteka pravilno nastavljena. Privzeto se bo to zgodilo z vsemi namestitvami SeoToaster, če pa je potrebno, ga lahko ponastavite na naslednji način: File robots.txt - 644. Odvisno od strežnika PHP, če ne deluje za uporabnika, priporočamo, da poskusite naslednje: Datoteka robots.txt - 666

    Nastavitev zakasnitve optičnega branja

    Direktiva o odlaganju dodgenekaterim iskalnikom pove, kako pogosto lahko indeksirajo stran na spletnem mestu. Meri se v sekundah, čeprav ga nekateri iskalniki interpretirajo nekoliko drugače. Nekateri vidijo zakasnitev 5, če se izognejo, ko jim sporočijo, naj počakajo pet sekund po vsakem skeniranju, da začnejo naslednje. Drugi to razlagajo kot navodilo za skeniranje samo ene strani vsakih pet sekund. Robot ne more hitreje skenirati, da bi prihranil pasovno širino strežnika. Če mora strežnik ustrezati prometu, lahko nastavi zakasnitev potovanja. Na splošno v večini primerov uporabnikom ni treba skrbeti. To je, kako je zakasnitev pajkanja 8 sekund nastavljena na Zakasnitev iskanja: 8. Vendar ne bodo vsi iskalniki sledili tej direktivi, zato lahko pri prepovedi strani določite različne zamude pajkanja za določene iskalnike. Ko so vsa navodila v datoteki konfigurirana, jo lahko prenesete na spletno mesto, najprej se prepričajte, da gre za preprosto besedilno datoteko in ime robots.txt, ki jo lahko najdete na strani yoursite.com/robots.txt.

    Najboljši boter za WordPress

    WordPress ima nekaj datotek in imenikov, ki jih je treba vsakokrat blokirati. Katalogi, ki jih morajo uporabniki prepovedati - to je katalog standardnih WP imenikov cgi-bin. Nekateri strežniki ne dovoljujejo dostopa do imenika cgi-bin, vendar ga morajo uporabniki vključiti v direktivo o prepovedi, preden pravilno konfigurirajo roboti txt WordPress. Ti imeniki nimajo podatkov, ki bi bili na začetku uporabni za iskalnikevendar obstaja izjema, to pomeni, da je v imeniku wp-content podimenik z imenom uploads. Ta podimenik mora biti dovoljen v datoteki robot.txt, saj vključuje vse, kar je naloženo s funkcijo za prenos medijev WP. WordPress uporablja oznake ali kategorije za strukturiranje vsebine. Če uporabljate kategorije, da bi naredili pravilne roboti txt za Wordpress, kot jih je določil proizvajalec programa, morate zakleniti arhive iskalnih oznak. Najprej preverite bazo podatkov, tako da odprete plošče za upravljanje & gt; Nastavitve & gt; "Permalink". Privzeto je baza oznaka, če je polje prazno: Disallow: /tag /. Če uporabljate kategorijo, morate blokirati kategorijo v datoteki robot.txt: Disallow: /category /. Privzeto je baza oznaka, če je polje prazno: Disallow: /tag /. Če uporabljate kategorijo, morate blokirati kategorijo v datoteki robot.txt: Disallow: /category /. Datoteke, ki se uporabljajo predvsem za prikazovanje vsebine, blokira ustrezna datoteka robots txt za Wordpress:

    Glavna namestitev Joomle

    Ko je uporabnik namestil Joomla, morate videti pravilno konfiguracijo globalne konfiguracije Robots txt Joomla, ki se nahaja na nadzorni plošči. Nekatere nastavitve so zelo pomembne za SEO. Najprej poiščite ime spletnega mesta in se prepričajte, da je uporabljeno kratko ime spletnega mesta. Nato najdejo niz nastavitev na desni strani zaslona, ​​imenovanih nastavitve SEO. Tisti, ki ga boste zagotovo morali spremeniti, je drugi: uporabite URL prepisovanja. Sliši se težko, vendar v bistvuPomaga Joomli ustvariti čistejše URL-je. Najpomembneje, če odstranite vrstico index.php iz URL-jev. Če ga spremenite pozneje, se bodo URL-ji spremenili, Google pa ne bo všeč. Vendar, ko spremenite to možnost, morate narediti nekaj korakov za ustvarjanje pravilne roboti txt za Joomla:
  • V korenskem imeniku Joomla, poiščite datoteko htaccess.txt.
  • Označite ga kot .htaccess (brez podaljšanja).
  • V naslove strani vključite naslov spletnega mesta.
  • Poiščite nastavitve metapodatkov na dnu zaslona za globalno konfiguracijo.
  • Robot v oblaku MODX

    Pred tem je MODX Cloud uporabnikom omogočil nadzor nad obnašanjem datoteke robots.txt za vzdrževanje na podlagi preklopa v nadzorno ploščo. Čeprav je bila uporabna, lahko naključno dovolite indeksiranje na uprizoritvenih /dev mestih z zamenjavo možnosti na nadzorno ploščo. Podobno bi bilo lahko prepovedano indeksiranje na mestu proizvodnje. Danes storitev upošteva prisotnost datotek robots.txt v datotečnem sistemu z naslednjimi izjemami: vsaka domena, ki se konča, bo modxcloud.com služila kot direktiva Disallow: /za vse uporabniške agente, ne glede na prisotnost ali odsotnost datoteke. Za produkcijska mesta, ki prejemajo prave prometne obiskovalce, boste morali uporabiti svojo domeno, če želi uporabnik indeksirati njihovo spletno mesto. Nekatere organizacije uporabljajo pravilne roboti txt za modx za izvajanje več spletnih mest iz ene namestitve z uporabo kontekstov. Primer, v katerem se to lahko uporabi, bo javni marketingspletno mesto v povezavi z mikro-mesti ciljne strani in po možnosti nejavnim intranetom. Tradicionalno je bilo to težko narediti za večuporabniške namestitve, saj imajo isti koren omrežja. Oblak MODX lahko to enostavno naredi. Samo prenesite dodatno datoteko na spletno mesto z imenom robots-intranet.example.com.txt s takšno vsebino in blokirala bo indeksiranje z dobro delujočimi roboti, vsa druga imena gostiteljev pa se bodo vrnila na standardne datoteke, če ni drugih posebnih imenovanih vozlišč. Robots.txt je pomembna datoteka, ki uporabniku omogoča povezavo do spletnega mesta v Googlu, glavnih iskalnikih in drugih spletnih mestih. Nahaja se v korenu spletnega strežnika - datoteka ukazuje spletnim pajkom, da pajkajo spletno mesto, ki določa ali naj indeksira indeks, z uporabo niza navodil, imenovanih protokol za odstranjevanje robotov. Primer pravilnih robotov txt za vse iskalnike obots.txt je še posebej preprost z orodjem SeoToaster. V nadzorni plošči je poseben meni, tako da bot ne bo nikoli moral preobremeniti, da bi pridobil dostop.

    Sorodne publikacije