Kaip tinkamai nustatyti Robots.txt?

Turinys:

Kaip tinkamai nustatyti Robots.txt?
Kaip tinkamai nustatyti Robots.txt?
Anonim

. Šis failas dažnai vadinamas Robot Exclusion Protocol. Pirmas dalykas, kurio robotai ieško prieš tikrindami svetainę, yra robots.txt. Jis gali nurodyti arba nurodyti svetainės schemai netikrinti tam tikrų padomenių. Jei norite, kad paieškos sistemos ieškotų to, kas dažniausiai randama, robots.txt nereikia. Šiame procese labai svarbu, kad failas būtų tinkamai suformatuotas ir neindeksuotų vartotojo puslapio su vartotojo asmeniniais duomenimis.

Roboto nuskaitymo principas

Roboto skenavimo principas
Roboto skenavimo principas

Kai paieškos variklis aptinka failą ir mato uždraustą URL, jis jo netikrina, bet gali jį indeksuoti. Taip yra todėl, kad net jei robotams neleidžiama peržiūrėti turinio, jie gali prisiminti atgalines nuorodas, nukreipiančias į draudžiamą URL. Dėl užblokuotos prieigos prie nuorodos URL bus rodomas paieškos sistemose, bet be fragmentų. Jeiguįeinančios rinkodaros strategijai reikalingas teisingas „Bitrix“(Bitrix) skirtas robotų txt failas, jie naudotojo prašymu pateikia svetainės patikrinimą naudojant skaitytuvus.

Kita vertus, jei failas nėra tinkamai suformatuotas, svetainė gali būti nerodoma paieškos rezultatuose ir gali būti nerasta. Paieškos sistemos negali apeiti šio failo. Programuotojas gali peržiūrėti bet kurios svetainės robots.txt, eidamas į jos domeną ir sekdamas jį su robots.txt, pavyzdžiui, www.domain.com/robots.txt. Naudodami tokį įrankį kaip Unamo SEO optimizavimo skiltis, kurioje galite įvesti bet kurį domeną ir paslauga parodys informaciją apie failo egzistavimą.

Nuskaitymo apribojimai:

  1. Naudotojas turi pasenusio arba neskelbtino turinio.
  2. Svetainėje esantys vaizdai nebus įtraukti į vaizdų paieškos rezultatus.
  3. Svetainė dar neparengta demonstracijai, kad robotas ją indeksuotų.

Atminkite, kad informacija, kurią vartotojas nori gauti iš paieškos variklio, yra prieinama visiems, įvedusiems URL. Nenaudokite šio teksto failo slaptiems duomenims paslėpti. Jei domene yra 404 (nerasta) arba 410 (išlaikyta) klaida, paieškos variklis patikrina svetainę, nepaisydamas robots.txt, ir tokiu atveju mano, kad failo trūksta. Kitos klaidos, pvz., 500 (vidinė serverio klaida), 403 (uždrausta), skirtasis laikas arba „nepasiekiamas“, atitinka robots.txt instrukcijas, tačiau apėjimas gali būti atidėtas, kol failas bus pasiekiamas.

Paieškos failo kūrimas

Paieškos failo kūrimas
Paieškos failo kūrimas

DaugelisTVS programos, tokios kaip WordPress, jau turi robots.txt failą. Prieš tinkamai sukonfigūruodamas Robots txt WordPress, vartotojas turi susipažinti su jos galimybėmis, kad išsiaiškintų, kaip ją pasiekti. Jei programuotojas pats sukuria failą, jis turi atitikti šias sąlygas:

  1. Turi būti mažosiomis raidėmis.
  2. Naudokite UTF-8 koduotę.
  3. Išsaugoti teksto rengyklėje kaip failą (.txt).

Kai vartotojas nežino, kur jį įdėti, jis susisiekia su žiniatinklio serverio programinės įrangos pardavėju, kad sužinotų, kaip pasiekti domeno šaknį, arba eikite į „Google“pultą ir atsisiųskite jį. Naudodama šią funkciją „Google“taip pat gali patikrinti, ar robotas tinkamai veikia, ir svetainių, kurios buvo užblokuotos naudojant failą, sąrašą.

Pagrindinis tinkamo Robots txt formatas, skirtas Bitrix (Bitrix):

  1. Legenda robots.txt.
  2. , prideda komentarų, kurie naudojami tik kaip pastabos.
  3. Skeneriai ignoruos šiuos komentarus kartu su bet kokiomis vartotojo rašybos klaidomis.
  4. User-agent – nurodo, kuriame paieškos variklyje pateikiamos failo instrukcijos.
  5. Pridėjus žvaigždutę (), skaitytuvai nurodo, kad instrukcijos skirtos visiems.

Nurodomas konkretus robotas, pvz., Googlebot, Baiduspider, Applebot. Neleisti tikrinimo programoms nurodo, kurios svetainės dalys neturėtų būti tikrinamos. Tai atrodo taip: Vartotojo agentas:. Žvaigždutė reiškia „visi robotai“. Tačiau galite nurodyti konkrečius puslapiusrobotai. Norėdami tai padaryti, turite žinoti roboto, kuriam nustatytos rekomendacijos, pavadinimą.

Tinkamas robotų tekstas, skirtas Yandex, gali atrodyti taip:

Taisyti robotų txt, skirtą Yandex
Taisyti robotų txt, skirtą Yandex

Jei robotas neturėtų aptikti svetainės, galite jį nurodyti, o norint rasti vartotojų agentų pavadinimus, rekomenduojama susipažinti su internetinėmis useragentstring.com galimybėmis.

Puslapio optimizavimas

Puslapio optimizavimas
Puslapio optimizavimas

Toliau pateiktos dvi eilutės laikomos užbaigtu robots.txt failu, o viename robotų faile gali būti kelios vartotojo agentų ir direktyvų eilutės, kurios išjungia arba įgalina tikrinimą. Pagrindinis teisingo robotų teksto formatas:

  1. Vartotojo agentas: [agento naudotojo vardas].
  2. Disallow: .

Faile kiekvienas direktyvų blokas rodomas kaip atskiras, atskirtas eilute. Šalia agento vartotojo katalogo esančiame faile kiekviena taisyklė taikoma konkrečiam sekcijomis atskirtų eilučių rinkiniui. Jei failas turi kelių agentų taisyklę, robotas atsižvelgs tik į konkretiausią instrukcijų grupę.

Techninė sintaksė

Techninė sintaksė
Techninė sintaksė

Tai gali būti laikoma robots.txt failų „kalba“. Šiame formate gali būti penki terminai, iš kurių pagrindiniai yra:

  1. User-agent – žiniatinklio tikrinimo programa su tikrinimo instrukcijomis, dažniausiai paieškos variklis.
  2. Disallow yra komanda, naudojama vartotojo agentui nurodyti apeitikonkretaus URL (praleidimas). Kiekvienam yra tik viena draudžiama sąlyga.
  3. Leisti. „Googlebot“, kuris gauna prieigą, net naudotojo puslapis uždraustas.
  4. Crawl-delay – nurodo, kiek sekundžių tikrintuvui prireiks prieš tikrinant. Kai robotas to nepatvirtina, greitis nustatomas „Google“pulte.
  5. Svetainės schema – naudojama XML žemėlapių, susietų su URL, vietai rasti.

Raštų atitikmenys

Kalbant apie faktinį URL blokavimą arba galiojančio Robots txt leidimą, operacijos gali būti gana sudėtingos, nes jos leidžia naudoti šablonų atitiktį, kad būtų galima padengti daugybę galimų URL parametrų. „Google“ir „Bing“naudoja du simbolius, identifikuojančius puslapius arba poaplankius, kuriuos SEO nori išskirti. Du simboliai yra žvaigždutė () ir dolerio ženklas ($), kur:yra pakaitos simbolis, nurodantis bet kokią simbolių seką. $ – atitinka URL pabaigą.

„Google“siūlo didelį galimų šablonų sintaksių sąrašą, kuris paaiškina vartotojui, kaip tinkamai nustatyti robotų txt failą. Kai kurie įprasti naudojimo atvejai:

  1. Neleiskite pasikartojančiam turiniui pasirodyti paieškos rezultatuose.
  2. Laikykite visas svetainės skiltis privačias.
  3. Išsaugokite vidinius paieškos rezultatų puslapius pagal atvirą teiginį.
  4. Nurodykite vietą.
  5. Neleiskite paieškos varikliams indeksuoti tam tikrųfailai.
  6. Nurodykite tikrinimo delsą, kad būtų sustabdytas įkėlimas iš naujo, kai vienu metu nuskaitomos kelios turinio sritys.

Tikrinimas, ar nėra roboto failo

Jei svetainėje nėra sričių, kurias reikėtų tikrinti, robots.txt iš viso nereikia. Jei vartotojas nėra tikras, kad šis failas egzistuoja, jis turi įvesti šakninį domeną ir įvesti jį URL pabaigoje, maždaug taip: moz.com/robots.txt. Daugelis paieškos robotų nepaiso šių failų. Tačiau, kaip taisyklė, šie tikrintuvai nepriklauso patikimoms paieškos sistemoms. Tai tokie šiukšlių siuntėjai, laiškų kaupikliai ir kitų tipų automatiniai robotai, kurių gausu internete.

Labai svarbu atsiminti, kad roboto pašalinimo standarto naudojimas nėra veiksminga saugumo priemonė. Tiesą sakant, kai kurie robotai gali prasidėti puslapiais, kuriuose vartotojas juos nustato nuskaitymo režimu. Yra keletas dalių, kurios patenka į standartinį išimčių failą. Prieš nurodydami robotui, kuriuose puslapiuose jis neturėtų veikti, turite nurodyti, su kuriuo robotu kalbėti. Daugeliu atvejų naudotojas naudos paprastą deklaraciją, kuri reiškia „visi robotai“.

SEO optimizavimas

SEO optimizavimas
SEO optimizavimas

Prieš optimizuodamas vartotojas turi įsitikinti, kad jis neužblokuoja jokio svetainės turinio ar skilčių, kurias reikia apeiti. Nuorodų į puslapius, užblokuotus tinkamu Robots txt, nebus laikomasi. Tai reiškia:

  1. Jei jie nėra susieti su kitais paieškos sistemoms prieinamais puslapiais, ty. puslapiai,neblokuoja robots.txt arba meta robotas, o susiję ištekliai nebus tikrinami, todėl jų negalima indeksuoti.
  2. Jokios nuorodos negalima perduoti iš užblokuoto puslapio į nuorodos paskirties vietą. Jei toks puslapis yra, geriau naudoti kitą blokavimo mechanizmą nei robots.txt.

Kadangi kiti puslapiai gali tiesiogiai nukreipti į puslapį, kuriame yra asmeninės informacijos, ir jūs norite užblokuoti šį puslapį paieškos rezultatuose, naudokite kitą metodą, pvz., apsaugą slaptažodžiu arba neindeksuotus metaduomenis. Kai kurios paieškos sistemos turi kelis vartotojų agentus. Pavyzdžiui, „Google“naudoja „Googlebot“natūralioms paieškoms, o „Googlebot-Image“– vaizdų paieškoms.

Dauguma naudotojų agentų iš tos pačios paieškos programos laikosi tų pačių taisyklių, todėl nereikia nurodyti direktyvų kiekvienai iš kelių tikrintuvų, tačiau tai gali tiksliai sureguliuoti svetainės turinio tikrinimą. Paieškos variklis talpykloje saugo failo turinį ir paprastai talpykloje saugomą turinį atnaujina bent kartą per dieną. Jei naudotojas pakeičia failą ir nori jį atnaujinti greičiau nei įprastai, jis gali pateikti robots.txt URL „Google“.

Paieškos varikliai

Tikrinama, ar nėra roboto failo
Tikrinama, ar nėra roboto failo

Norėdami suprasti, kaip tinkamai veikia Robots txt, turite žinoti apie paieškos sistemų galimybes. Trumpai tariant, jų galimybės slypi tame, kad jie siunčia „skenerius“, ty programas, kuriosinformacijos naršymas internete. Tada jie išsaugo dalį šios informacijos, kad vėliau ją perduotų vartotojui.

Daugeliui žmonių „Google“jau yra internetas. Tiesą sakant, jie teisūs, nes tai bene svarbiausias jo išradimas. Ir nors nuo pat įkūrimo paieškos sistemos labai pasikeitė, pagrindiniai principai išlieka tie patys. Tikrinimo programos, taip pat žinomos kaip „botai“arba „vorai“, randa puslapius iš milijardų svetainių. Paieškos sistemos suteikia jiems nurodymus, kur eiti, o atskiros svetainės taip pat gali susisiekti su robotais ir nurodyti, kuriuos konkrečius puslapius jie turėtų peržiūrėti.

Paprastai svetainių savininkai nenori būti rodomi paieškos sistemose: administratoriaus puslapiuose, pagrindiniuose portaluose, kategorijose ir žymose bei kituose informacijos puslapiuose. Failas robots.txt taip pat gali būti naudojamas siekiant neleisti paieškos sistemoms tikrinti puslapių. Trumpai tariant, robots.txt nurodo žiniatinklio tikrintuvams, ką daryti.

Uždrausti puslapius

Tai pagrindinė roboto išskyrimo failo dalis. Naudodamas paprastą pareiškimą, vartotojas nurodo robotui arba robotų grupei nenuskaityti tam tikrų puslapių. Sintaksė paprasta, pavyzdžiui, norėdami uždrausti prieigą prie visko, kas yra svetainės "admin" kataloge, parašykite: Disallow: /admin. Ši eilutė neleis robotams tikrinti yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html ir nieko kito, esančio administratoriaus kataloge.

Jei norite neleisti vieno puslapio, tiesiog nurodykite jį neleidimo eilutėje: Disallow: /public/exception.html. Dabar „išimčių“puslapisnebus perkelta, bet visa kita „viešajame“aplanke bus.

Jei norite įtraukti kelis puslapius, tiesiog išvardykite juos:

Katalogai ir puslapiai
Katalogai ir puslapiai

Šios keturios tinkamo Robots txt eilutės, skirtos simfonijai, bus taikomos bet kuriai naudotojo priemonei, nurodytairobots.txt skilties https://www.symphonyspace.org/. viršuje.

Uždrausti puslapius
Uždrausti puslapius

Svetainės schema:

Kitos komandos:tiesioginė – neleiskite žiniatinklio tikrinimo programoms indeksuoti cpresources/ arba teikėją/.

Vartotojo agentas:Neleisti: /cpresources/.

Atmesti: / pardavėjas / Neleisti: /.env.

Standartų nustatymas

Vartotojas gali nurodyti konkrečius puslapius skirtingiems robotams, derindamas du ankstesnius elementus. Taip atrodo. Žemiau pateikiamas tinkamo robotų teksto failo, skirto visoms paieškos sistemoms, pavyzdys.

Standartų nustatymas
Standartų nustatymas

Skiltys „Administratorius“ir „privatus“bus nematomos „Google“ir „Bing“, tačiau „Google“vis tiek matys „slaptą“katalogą, o „Bing“– ne. Galite nurodyti bendrąsias taisykles visiems robotams naudodami žvaigždute pažymėtą vartotojo agentą, o tada pateikti konkrečias instrukcijas robotams kituose skyriuose. Turėdamas aukščiau pateiktas žinias, vartotojas gali parašyti teisingo Robots txt pavyzdį visoms paieškos sistemoms. Tiesiog paleiskite mėgstamą teksto rengyklę ir praneškite robotams, kad jie tam tikrose svetainės dalyse nepageidaujami.

Patarimai, kaip pagerinti serverio našumą

SublimeText yrauniversalus teksto rengyklė ir auksinis standartas daugeliui programuotojų. Be to, jo programavimo patarimai yra pagrįsti efektyviu kodavimu. vartotojai vertina nuorodų buvimą programoje. Jei vartotojas nori pamatyti robots.txt failo pavyzdį, jis turėtų eiti į bet kurią svetainę ir pabaigoje pridėti „/robots.txt“. Čia yra dalis failo robots.txt GiantBicycles.

Programa leidžia kurti puslapius, kurių vartotojai nenori rodyti paieškos sistemose. Taip pat turi keletą išskirtinių dalykų, apie kuriuos žino nedaugelis. Pavyzdžiui, nors failas robots.txt nurodo robotams, kur nereikėtų eiti, svetainės schemos failas veikia priešingai ir padeda rasti tai, ko jie ieško, ir nors paieškos sistemos tikriausiai jau žino, kur yra svetainės schema, ji negauna. kelyje.

Yra dviejų tipų failai: HTML puslapis arba XML failas. HTML puslapis yra puslapis, kuriame lankytojams rodomi visi galimi svetainės puslapiai. Savo robots.txt faile jis atrodo taip: Sitemap://www.makeuseof.com/sitemap_index.xml. Jei svetainės neindeksuoja paieškos varikliai, nors ją kelis kartus tikrino žiniatinklio robotai, turite įsitikinti, kad failas yra ir ar tinkamai nustatyti jo leidimai.

Pagal numatytuosius nustatymus tai atsitiks su visomis SeoToaster instaliacijomis, bet jei reikia, galite iš naujo nustatyti taip: Failas robots.txt - 644. Priklausomai nuo PHP serverio, jei tai neveikia vartotojui, tai rekomenduojama išbandyti šiuos veiksmus: Failas robots.txt – 666.

Nuskaitymo delsos nustatymas

Aplenkimo delsos direktyva informuoja tam tikruspaieškos sistemos, kaip dažnai jie gali indeksuoti svetainės puslapį. Jis matuojamas sekundėmis, nors kai kurios paieškos sistemos tai interpretuoja šiek tiek kitaip. Kai kurie žmonės mato 5 tikrinimo delsą, kai jiems liepiama palaukti penkias sekundes po kiekvieno nuskaitymo, kad būtų pradėtas kitas.

Kiti tai supranta kaip nurodymą kas penkias sekundes nuskaityti tik vieną puslapį. Robotas negali nuskaityti greičiau, kad taupytų serverio pralaidumą. Jei serveris turi atitikti srautą, jis gali nustatyti apėjimo delsą. Apskritai, daugeliu atvejų vartotojams nereikia dėl to jaudintis. Taip nustatoma aštuonių sekundžių tikrinimo delsa – tikrinimo delsa: 8.

Tačiau ne visi paieškos varikliai paklus šiai direktyvai, todėl neleisdami puslapių galite nustatyti skirtingus tam tikrų paieškos sistemų tikrinimo delsas. Nustatę visas faile pateiktas instrukcijas, galite įkelti jį į svetainę, pirmiausia įsitikinkite, kad tai paprastas tekstinis failas, kurio pavadinimas yra robots.txt ir jį galima rasti adresu yoursite.com/robots.txt.

Geriausias „WordPress“robotas

Geriausias „WordPress“robotas
Geriausias „WordPress“robotas

„WordPress“svetainėje yra keletas failų ir katalogų, kuriuos kiekvieną kartą reikia užrakinti. Katalogai, kurių vartotojai turėtų neleisti, yra cgi-bin katalogas ir standartiniai WP katalogai. Kai kurie serveriai neleidžia pasiekti cgi-bin katalogo, bet naudotojai turi įtraukti jį į direktyvą neleisti prieš tinkamai sukonfigūruodami Robots txt WordPress

Standartiniai „WordPress“katalogai,kurios turėtų būti blokuojamos: wp-admin, wp-content, wp-includes. Šiuose kataloguose nėra duomenų, kurie iš pradžių būtų naudingi paieškos sistemoms, tačiau yra išimtis, ty wp-content kataloge yra pakatalogis, pavadintas įkėlimai. Šis pakatalogis turi būti leidžiamas robot.txt faile, nes jame yra viskas, kas įkeliama naudojant WP medijos įkėlimo funkciją. „WordPress“naudoja žymas arba kategorijas turiniui struktūrizuoti.

Jei naudojamos kategorijos, norint sukurti tinkamą Robots txt for Wordpress, kaip nurodė programos gamintojas, reikia užblokuoti žymų archyvus nuo paieškos. Pirmiausia jie patikrina duomenų bazę, eidami į „Administravimo“skydelį> „Nustatymai“> „Nuolatinė nuoroda“.

Pagal numatytuosius nustatymus pagrindas yra žyma, jei laukas tuščias: Neleisti: / žyma /. Jei naudojama kategorija, turite išjungti kategoriją robot.txt faile: Disallow: /category/. Pagal numatytuosius nustatymus pagrindas yra žyma, jei laukas tuščias: Disallow: / tag /. Jei naudojama kategorija, turite išjungti kategoriją faile robot.txt: Disallow: / category /.

Failai, pirmiausia naudojami turiniui rodyti, juos užblokuos tinkamas „Wordpress“skirtas Robots txt failas:

Robotai txt, skirtas wordpress
Robotai txt, skirtas wordpress

Joomla pagrindinė sąranka

Kai naudotojas įdiegs Joomla, turite peržiūrėti teisingą Joomla Robots txt nustatymą visuotinėje konfigūracijoje, kuri yra valdymo skydelyje. Kai kurie nustatymai čia yra labai svarbūs SEO. Pirmiausia suraskite svetainės pavadinimą ir įsitikinkitenaudojamas trumpasis svetainės pavadinimas. Tada jie randa nustatymų grupę to paties ekrano dešinėje, kuri vadinama SEO nustatymais. Kitas, kurį būtinai turės pakeisti, yra antrasis: naudokite perrašymo URL.

Tai skamba sudėtingai, bet iš esmės padeda Joomla sukurti aiškesnius URL. Labiausiai pastebima, jei pašalinsite eilutę index.php iš URL. Jei vėliau pakeisite, URL adresai pasikeis ir „Google“tai nepatiks. Tačiau keičiant šį nustatymą, vienu metu reikia atlikti kelis veiksmus, kad būtų sukurtas tinkamas Joomla robots txt:

  1. Rasti htaccess.txt failą Joomla šakniniame aplanke.
  2. Pažymėkite kaip.htaccess (be plėtinio).
  3. Į puslapių pavadinimus įtraukite svetainės pavadinimą.
  4. Raskite metaduomenų nustatymus visuotinio konfigūravimo ekrano apačioje.

Robotas debesyje MODX

Robotas MODX debesyje
Robotas MODX debesyje

Anksčiau MODX Cloud suteikė vartotojams galimybę valdyti robots.txt failo pateikimo veikimą pagal prietaisų skydelio jungiklį. Nors tai buvo naudinga, buvo galima netyčia leisti indeksuoti sustojimo / kūrimo svetainėse, perjungiant parinktį prietaisų skydelyje. Panašiai buvo lengva išjungti indeksavimą gamybos vietoje.

Šiandien paslauga daro prielaidą, kad failų sistemoje yra robots.txt failai, išskyrus šią išimtį: bet kuris domenas, kuris baigiasi modxcloud.com, veiks kaip Disallow: /direktyva visoms vartotojų priemonėms, nepaisant jų buvimo. arba failo nebuvimas. Gamybos svetainės, kurios sulaukia tikro lankytojų srauto, turės naudoti savo domeną, jei naudotojas norės indeksuoti savo svetainę.

Kai kurios organizacijos naudoja teisingą Robots txt, skirtą modx, norėdamos paleisti kelias svetaines iš vieno įrenginio, naudodamos kontekstus. Atvejis, kai tai galėtų būti taikoma, būtų viešoji rinkodaros svetainė kartu su nukreipimo puslapių mikrosvetainėmis ir galbūt neviešasis intranetas.

Tradiciškai tai buvo sunku padaryti kelių naudotojų įrenginiuose, nes jie turi tą pačią tinklo šaknį. Su MODX Cloud tai paprasta. Tiesiog įkelkite papildomą failą į svetainę robots-intranet.example.com.txt su tokiu turiniu ir jis užblokuos indeksavimą naudojant gerai veikiančius robotus, o visi kiti prieglobos pavadinimai taps standartiniais failais, nebent yra kitų konkrečių pavadinimų mazgų.

Robots.txt yra svarbus failas, padedantis vartotojui susieti su svetaine Google, pagrindinėse paieškos sistemose ir kitose svetainėse. Failas, esantis žiniatinklio serverio šaknyje, nurodo žiniatinklio robotams nuskaityti svetainę, nustatyti, kuriuos aplankus ji turėtų ar neindeksuoti, naudojant instrukcijų rinkinį, vadinamą Bot Exclusion Protocol. Tinkamo Robots txt visoms paieškos sistemoms pavyzdys obots.txt yra ypač lengvas naudojant SeoToaster. Jam valdymo skydelyje buvo sukurtas specialus meniu, todėl robotui niekada nereikės per daug dirbti, kad gautų prieigą.

Rekomenduojamas: