Kaip blokuoti svetainės indeksavimą robots.txt: instrukcijos ir rekomendacijos

Turinys:

Kaip blokuoti svetainės indeksavimą robots.txt: instrukcijos ir rekomendacijos
Kaip blokuoti svetainės indeksavimą robots.txt: instrukcijos ir rekomendacijos
Anonim

SEO optimizavimo priemonės darbas yra labai platus. Pradedantiesiems patariama užsirašyti optimizavimo algoritmą, kad nepraleistų nė vieno žingsnio. Priešingu atveju reklama vargu ar bus pavadinta sėkminga, nes svetainėje nuolat bus gedimų ir klaidų, kurias reikės taisyti ilgą laiką.

Vienas iš optimizavimo veiksmų yra darbas su failu robots.txt. Kiekvienas išteklius turėtų turėti šį dokumentą, nes be jo bus sunkiau susidoroti su optimizavimu. Jis atlieka daugybę funkcijų, kurias turėsite suprasti.

Roboto padėjėjas

Failas robots.txt yra paprasto teksto dokumentas, kurį galima peržiūrėti standartinėje sistemos užrašų knygelėje. Kurdami jį, turite nustatyti UTF-8 kodavimą, kad būtų galima teisingai nuskaityti. Failas veikia su http, https ir FTP protokolais.

Šis dokumentas yra robotų paieškos pagalbininkas. Jei nežinote, kiekviena sistema naudoja „vorus“, kurie greitai naršo žiniatinklį, kad pateiktų atitinkamas svetaines užklausoms.vartotojų. Šie robotai turi turėti prieigą prie išteklių duomenų, robots.txt tam tinka.

Kad vorai rastų savo kelią, turite nusiųsti robots.txt dokumentą į šakninį katalogą. Norėdami patikrinti, ar svetainėje yra šis failas, naršyklės adreso juostoje įveskite „https://site.com.ua/robots.txt“. Vietoj „site.com.ua“turite įvesti reikalingą š altinį.

Darbas su robots.txt
Darbas su robots.txt

Dokumento funkcijos

Failas robots.txt suteikia tikrintuvams kelių tipų informaciją. Jis gali suteikti dalinę prieigą, kad „voras“nuskaitytų konkrečius ištekliaus elementus. Visa prieiga leidžia patikrinti visus galimus puslapius. Visiškas draudimas neleidžia robotams net pradėti tikrinti ir jie palieka svetainę.

Apsilankę š altinyje „vorai“gauna atitinkamą atsakymą į užklausą. Jų gali būti keletas, viskas priklauso nuo robots.txt informacijos. Pavyzdžiui, jei nuskaitymas buvo sėkmingas, robotas gaus kodą 2xx.

Galbūt svetainė buvo peradresuota iš vieno puslapio į kitą. Tokiu atveju robotas gauna kodą 3xx. Jei šis kodas kartojasi kelis kartus, voras seks jį tol, kol gaus kitą atsakymą. Nors, kaip taisyklė, jis naudoja tik 5 bandymus. Kitu atveju pasirodys populiari 404 klaida.

Jei atsakymas yra 4xx, tada robotui leidžiama nuskaityti visą svetainės turinį. Tačiau 5xx kodo atveju tikrinimas gali visiškai sustoti, nes tai dažnai rodo laikinas serverio klaidas.

Paieškos robotai
Paieškos robotai

Kamreikia robots.txt?

Kaip jau atspėjote, šis failas yra robotų vadovas iki svetainės šaknies. Dabar jis naudojamas iš dalies apriboti prieigą prie netinkamo turinio:

  • puslapiai su asmenine vartotojų informacija;
  • veidrodinės svetainės;
  • paieškos rezultatai;
  • duomenų pateikimo formos ir kt.

Jei svetainės šaknyje nėra failo robots.txt, robotas nuskaitys absoliučiai visą turinį. Atitinkamai, paieškos rezultatuose gali atsirasti nepageidaujamų duomenų, o tai reiškia, kad nukentėsite ir jūs, ir svetainė. Jei robots.txt dokumente yra specialių nurodymų, tada „voras“seks jas ir pateiks informaciją, kurios pageidauja ištekliaus savininkas.

Darbas su failu

Jei norite naudoti robots.txt ir blokuoti svetainės indeksavimą, turite išsiaiškinti, kaip sukurti šį failą. Norėdami tai padaryti, vadovaukitės instrukcijomis:

  1. Sukurkite dokumentą naudodami Notepad arba Notepad++.
  2. Nustatykite failo plėtinį „.txt“.
  3. Įveskite reikiamus duomenis ir komandas.
  4. Išsaugokite dokumentą ir įkelkite jį į svetainės šaknį.

Kaip matote, viename iš etapų reikia nustatyti komandas robotams. Jie yra dviejų tipų: leidžiantys (Leisti) ir draudžiantys (Disallow). Be to, kai kurie optimizatoriai gali nurodyti tikrinimo greitį, pagrindinį kompiuterį ir nuorodą į š altinio puslapio žemėlapį.

Kaip uždaryti svetainę nuo indeksavimo
Kaip uždaryti svetainę nuo indeksavimo

Norėdami pradėti dirbti su robots.txt ir visiškai užblokuoti svetainės indeksavimą, taip pat turite suprasti naudojamus simbolius. Pavyzdžiui, dokumentenaudokite „/“, kuris rodo, kad pasirinkta visa svetainė. Jei naudojamas „“, būtina simbolių seka. Tokiu būdu bus galima nurodyti konkretų aplanką, kurį galima nuskaityti arba ne.

Botų funkcija

„Vorai“paieškos sistemoms yra skirtingi, todėl jei vienu metu dirbate keliose paieškos sistemose, turėsite atsižvelgti į šį momentą. Jų pavadinimai skiriasi, o tai reiškia, kad jei norite susisiekti su konkrečiu robotu, turėsite nurodyti jo pavadinimą: „User Agent: Yandex“(be kabučių).

Jei norite nustatyti direktyvas visoms paieškos sistemoms, turite naudoti komandą: „User Agent: “(be kabučių). Norėdami tinkamai užblokuoti svetainės indeksavimą naudodami robots.txt, turite žinoti populiarių paieškos sistemų specifiką.

Faktas yra tas, kad populiariausios paieškos sistemos „Yandex“ir „Google“turi keletą robotų. Kiekvienas iš jų turi savo užduotis. Pavyzdžiui, „Yandex Bot“ir „Googlebot“yra pagrindiniai „vorai“, kurie naršo svetainę. Žinant visus robotus, bus lengviau tiksliai sureguliuoti išteklių indeksavimą.

Kaip veikia failas robots.txt
Kaip veikia failas robots.txt

Pavyzdžiai

Taigi, naudodami robots.txt, galite uždaryti svetainę nuo indeksavimo paprastomis komandomis, svarbiausia suprasti, ko jums reikia konkrečiai. Pavyzdžiui, jei norite, kad „Googlebot“nepriartėtų prie jūsų išteklių, turite duoti jam atitinkamą komandą. Tai atrodys taip: „User-agent: Googlebot Disallow: /“(be kabučių).

Dabar turime suprasti, kas yra šioje komandoje ir kaip ji veikia. Taigi „vartotojo agentas“naudojamas norint naudoti tiesioginį skambutį vienam iš robotų. Toliau nurodome, kuriai iš jų, mūsų atveju tai yra „Google“. Komanda „Disallow“turi prasidėti nauja eilutė ir uždrausti robotui įeiti į svetainę. Pasvirojo brūkšnio simbolis šiuo atveju rodo, kad komandos vykdymui pasirinkti visi š altinio puslapiai.

Kam skirtas robots.txt?
Kam skirtas robots.txt?

Robots.txt galite išjungti visų paieškos sistemų indeksavimą naudodami paprastą komandą: „User-agent:Disallow: /“(be kabučių). Šiuo atveju žvaigždutė žymi visus paieškos robotus. Paprastai tokia komanda reikalinga norint pristabdyti svetainės indeksavimą ir pradėti esminį jos darbą, o tai kitu atveju gali turėti įtakos optimizavimui.

Jei š altinis yra didelis ir turi daug puslapių, jame dažnai yra nuosavybės teise priklausančios informacijos, kurios nepageidautina atskleisti arba ji gali neigiamai paveikti reklamą. Tokiu atveju turite suprasti, kaip uždaryti puslapį nuo indeksavimo robots.txt.

Galite paslėpti aplanką arba failą. Pirmuoju atveju reikia pradėti iš naujo susisiekus su konkrečiu botu arba visais, todėl naudojame komandą „User-agent“, o žemiau nurodome konkrečiam aplankui komandą „Disallow“. Tai atrodys taip: „Disallow: / folder /“(be kabučių). Tokiu būdu paslėpsite visą aplanką. Jei jame yra koks nors svarbus failas, kurį norite parodyti, tuomet turite parašyti komandą žemiau: „Allow: /folder/file.php“(be kabučių).

Patikrinti failą

Jei naudojate robots.txt svetainei uždarytiJums pavyko indeksuoti, bet nežinote, ar visos jūsų instrukcijos veikė teisingai, galite patikrinti darbo teisingumą.

Pirma, turite dar kartą patikrinti dokumento vietą. Atminkite, kad jis turi būti tik šakniniame aplanke. Jei jis yra šakniniame aplanke, jis neveiks. Tada atidarykite naršyklę ir įveskite ten šį adresą: „https://yoursite. com/robots.txt“(be kabučių). Jei žiniatinklio naršyklėje pateikiama klaida, vadinasi, failas nėra ten, kur turėtų būti.

Kaip uždaryti aplanką nuo indeksavimo
Kaip uždaryti aplanką nuo indeksavimo

Direktyvas galima patikrinti specialiuose įrankiuose, kuriuos naudoja beveik visi žiniatinklio valdytojai. Mes kalbame apie Google ir Yandex produktus. Pavyzdžiui, „Google Search Console“yra įrankių juosta, kurioje reikia atidaryti „Crawl“ir paleisti „Robots.txt failų tikrinimo įrankį“. Turite nukopijuoti visus duomenis iš dokumento į langą ir pradėti nuskaityti. Lygiai tą patį patikrinimą galima atlikti Yandex. Webmaster.

Rekomenduojamas: