Isang mabilis na gabay sa pagsusulat ng Robots.txt file

Paano ka sumangguni sa isang malaking aklat-aralin? Pagsasala sa index. Well: may isang elemento na ang tunay na buod ng iyong website...

Robots.txt: Ang mga programming code ay tiyak na magiging mas sopistikado
Ang mga programming code ay nakatakdang maging mas sopistikado

Ang tanging paraan upang makipag-ugnayan sa spider ng search engine, o ang crawler, ay sa pamamagitan ng isang file na tinatawag robots.txt. O mas mabuti. Kapag isinumite mo ang iyong panukala sa website sa Google, nahaharap ito sa napakalaking dami ng impormasyon.

Paano ka kumokonsulta sa isang aklat-aralin na napakalaki na sa tingin mo ay hindi mo mahahanap ang lahat ng kailangan mo? Kumonsulta ka ang clue. Well: ang robots.txt file ay ang index ng iyong website.

Ito ay isang dokumentong madaling punan na nagsasabi sa crawler ng search engine kung ano ang hahanapin. Sa madaling salita: tutulungan mo siyang maunawaan kung saan ginawa ang iyong site, upang ang algorithm ay makapagbigay sa iyo ng ranggo na naaangkop sa gawaing nagawa mo.

Maaari bang magsulat ng isang robots.txt file ang sinuman?

Ang maikling sagot ay oo. Ang matapat na sagot ay hindi. Bagama't ang grammar ng isang robots.txt file ay napakasimple, at ang komposisyon nito ay binubuo ng ilang linya, mas mabuting umasa sa pangangalaga ng isang dalubhasang webmaster na nakakaalam kung saan ilalagay ang kanyang mga kamay. Pagkatapos ng lahat, ang isang maliit na pagkakamali ay sapat na upang ikompromiso ang pagpoposisyon ng iyong website, at samakatuwid ay ihinto ang lahat ng mga operasyon ng SEO bago pa man magsimula.

Bago ka magsimula, alamin ang isang bagay: sinuman ay maaaring kumonsulta sa robots.txt file ng anumang site sa pamamagitan ng pagsulat ng /robots.txt pagkatapos ng domain. Maaari ka ring kumonsulta sa Google!

Maaari kang magsulat ng ganoong file nang hindi nagda-download ng espesyal na software. Sa katunayan, ito ay sapat na upang gamitin ang iyong notepad at i-save, hulaan kung ano, sa .txt na format.

Magkasama tayong magsulat ng robots.txt: ang header

Magsimula tayo sa simula, dahil ito ay palaging lohikal na gawin. Ang pagbubukas ng file, o sa halip ang header, ay ganap na nakatuon sa pangalan ng gagamba, na pinangungunahan ng isang maliit na salita na palaging pareho. Ipagpalagay natin na gusto mong mapansin ng Google. Kaya ang unang linya ay magiging:

Ahente ng gumagamit: Googlebot

Ang napakaikling string na ito ay nagsasabi sa Google na lahat ng kasunod ay tiyak na magiging interesado dito. Kung sakaling gusto mong lahat ng mga crawler na nagbabasa ng ganitong uri ng file ay maaaring kumonsulta sa dokumento, palitan ang Googlebot ng isang simpleng *, isang asterisk.

Ngayong naipahiwatig mo na kung aling gagamba, ibig sabihin, SINO, kakailanganin mong ipahiwatig pati kung ANO ang kailangan niyang basahin.

Ang bawat linya ng code, ayon sa kahulugan, ay tumutugma sa isang aksyon ng makina. Hindi sinasabi na ang bawat command sa robots.txt file ay tumutugma sa hindi dapat gawin ng makina. At ito ang susi na nagpapahintulot sa iyo na magsulat ng isang talagang epektibo. Pinag-uusapan natin ang utos na DISALLOW.

Ano ang utos na DISALLOW?

Il huwag payagan ang utos nagpapahintulot sa iyo na mangatwiran sa pamamagitan ng pagbubukod. Sa madaling salita, kapag sinabing ito ang unang magsabi ng hindi dapat gawin – well, you are reasoning by exclusion. Bilang karagdagan sa hindi pinapayagan mayroon ding pinapayagan, na kung saan ay ang pagbubukod sa block.

Kung gusto mong magsulat ng magandang robots file, kailangan mong mag-isip ng iba, kaya kailangan mong sabihin sa Google kung ano ang hindi dapat basahin. Kung sumulat ka:

Huwag payagan:

Babasahin ng gagamba ang iyong buong site, nang walang anumang preno.

Kung pagkatapos ng “Disallow:” ay magpasok ka ng slash (samakatuwid Huwag Payagan: /), ang site ay hindi ilalagay sa mga search engine, full stop.

Huwag payagan: /directories/

Palitan ang direktoryo ng salita ng folder na gusto mong tanggihan mula sa spider view. Maaari mong gawin ang parehong sa isang partikular na file.

Huwag payagan: /myfile.html

PANSIN sa bantas at mga titik, uppercase o lowercase. Ang ganitong uri ng file ay nagtataglay ng mga ganitong uri ng "walang halaga" sa mataas na pagsasaalang-alang, ngunit gumawa sila ng malaking pagkakaiba.

Bakit mo pipigilan ang Google sa pagbabasa ng malaking bahagi ng iyong site? Kapag sumulat ka ng ganitong uri ng file, mahalagang maunawaan kung aling mga file ang hindi dapat lumabas sa search engine, ngunit nang hindi inaabuso ang mga ito. Gayunpaman, alamin na sinumang nakakaalam ng eksaktong address ng partikular na file na iyon ay maa-access ito sa anumang kaso.

Ano ang ALLOW command?

Sa file maaari kang magdagdag ng isang pagbubukod sa utos LAHAT. Magkapareho ang gramatika, ngunit lilikha ito ng ilang mga eksepsiyon sa DISALLOW na magbibigay-daan sa pagbukas ng mga kawili-wiling margin ng paggalugad para sa gagamba.

Isang maliit na sample na file:

Ahente ng gumagamit: Googlebot

Huwag payagan: /images/

Payagan: /images/holidays.jpg

Karaniwang sinabi namin sa Googlebot na huwag isaalang-alang ang folder ng imahe, maliban sa isang partikular na larawan sa loob nito, katulad ng isa mula sa mga holiday.

At iyon, guys, ay ito. Isinulat namin ang aming unang robots.txt file. Oo naman, kung ano ang gagawin namin para sa aktwal na site ay maaaring bahagyang naiiba, ngunit hindi gaanong. Kung may pagdududa, palaging humingi ng payo mula sa isang dalubhasang webmaster. Pinapayuhan ka naming subukang isulat ito sa iyong sarili, una sa lahat, at ipadala ito sa kanya para sa isang tseke, upang makabisado ang mga simulain at mas maunawaan kung paano gumagana ang iyong site.

Ano ang ugnayan sa pagitan ng robots.txt at sitemaps?

Ang sitemap ay isang file na nabuo ng mga espesyal na plugin na naglalaman ng lahat ng mga link sa site. Kapag pumasok ang gagamba sa site, unang binasa nito ang mga robot, pagkatapos ay ginagapang ang site. Kung sa panahon ng pag-crawl ay nahanap ng robot ang address ng sitemap, ang buong proseso ay magiging mas madali.

Idagdag ang sumusunod sa code sa itaas:

Mga sitemap: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

Sa konklusyon

Ang lahat ng mga robot na file ay pareho. Nangangahulugan ito na ang isang Robots file na isinulat para sa Google ay gagana rin nang maayos para sa Bing, at sumusunod sa parehong grammar.

Ang isang maayos na robots.txt file ay nagpapahintulot sa iyo na makatipid ng oras ng crawler. Huwag mawalan ng pag-asa: ito ang unang hakbang patungo sa tagumpay!

Robots.txt: Ang Google ang pinakamakapangyarihang search engine sa Internet
Ang Google ang pinakamakapangyarihang search engine sa Internet