Tutorials

Wat is het crawlbudget

Inhoudsopgave:

Anonim

Een term die tegenwoordig veel wordt genoemd in de SEO-gemeenschap is crawlbudget. Als we het vertalen, wordt het gelezen als 'trackingbudget'. Het is een zeldzame middenweg, maar dit is een heel oud concept op het gebied van SEO.

Degenen die werken met grootschalige projecten zoals grote e-commerce, contentportals en SEO-specialisten, begrijpen crawlbudget als de tijd die Google besteedt aan het lezen van de pagina's van uw website op een bepaalde dag.

Inhoudsindex

Het is de tijd die de Google-crawler nodig heeft om de pagina's van een website te lezen. Maar deze keer hangt de crawler op uw website af van verschillende factoren; zoals website-autoriteit, percentage dubbele inhoud, paginafouten en nog veel meer.

Volgens het officiële webmasterblog van Google wordt echter gezegd dat niet iedereen zich zorgen hoeft te maken over dit probleem van crawlbudget. Dat wil zeggen, als ze een website hebben met een paar dozijn pagina's, hoeven ze zich geen zorgen te maken over deze kwestie van het crawlen van pagina's, omdat Google het zonder problemen zal doen.

Maar als u een online winkel of een ander webproject heeft met een paar duizend pagina's, moet u goed opletten en het crawlbudget voor uw website optimaliseren.

Crawlbudget en webpositionering

Van Google bevestigen ze dat het crawlbudget niet van invloed is op de positionering, maar dat het desalniettemin andere van de meer dan 200 factoren in de zoekmachine negatief kan beïnvloeden en soms beheersen.

Maar waarom willen we dat Google de pagina's van onze website vaker doorzoekt? Aan de andere kant vinden we verschillende SEO-experts die ervoor zorgen dat het hebben van een goed crawlbudget de algehele positionering van de pagina's van de website in de ranking verbetert en zo het organische verkeer verhoogt.

Kortom, Google heeft een bepaalde tijd binnen uw site, omdat het moet beslissen hoeveel tijd het zal besteden aan elk van de sites over de hele wereld, waarvoor het zal moeten berekenen hoeveel gelijktijdige verbindingen het zal kunnen maken om te kunnen lees de pagina's van uw website.

De kwaliteit van de website

Google besteedt tijd om verbinding te kunnen maken op de website, deze pagina's te lezen en dit lezen te stoppen. Herhaal dit de hele dag, maar er is altijd een fractie van de tijd. Die fractie van tijd is meestal evenredig met de autoriteit van uw website, het aantal nieuwe pagina's en de relevantie ervan voor Google.

Dit wordt gegeven door de kwaliteit van uw inhoud en de links die naar de site verwijzen, dat wil zeggen dat als u veel kwaliteitslinks heeft, het kan zijn dat Google u beter begrijpt en meer tijd op uw website doorbrengt, zolang er een hoger volume pagina's.

Over het algemeen verandert het crawlbudget niet veel voor een site van 10, 50 of 100 pagina's, dus op een paar pagina's is er niet veel verschil. Maar voor grote sites, als Google een seconde de tijd heeft om door uw site te gaan en u vertelt wat u moet lezen, zal dat erg handig zijn voor de crawler, omdat ze hun crawltaak sneller voltooien.

Stel in wat de belangrijke pagina's zijn

Eerst moet u een meer georganiseerde architectuur van site-informatie in kaart brengen, vaststellen welke pagina's niet nodig zijn en bepaalde pagina's niet laten indexeren door het robots.txt- bestand te controleren.

Google mag geen tijd doorbrengen in het zoekgedeelte van de website of zelfs in het gedeelte waar filternavigatie is, bijvoorbeeld in een online winkel, waar u de schoenmaat, de grootte van het appartement of de kleur van het shirt. Deze filters zijn wat mensen normaal gesproken 'gezichtsnavigatie' of 'navigatiefilters' noemen.

Sommige webmasters hebben de neiging om deze filters en die zoekopdrachten in het robots.txt-bestand te blokkeren, zodat Google geen tijd besteedt aan het lezen van deze pagina's, omdat ze in feite gericht zijn op de gebruiker die op zoek is naar die ervaring, en het is inhoud die al is beschikbaar op andere interne pagina's van de site.

We raden aan om te lezen: Te vermijden fouten bij het maken van een website

Een andere regel is dat door vast te stellen wat de belangrijke pagina's van uw site zijn, u Google's tijd bespaart op pagina's met dubbele inhoud, zoals het geval van gezichtsnavigatie, de pagina met het privacybeleid, de algemene voorwaarden en niet je wilt dat ze gelezen worden. Deze pagina's zijn alleen beschikbaar voor gebruikers die deze pagina's willen zien.

Er mag geen tijd worden verspild aan deze laagwaardige pagina's, omdat u er niet voor wilt rangschikken en ze niet het minste verschil in uw leven uitmaken, maar ze moeten er zijn omdat sommige gebruikers deze informatie toch willen raadplegen.

Hoe het crawlbudget intern werkt

Over het algemeen is het crawlbudget gebaseerd op architectuur. U definieert de links naar de pagina's die Google zal kunnen lezen en geeft prioriteit aan hun belangrijkheidsniveau.

De links die uit deze pagina's komen, zijn immers de links die waarschijnlijk door Google worden geprioriteerd. Het is dus de logica waard om heel goed na te denken over interne links en de manier waarop uw pagina is gestructureerd.

Het crawlbudget is de tijd die Google besteedt om te kunnen lezen, de informatie op de website te begrijpen en elementen zoals de organisatie van de architectuur en blokkering in robots.txt te kunnen evalueren. Het gebruik van de nofollow- tag op een link voorkomt dat Google die link volgt. Als een link bijvoorbeeld een nofollow-kenmerk heeft, maar een andere interne link heeft er geen om naar de pagina te gaan, dan zal Google het tweede pad volgen, waardoor u minder tijd zult besteden.

Voordelen van een geoptimaliseerde site

Er zijn dingen die u helpen om dagelijks meer pagina's te laten lezen, wat handig kan zijn voor elke website. Als uw server bijvoorbeeld sneller is, zal Google in die tijd meer pagina's opvragen.

Als uw pagina is gecomprimeerd, zal Google bij deze verzoeken om meer pagina's vragen. En als je een schone en adequate code hebt, ontvangt Google aan het eind van de dag ook een meer gecomprimeerde pagina, met betere bits. Dat wil zeggen, de optimalisatie van de website, de snelheid van de site en de server, hebben grote invloed op het probleem van het crawlbudget.

Hoe u het crawlbudget van uw site berekent

Het aantal keren dat de spider van de Google-zoekmachine uw website binnen een bepaalde tijd crawlt, is wat we 'crawlbudget' noemen. Als Googlebot uw site 32 keer per dag bezoekt, kunnen we daarom zeggen dat het trackingbudget van Google ongeveer 960 per maand bedraagt.

U kunt tools zoals de Google Search Console en de Bing Webmaster Tools gebruiken om het geschatte crawlbudget van uw website te berekenen. Log gewoon in en ga naar Tracking> Trackingstatistieken om het gemiddelde aantal gevolgde pagina's per dag te zien.

Crawlbudget en SEO: zijn ze hetzelfde?

Ja en nee Hoewel beide soorten optimalisatie bedoeld zijn om uw pagina zichtbaarder te maken en uw SERP's te beïnvloeden, legt SEO meer nadruk op de gebruikerservaring, terwijl spin-optimalisatie volledig draait om het aantrekken van bots.

Zoekmachineoptimalisatie (SEO) is meer gericht op het optimalisatieproces voor gebruikersvragen. In plaats daarvan richt Googlebot- optimalisatie zich op hoe de Google-crawler toegang krijgt tot uw site.

Hoe u het crawlbudget kunt optimaliseren

Er zijn verschillende manieren om het crawlbudget van elke website te optimaliseren, afhankelijk van elk webproject, aantal pagina's en andere problemen, zijn hier enkele aandachtspunten:

Zorg ervoor dat uw pagina's kunnen worden gevolgd

Uw pagina is traceerbaar als spiders van zoekmachines links op uw website kunnen vinden en volgen, dus u zult de .htaccess- en robots.txt-bestanden moeten configureren zodat ze geen kritieke pagina's op uw site blokkeren. Mogelijk wilt u ook tekstversies leveren van pagina's die sterk afhankelijk zijn van rich media-bestanden, zoals Flash en Silverlight.

Het omgekeerde is natuurlijk waar als u wilt voorkomen dat een pagina in zoekresultaten wordt weergegeven. Het instellen van het robots.txt- bestand op 'niet toestaan' is echter niet voldoende als u wilt voorkomen dat een pagina wordt geïndexeerd. Volgens Google garandeert de regel 'niet toestaan' niet dat een pagina niet in de resultaten wordt weergegeven.

Als externe informatie (bijvoorbeeld inkomende links) verkeer blijft genereren naar de pagina die je hebt geweigerd, kan Google besluiten dat de pagina nog steeds relevant is. In dit geval moet u de indexering van de pagina handmatig blokkeren met behulp van de noindex- metatag of de HTTP X-Robots-Tag-header.

- Noindex metatag: zet deze metatag in de sectie van uw pagina om te voorkomen dat de meeste webcrawlers uw pagina indexeren:

noindex "/>

- X-Robots-Tag - Plaatst het volgende in de HTTP-headerreactie om crawlers te instrueren een pagina niet te indexeren:

X-Robots-Tag: noindex

Houd er rekening mee dat als u de noindex-metatag of de X-Robots-Tag gebruikt, u de pagina niet mag verbieden in robots.txt. De pagina moet worden gecrawld voordat de tag wordt gezien en nageleefd.

Voorzichtig gebruik van rich media-bestanden

Er was een tijd dat Googlebot inhoud zoals JavaScript, Flash en HTML niet kon crawlen. Die tijden zijn allang voorbij (hoewel Googlebot nog steeds problemen heeft met Silverlight en enkele andere bestanden).

Maar zelfs als Google de meeste rich media-bestanden kan lezen, kunnen andere zoekmachines dit mogelijk niet doen, wat betekent dat u deze bestanden op een verstandige manier moet gebruiken en u ze waarschijnlijk volledig op de gewenste pagina's wilt vermijden. positie.

Vermijd omleidingsstrings

Elke URL die u omleidt, zorgt ervoor dat u een beetje van uw crawlbudget verspilt. Wanneer uw website lange omleidingsreeksen heeft, d.w.z. een groot aantal 301- en 302-omleidingen op een rij, is het mogelijk dat spiders zoals Googlebot crashen voordat ze de bestemmingspagina bereiken, wat betekent dat die pagina niet wordt geïndexeerd. De beste werkwijze met omleidingen is om zo min mogelijk omleidingen op de website te hebben, en niet meer dan twee op een rij.

Herstel gebroken links

Toen John Mueller werd gevraagd of gebroken links positionering beïnvloeden of niet, antwoordde hij dat het iets meer gericht is op de gebruikerservaring dan voor positioneringsdoeleinden.

Dit is een van de fundamentele verschillen tussen SEO en Googlebot-optimalisatie, omdat het zou betekenen dat verbroken links geen substantiële rol spelen in ranglijsten, hoewel ze het vermogen van Googlebot om een ​​website te indexeren en te rangschikken enorm belemmeren..

Dat gezegd hebbende, moet u het advies van Mueller volgen, aangezien het algoritme van Google in de loop der jaren aanzienlijk is verbeterd en dat alles wat de gebruikerservaring beïnvloedt, waarschijnlijk van invloed is op SERP's.

Stel parameters in dynamische URL's in

Spiders behandelen dynamische URL's die naar dezelfde pagina leiden als afzonderlijke pagina's, wat betekent dat u uw crawlbudget mogelijk onnodig verspilt. U kunt URL-parameters beheren door naar Search Console te gaan en op Volgen> URL-parameters te klikken. Vanaf hier kunt u Googlebot informeren als uw CMS parameters aan uw URL's toevoegt die de inhoud van een pagina niet veranderen.

Maak de sitemap schoon

XML-sitemaps helpen zowel bezoekers als spiderrobots, waardoor inhoud beter georganiseerd en gemakkelijker te vinden is. Probeer daarom de sitemap up-to- date te houden en deze te ontdoen van alle rommel die de bruikbaarheid van uw site zou kunnen schaden, inclusief 400 niveau-pagina's, onnodige omleidingen, niet-canonieke pagina's en geblokkeerde pagina's.

De eenvoudigste manier om de sitemap op te schonen, is door een tool als Website Auditor te gebruiken. U kunt de XML-sitemapgenerator van Website Auditor gebruiken om een ​​schone sitemap te maken die alle geblokkeerde pagina's uitsluit van indexering. Bovendien kunt u door naar de optie "Site Audit" te gaan alle 4xx-fouten, 301- en 302-omleidingen en niet-canonieke pagina's lokaliseren en herstellen.

Maak gebruik van feeds

Met beide feeds, RSS, XML en Atom kan inhoud aan volgers worden geleverd wanneer ze niet op de site browsen. Hierdoor kunnen gebruikers zich abonneren op hun favoriete sites en regelmatig updates ontvangen telkens wanneer nieuwe inhoud wordt gepubliceerd.

Naast het feit dat RSS-feeds lange tijd een goede manier zijn geweest om het lezerspubliek en de betrokkenheid te vergroten, behoren ze ook tot de meest bezochte sites van Googlebot. Wanneer uw website een update ontvangt (bijvoorbeeld nieuwe producten, blogposts, pagina-updates, etc.), stuurt u deze naar de Google Feed Burner om ervoor te zorgen dat deze correct wordt geïndexeerd.

Maak externe links

Linkbuilding blijft een hot topic en er is geen schijn van dat het binnenkort zal verdwijnen.

Online relaties aangaan, nieuwe gemeenschappen ontdekken, merkwaarde opbouwen; Deze kleine overwinningen zouden al in uw linkplanningsproces moeten zijn afgedrukt. Hoewel er nu onderscheidende elementen zijn van linkbuilding, is de menselijke behoefte om met anderen in contact te komen nooit veranderd.

Momenteel hebben we al bewijs dat externe links nauw verband houden met het aantal spiderbezoeken dat uw website ontvangt.

Behoud de integriteit van interne links

Hoewel het maken van interne links geen wezenlijke rol speelt in de crawlsnelheid, betekent dat niet dat het volledig kan worden genegeerd. Een goed onderhouden sitestructuur maakt uw inhoud gemakkelijk vindbaar voor zoekrobots zonder uw crawlbudget te verspillen.

Een goed georganiseerde interne linkstructuur kan ook de gebruikerservaring verbeteren, vooral als gebruikers een gebied van uw website in drie klikken kunnen bereiken. Door alles algemeen toegankelijker te maken, blijven bezoekers langer, wat de SERP's kan verbeteren.

Welke conclusie trekken we?

Nogmaals, ter versterking van wat hierboven al is vermeld, is dit probleem van crawlbudget belangrijk voor grote websites met honderdduizenden webpagina's, anders is het niet de moeite waard om je zorgen over te maken, aangezien Google je website vlot.

We mogen het crawlen van de pagina's van onze site naar Google niet bemoeilijken. Er zijn veel websites met voldoende fouten en zelfs met barrières die zijn gecreëerd door de robots.txt- en sitemap.xml-bestanden die voorkomen dat Google toegang krijgt tot de inhoud. Als we de positionering in de Google-ranking willen verbeteren, moeten we de pagina's van de website autoriseren en vereenvoudigen, zodat Google snel toegang heeft, indexeert en positioneert. Heel eenvoudig.

Inmiddels heb je waarschijnlijk een trend opgemerkt in dit artikel: Best practices voor traceerbaarheid hebben ook de neiging om de doorzoekbaarheid te verbeteren. Dus als u zich afvraagt ​​of optimalisatie van het crawlbudget belangrijk is voor uw website, is het antwoord ja.

Simpel gezegd, als u het voor Google gemakkelijker maakt om uw website te ontdekken en te indexeren, zult u genieten van meer crawlen, wat betekent snellere updates wanneer u nieuwe inhoud plaatst. Je verbetert ook de algehele gebruikerservaring, het verbeteren van de zichtbaarheid en, uiteindelijk, de rangschikking van SERP's.

Dit zijn slechts enkele van de punten om het crawlbudget van een website te verbeteren en te optimaliseren.

Tutorials

Bewerkers keuze

Back to top button