Les timeout dans RDDZ Scraper

Le réglage des timeout dans RDDZ Scraper peut paraître totalement obscure pour certains utilisateurs. Cet article a pour but de démystifier le réglage des timeout afin de tirer pleinement profit de notre logiciel.

 

L'onglet Configuration et le réglage des timeout

Avant d'entrer dans le vif du sujet, rappelons qu'un timeout peut se traduire par "délai d'attente". On va donc spécifier combien de temps au maximum le logiciel doit attendre avant de stopper l'opération en cours.

 

Le scrap timeout

Le timeout pour le scrap permet d'interrompre le scrap si aucun résultat n'est retourné dans la liste de scrap pendant x secondes. Si votre connexion est très lente ou si vous utilisez des proxies gratuits (ou très lents), n'hésitez pas à augmenter cette valeur. Vous pouvez par exemple mettre 300 secondes (5 minutes).

 

Le page loading timeout

Le page loading timeout (temps de chargement d'une page) permet d'interrompre le chargement d'une page si cette dernière ne se charge pas en moins de x secondes. Cette option est apparue dans la version 1.4.0 de RDDZ Scraper. Ce timeout n'interrompt pas le scrap et doit être réglé à une valeur inférieure au timeout du scrap (sinon cette option ne sert à rien). Cette valeur est indispensable si vous utilisez les customs (custom1 et custom2). Cette option est uniquement prise en compte pendant le scrap.

 

Le status code timeout

Le timeout pour les HTTP status code permet de stopper la récupération de ces derniers si aucun status code n'est retourné pendant x secondes. Le nombres de threads simultanées influe également sur l'arrêt de la récupération des status code. En effet, si vous spécifiez un seul thread et qu'une des URL met plus de x secondes (que vous avez défini en timeout) à renvoyer son status code, la récupération s'arrêtera. Si par contre vous avez mis 100 threads simultanées, et qu'une seule (ou une dizaine) d'URL met plus de x secondes à répondre, vous aurez quand même tous les autres threads qui continueront de travailler.

 

Le pagerank timeout

Le timeout pour la récupération du Pagerank permet d'interrompre la récupération du pagerank si aucun pagerank n'est retourné avant x secondes. Tout comme les status code, le nombre de threads entre également en compte.

 

Le dofollow timeout

Le timeout pour la récupération du pourcentage de liens en dofollow sur une page permet d'interrompre la récupération de ces derniers. Tout comme les status code, le nombre de threads entre également en compte.

 

Le backlinks timeout

Le timeout pour la récupération des backlinks permet d'interrompre la récupération du nombre de backlinks pour chaque URL de la liste. Si aucun nombre n'est retourné durant x secondes, l'opération s'arrête.

 

Le outbound link timeout

Le timeout pour les outbound links (liens sortant) permet d'interrompre le processus de récupération du nombre de liens sortant pour chaque URL de la liste. Si aucune valeur n'est retournée pendant x secondes, l'opération s'achève.

Le proxies timeout

Et enfin le timeout pour le test des proxies permet de définir une durée globale pour le test des proxies. Si vous cliquez sur le bouton de test des proxies et que certains proxies n'ont pas répondu pendant le laps de temps défini, ils seront alors en timeout.

 

J'espère que cet article vous a permis de mieux comprendre les timeout afin d'ajuster correctement les valeurs de ces derniers. Retenez bien que si vos proxies sont lents, vous devrez augmentez les valeurs par défaut.

Sur ce, bon scrap à tous.

Ecrit par renardudezert le jeudi septembre 19, 2013

« RDDZ Scraper 1.4.0 - RDDZ Checker »


comments powered by Disqus