RDDZ Scraper 1.5.0

Depuis la dernière update du scraper (1.4.7) du mois de mars de cette année, nous avons travaillé sans relache sur cette nouvelle version. Nous souhaitions permettre aux utilisateurs de pouvoir choisir leur mode de scrap. Soit avec l'interpretation du JavaScript, sois sans. Ce choix a été pris dans le but d'améliorer grandement les performances du scraper, puisque rares sont les cas où l'interprétation du JavaScript est obligatoire pour scraper des targets. Nous avons également intégré la nouvelle version de l'API de Ahrefs qui vous permet d'utiliser OpenApp et donc les crédits disponibles dans votre abonnement. Voici donc la liste des nouveautés de cette version :

 

Nouvelle gestion des threads

Le fait d'implémenter le mode de scrap sans interprétation du JS a permis de reprendre la gestion des threads. Il est donc possible de lancer un grand nombre de threads simultanées sans impacter la stabilité du scraper.

 

Nouvelle gestion des timeout

Les timeout ne sont plus gérés globalement, mais par thread. Celà signifie qu'une thread est abandonnée si elle met plus de x secondes à répondre. Vous pouvez toujours bien sur configurer les timeout pour chaque opération de network (check du PR, des status code, ...).

 

Nouvelle gestion des proxies

Pendant le scrap, si une url est en erreur avec un proxy, tous les autres proxies seront utilisés un à un pour cette url. Si tous les proxies ont été utilisés pour une url, la thread est libérée pour traiter une autre url.

 

Nouvelle gestion de la suppression

Le mode de suppression a été amélioré afin de pouvoir traiter toutes les colonnes. Les options de suppressions permettent de traiter un grand nombre de cas.

 

Nouvelles options pour le scrap

Par défaut, les moteurs de scrap n'interprètent pas le JS. Une option est donc présente pour activer l'interpretation du JS.
Une autre option permet de conserver l'encodage html. Il est désactivé par défaut (retourne donc les résultats en html_decode). Cette fonctionnalité à été ajouté pour ne pas se prendre la tête à gérer tous les caractères HTML dans les XPath (ex : transformer les   en espaces, ...)

 

Nouvelle gestion des API pour les backlinks

Cette nouvelle mouture supporte la nouvelle version de l'API de Ahrefs. Vous pourrez donc utiliser OpenApp pour autoriser RDDZ Scraper à utiliser les crédits d'API disponibles avec votre abonnement.
Nous avons également améliorer la récupération des backlinks via MajesticSEO.
Les résultats de récupération de backlinks remontent également plus d'informations qu'auparavant.

 

Nouvelle gestion des licences

La gestion des licenses fait également peau neuve. Si votre licence est bloquée, il vous suffira de la débloquer comme lors de la première installation. Plus besoin de nous envoyer de mails dans ce cas là ;)

 

Et pour finir, voici un petit aperçu de la puissance de cette nouvelle version avec une spéciale dédicace (il se reconnaitra) :

 

Ecrit par renardudezert le mercredi juillet 2, 2014

« Une trial pour RDDZ Scraper - RDDZ XPI »


comments powered by Disqus