RDDZ Scraper 1.4.0

Après de longues semaines d'attente, la nouvelle mouture de RDDZ Scraper vient de sortir : la 1.4.0.
Si l'élaboration de cette nouvelle version à pris autant de temps, c'est que nous avons procédé à une grosse refonte de notre web scraper et que de nombreuses fonctionnalités on été ajoutées.

En ce qui concerne la refonte, nous avons éprouvé le besoin depuis un certain temps de pouvoir interpréter le Javascript sur les pages scrapées afin de ne plus avoir certaines restrictions. La gestion des captchas sur Google a également été au coeur de l'élaboration de cette version. Nous verrons en détails ce qui a changé à ce niveau plus tard dans l'article. Et enfin une des grosses nouveauté de cette version, c'est le support de l'API Majestic SEO !! Trêve de blabla et passons maintenant en revue toutes les nouveautés de cette version.

 

Support du Javascript

Comme annoncé précédemment, cette nouvelle version est capable d'interpréter le Javascript sur les pages distantes. Cette fonctionnalité permet de lever une barrière supplémentaire au niveau du scrap. En effet, un certain nombre de site se prémunisse du scrap en affichant les données en javascript (pagination, contenu, ...). Pour tous ceux qui étaient bloqué à ce niveau là, c'est désormais de l'histoire ancienne :)
 

 

API Majestic SEO

C'est LA deuxième grosse nouveauté. Vous pourrez désormais choisir entre Ahrefs et Majestic SEO pour récupérer les backlinks pour un domaine donné.
Il faut savoir que l'API de Majestic limite la récupération de backlinks à 50 000 url (ce qui génère un fichier d'une trentaine de Mo en JSON). Cette fonctionnalité requiert au minimum un abonnement Silver.

Majestic SEO config dans RDDZ Scraper

 

Gestion des captchas

Comme vous le savez sûrement, RDDZ Scraper gère les Captchas si vous scrapez Google. Nous avons améliorer la gestion des captchas dans cette version. Désormais chaque proxy possède ses propres cookies. Ce qui signifie que lorsque vous résolvez un captcha pour un proxy donné, même si vous quittez et redémarrer l'application, vous n'aurez pas à résoudre immédiatement le captcha pour ce proxy.
Même si cela ne représente pas grand chose à lire, c'est une fonctionnalité qui a demandé un certain temps de développement ;)
 

 

Délai de chargement de page

Autre nouveauté, il est désormais possible de définir un Timeout pour le chargement des pages. Si la page ne se charge pas en x secondes, alors RDDZ Scraper passe à l'URL suivante.
Arrangez vous pour que le Timeout du chargement des pages soit inférieur à celui du scrap :)
Je ferai un article dédié à l'explication des Timeout d'ici peu.

Timeout page loading config dans RDDZ Scraper

 

Amélioration des logs

L'onglet des logs est désormais très complet. Nous avons améliorer les sorties XPath afin de savoir quel XPath ne fonctionne pas sur telle URL.
Les logs informatifs (timeout des pages) sont affichés en orange, et les logs d'erreur (XPath invalide) sont en rouge. Cela vous permettra d'identifier facilement les problèmes.
Nous affichons également combien d'items sont trouvés sur l'URL en cours pour le XPath donné.

 

En vrac

  • Lorsque vous importez un fichier dans RDDZ Scraper, nous sauvegardons le chemin pour le prochain import.
  • Nous avons rétabli la possibilité d'utiliser plus de 10 threads simultanées (100 maxi). A utiliser en connaissance de cause !!
  • L'onglet "Configuration" a été scindé. Un nouvel onglet "Avancé" a fait son apparition et vous permet de renseigner les informations pour les services de captchas et de backlinks.
  • L'updater permet désormais de mettre à jour indépendamment les fichiers tiers et l’exécutable. Ne paniquez pas si vous avez un bouton d'update et que le numéro de version ne change pas.
  • L'UI a été modifiée pour avoir un affichage fonctionnel sur les EEPC.

 

Pour terminer cet article, je tiens à remercier très sincèrement les bêta testeurs Yves de referencement page 1 et Clement de "si tu veux un lien dis le moi" qui ont participé aux tests et nous ont permis de déceler certains bugs et d'améliorer 2-3 choses.
 

Bonne update et bon scrap à tous !!

Ecrit par renardudezert le mercredi septembre 11, 2013

- Les timeout dans RDDZ Scraper »


comments powered by Disqus