PROJET AUTOBLOG


Shaarli - Mitsu'liens

Site original : Shaarli - Mitsu'liens

⇐ retour index

simDHT | Un crawler de DHT en Python2

mardi 9 septembre 2014 à 16:39
Tenez l'autre jour j'ai shaarlié DHT crawler ( http://btindex.org/ ), site qui permet de rechercher un torrent dans une base de données populée en écoutant la DHT.
Et bien avec ce script Python 2, il est possible de collecter les hash info des torrents échangés :)  Couplez ça avec Aria2 ou autre client BitTorrent pouvant récupérer les métadonnées à partir de ces hash info, branchez une base de données derrière, et voilà !

L'occasion pour moi d'étudier un échantillon: avec max_node_qsize=100  (oui parce que le 10000 par défaut ça sature la bande passante montante) et une écoute de 60 secondes, j'ai collecté 99 hash info dont 78 sont acceptés par qBittorrent.
5 minutes plus tard, 56 info hash n'ont pas pu être associés aux métadonnées, faute de peers sans doute. Ou parce que c'est du "spam" dans la DHT.

Des 42 torrents restants: beaucoup de films, plein de porno, des extraits de matchs de sports, quelques séries, quelques albums de musique, quelques ebooks... le plus insolite dans le lot c'était ce qui semble être des plans Toyota pour garagistes-réparateurs. Point de décapitations, enfants violés ou intégrales de discours de Hitler, monsieur le Ministre.

Tiens: à présent je vais tenter d'estimer le nombre de torrents échangés à un instant T dans la DHT ^^
(Permalink)