Python WeiboCrawler.getMicroBlogs Exemples

Langage de programmation: Python

Espace de nommage/Pack: WeiboCrawler

Class/Type: WeiboCrawler

Méthode/Fonction: getMicroBlogs

Exemples au hotexamples.com: 2

Python WeiboCrawler.getMicroBlogs - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de WeiboCrawler.WeiboCrawler.getMicroBlogs extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

setGsid(6)

setProxy(6)

getAllGsidProxyPair(4)

request(4)

getMicroBlogs(2)

login(2)

setCompany(1)

setDescription(1)

setDomain(1)

setGender(1)

setLocation(1)

setNick(1)

setSchool(1)

setTag(1)

Méthodes fréquemment utilisées

setGsid (6)

setProxy (6)

getAllGsidProxyPair (4)

request (4)

getMicroBlogs (2)

login (2)

setCompany (1)

setDescription (1)

setDomain (1)

setGender (1)

Méthodes fréquemment utilisées

setLocation (1)

setNick (1)

setSchool (1)

setTag (1)

Exemple #1

0

Afficher le fichier

Fichier : WeiboGetLatestBlog.py Projet : webhokie/wc

class GetLatestBlog(threading.Thread): def __init__(self, jobs_queue, results_queue, gsid, proxy=None): threading.Thread.__init__(self) self.jobs_queue = jobs_queue self.results_queue = results_queue self.gsid = gsid self.proxy = proxy self.wc = WeiboCrawler() self.wc.setGsid(self.gsid) self.wc.setProxy(self.proxy) def run(self): while True: time.sleep(random.randint(2, 4)) uid, page = self.jobs_queue.get() self.jobs_queue.task_done() if page is None: page = "1" resp = self.wc.getMicroBlogs(uid, page) if resp is None: self.jobs_queue.put(uid) soup = BeautifulSoup(resp) body = soup.body mblogs = body.findAll("div", {"class": "c", "id": re.compile(u"M_")}) if mblogs is None: # no micro blog continue #print mblogs blogs_file = open("%s/data/blogs/%s.blog" % (basepath, datetime.date.today()), "a") for mblog in mblogs: blogs_file.write("[%s]:%s\n" % (uid, mblog)) blogs_file.close()

Exemple #2

0

Afficher le fichier

Fichier : WeiboGetLatestBlog.py Projet : webhokie/wc

def main(): results_queue = Queue.Queue() jobs_queue = Queue.Queue() wc = WeiboCrawler() accounts = wc.getAllGsidProxyPair() gsid, proxy = accounts[0][0], accounts[0][1] if proxy == "None": proxy = None wc.setGsid(gsid) wc.setProxy(proxy) res = wc.getMicroBlogs("1646194541") soup = BeautifulSoup(res) pagelist = soup.find("div", {"id": "pagelist"}) mp = pagelist.find("input", {"name": "mp"}) uid = "xxxxxxxxx" for page in range(1, int(mp) + 1): jobs_queue.put((uid, page)) for account in accounts: gsid = account[0] proxy = account[1] if proxy == "None": proxy = None glb = GetLatestBlog(jobs_queue, results_queue, gsid, proxy) glb.setDaemon(True) glb.start() jobs_queue.join()