Python crawl_udhr 예제들, corpuscrawler.util.crawl_udhr Python 예제들

예제 #1

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='mi')
    crawl_udhr(crawler, out, filename='udhr_mri.txt')
    _scrape_maoritelevision(crawler, out)
    _scrape_paiperatapu(crawler, out)

예제 #2

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='sk')
    crawl_udhr(crawler, out, filename='udhr_slk.txt')
    _crawl_pravda_sk(crawler, out)

예제 #3

0

파일 보기

파일: crawl_ar.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='ar')
    crawl_udhr(crawler, out, filename='udhr_arb.txt')
    crawl_deutsche_welle(crawler, out, prefix='/ar/')
    crawl_sputnik_news(crawler, out, host='arabic.sputniknews.com')
    crawl_bbc_news(crawler, out, urlprefix='/arabic/')

예제 #4

0

파일 보기

파일: crawl_yo.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='yo')
    crawl_udhr(crawler, out, filename='udhr_yor.txt')
    crawl_voice_of_nigeria(crawler, out, urlprefix='/yoruba/')
    crawl_bibleis(crawler, out, bible='YORUBS')

예제 #5

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='fuv')
    crawl_udhr(crawler, out, filename='udhr_fuv.txt')
    crawl_voice_of_nigeria(crawler, out, urlprefix='/fulfulde/')
    crawl_bibleis(crawler, out, bible='FUVTBL')

예제 #6

0

파일 보기

파일: crawl_cs.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='cs')
    crawl_udhr(crawler, out, filename='udhr_ces.txt')
    crawl_sputnik_news(crawler, out, host='cz.sputniknews.com')

예제 #7

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='es')
    crawl_udhr(crawler, out, filename='udhr_spa.txt')
    crawl_bbc_news(crawler, out, urlprefix='/mundo/')
    crawl_deutsche_welle(crawler, out, prefix='/es/')

예제 #8

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='el')
    crawl_udhr(crawler, out, filename='udhr_ell_monotonic.txt')
    crawl_deutsche_welle(crawler, out, prefix='/el/')

예제 #9

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='it')
    crawl_udhr(crawler, out, filename='udhr_ita.txt')
    crawl_sputnik_news(crawler, out, host='it.sputniknews.com')
    _crawl_iltirreno_gelocal_it(crawler, out)

예제 #10

0

파일 보기

파일: crawl_ig.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='ig')
    crawl_udhr(crawler, out, filename='udhr_ibo.txt')
    crawl_voice_of_nigeria(crawler, out, urlprefix='/igbo/')

예제 #11

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='vi')
    crawl_udhr(crawler, out, filename='udhr_vie.txt')
    crawl_bbc_news(crawler, out, urlprefix='/vietnamese/')
    crawler.crawl_voice_of_america(out, host='voatiengviet.com')

예제 #12

0

파일 보기

파일: crawl_mnw.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    unicode_out = crawler.get_output(language='mnw')
    crawl_udhr(crawler, unicode_out, filename='udhr_mnw.txt')
    crawl_mon_news(crawler, unicode_out)

예제 #13

0

파일 보기

파일: crawl_ku.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='ku')
    crawl_udhr(crawler, out, filename='udhr_kmr.txt')
    crawl_sputnik_news(crawler, out, host='krd.sputniknews.com')

예제 #14

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='os')
    crawl_udhr(crawler, out, filename='udhr_oss.txt')
    _crawl_raestdzinad_ru(crawler, out)

예제 #15

0

파일 보기

파일: crawl_mt.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='mt')
    crawl_udhr(crawler, out, filename='udhr_mlt.txt')
    crawl_newsbook_mt(crawler, out)

예제 #16

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='bm')
    crawl_udhr(crawler, out, filename='udhr_bam.txt')
    crawler.crawl_voice_of_america(out, host='voabambara.com')

예제 #17

0

파일 보기

파일: crawl_lt.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='lt')
    crawl_udhr(crawler, out, filename='udhr_lit.txt')
    _crawl_kauno_diena_lt(crawler, out)

예제 #18

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='sw')
    crawl_udhr(crawler, out, filename='udhr_swh.txt')
    crawl_bbc_news(crawler, out, urlprefix='/swahili/')
    crawl_deutsche_welle(crawler, out, prefix='/sw/')

예제 #19

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='nan')
    crawl_udhr(crawler, out, filename='udhr_nan.txt')

예제 #20

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='vec')
    crawl_udhr(crawler, out, filename='udhr_vec.txt')
    crawl_larenadomila_it(crawler)
    crawl_quatrociacoe_it(crawler)
    crawl_wikisource_trieste_vernacola(crawler)

예제 #21

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='chr')
    crawl_udhr(crawler, out, filename='udhr_chr_uppercase.txt')
    crawler.crawl_churchio(out, bible_id='chr-cherokee')

예제 #22

0

파일 보기

파일: crawl_ru.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='ru')
    crawl_udhr(crawler, out, filename='udhr_rus.txt')
    crawl_deutsche_welle(crawler, out, prefix='/ru/')

예제 #23

0

파일 보기

파일: crawl_mk.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='mk')
    crawl_udhr(crawler, out, filename='udhr_mkd.txt')
    crawl_deutsche_welle(crawler, out, prefix='/mk/')

예제 #24

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='pt-PT')
    crawl_udhr(crawler, out, filename='udhr_por_PT.txt')
    _crawl_observador_pt(crawler, out)
    _crawl_visao_sapo_pt(crawler, out)

예제 #25

0

파일 보기

파일: crawl_fi.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='fi')
    crawl_udhr(crawler, out, filename='udhr_fin.txt')
    crawler.crawl_sverigesradio(out, program_id=185)

예제 #26

0

파일 보기

파일: crawl_dz.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='dz')
    crawl_udhr(crawler, out, filename='udhr_dzo.txt')
    crawl_kuensel(crawler, out)

예제 #27

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='ps')
    crawl_udhr(crawler, out, filename='udhr_pbu.txt')
    crawl_deutsche_welle(crawler, out, prefix='/ps/', need_percent_in_url=True)

예제 #28

0

파일 보기

파일: crawl_yue.py 프로젝트: zhezhe123/corpuscrawler

def crawl(crawler):
    out = crawler.get_output(language='yue')
    crawl_udhr(crawler, out, filename='udhr_yue.txt')
    crawler.crawl_voice_of_america(out, host='www.voacantonese.com')
    crawl_radio_free_asia(crawler, out, edition='cantonese', start_year=1998)
    crawl_bibleis(crawler, out, bible='YUHUNV')

예제 #29

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='bg')
    crawl_udhr(crawler, out, filename='udhr_bul.txt')
    crawl_deutsche_welle(crawler, out, prefix='/bg/')
    # There's audio for one part of Matthew under BLGAMB that matches this text
    crawl_bibleis(crawler, out, 'BULB40')

예제 #30

0

파일 보기

def crawl(crawler):
    out = crawler.get_output(language='my')
    crawl_udhr(crawler, out, filename='udhr_mya.txt')
    crawl_bbc_news(crawler, out, urlprefix='/burmese/')