Esempi in Python per extract_wikidocs

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ex20

Metodo/funzione: extract_wikidocs

Esempi su hotexamples.com: 8

extract_wikidocs in Python: 8 esempi trovati. Questi sono i migliori esempi reali in Python per ex20.extract_wikidocs, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Esempio n. 1

Mostra file

File: ex21.py Progetto: ThanhChinhBK/nlp_100_drill_exercises

def main():
    wiki_docs = extract_wikidocs()
    for doc in wiki_docs:
        lines = doc['text'].split('\n')
        for line in lines:
            if re.search(r'\[\[Category:\S+\]\]', line):
                print(line)

Esempio n. 2

Mostra file

File: ex21.py Progetto: nguyentritrung19052000/100-b-i-t-p-x-l-ng-n-ng-

def main():
    wiki_docs = extract_wikidocs()
    for doc in wiki_docs:
        lines = doc['text'].split('\n')
        for line in lines:
            if re.search(ur'\[\[Category:.*?\]\]', line):
                print line.encode('utf-8')

Esempio n. 3

Mostra file

def main():
    docs = extract_wikidocs()
    pattern = re.compile(r'(File|ファイル):([^\|]+)')
    for doc in docs:
        # Find all markups File: or ファイル:
        references = pattern.findall(doc['text'])
        for ref in references:
            print(ref[1])

Esempio n. 4

Mostra file

File: ex22.py Progetto: nguyentritrung19052000/100-b-i-t-p-x-l-ng-n-ng-

def main():
    wiki_docs = extract_wikidocs()
    for doc in wiki_docs:
        lines = doc['text'].split('\n')
        for line in lines:
            categories = re.findall(ur'\[\[Category:(.+)\]\]', line)
            for match in categories:
                for cat in match.split('|'):
                    if not re.search(ur'[\* ]', cat):
                        print cat.encode('utf-8')

Esempio n. 5

Mostra file

File: ex22.py Progetto: ThanhChinhBK/nlp_100_drill_exercises

def main():
    docs = extract_wikidocs()
    categories = []
    for doc in docs:
        lines = doc['text'].split('\n')
        for line in lines:
            categories += (re.findall('\[\[Category:(\S+)\]\]', line))

    for cat in categories:
        print(cat)

Esempio n. 6

Mostra file

def parse_folder():
    docs = extract_wikidocs()
    patern = re.compile('{{基礎情報.+?^}}', re.M | re.DOTALL)  # M = mutiline
    dict_list = []
    for doc in docs:
        matchs = patern.findall(doc['text'])
        for match in matchs:
            dict_list.append(parse_infobox(match))

    return dict_list

Esempio n. 7

Mostra file

File: ex27.py Progetto: nguyentritrung19052000/100-b-i-t-p-x-l-ng-n-ng-

def get_infobox():
    docs = extract_wikidocs()
    objs_list = []
    pattern = re.compile(ur'{{基礎情報.+?^}}\n', re.M | re.DOTALL)
    for doc in docs:
        matches = pattern.findall(doc['text'])
        for m in matches:
            dict_obj = parse_infobox(m)
            objs_list.append(dict_obj)

    return objs_list

Esempio n. 8

Mostra file

File: ex23.py Progetto: ThanhChinhBK/nlp_100_drill_exercises

def main():
    wiki_docs = extract_wikidocs()

    pattern = re.compile(r'(={2,}) ([^=]+) (={2,})')
    for doc in wiki_docs:
        tuples = pattern.findall(doc['text'])
        for tp in tuples:
            pfx = tp[0]
            sfx = tp[2]
            sec = tp[1]
            orig = pfx + ' ' + sec + ' ' + sfx
            if len(pfx) != len(sfx):
                print('%s %s %s' % (pfx, sec, sfx))
                exit

            level = len(pfx) - 1

            print('%-40s Level %s\t\t%s' % (sec, level, orig))