Python DocumentManager.create_document 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: iepy.data.db

클래스/타입: DocumentManager

메소드/함수: create_document

hotexamples.com에서의 예제들: 7

Python DocumentManager.create_document - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 iepy.data.db.DocumentManager.create_document에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DocumentManager(7)

create_document(4)

자주 사용되는 메소드들

DocumentManager (7)

create_document (4)

예제 #1

파일 보기

파일: utils.py 프로젝트: lowks/iepy

def csv_to_iepy(filepath):
    print ('Importing Documents to IEPY from {}'.format(filepath))
    from iepy.data.db import DocumentManager

    if filepath.endswith(".gz"):
        fin = gzip.open(filepath, "rt")
    else:
        fin = open(filepath, "rt")
    reader = csv.DictReader(fin)

    expected_fnames = ['document_id', 'document_text']
    if not set(reader.fieldnames).issuperset(expected_fnames):
        msg = "Couldn't find the expected field names on the provided csv {}"
        sys.exit(msg.format(expected_fnames))

    name = os.path.basename(filepath)

    docdb = DocumentManager()
    seen = set()
    for i, d in enumerate(reader):
        doc_id = d["document_id"]
        if doc_id in seen:
            continue
        seen.add(doc_id)
        docdb.create_document(
            identifier=doc_id,
            text=d["document_text"],
            metadata={"input_filename": name},
            update_mode=True
        )
        print ('Added {} documents'.format(i+1))

예제 #2

파일 보기

파일: utils.py 프로젝트: 52nlp/iepy

def csv_to_iepy(filepath):
    print ('Importing Documents to IEPY from {}'.format(filepath))
    from iepy.data.db import DocumentManager

    if filepath.endswith(".gz"):
        fin = gzip.open(filepath, "rt")
    else:
        fin = open(filepath, "rt")
    reader = csv.DictReader(fin)

    expected_fnames = ['document_id', 'document_text']
    if not set(reader.fieldnames).issuperset(expected_fnames):
        msg = "Couldn't find the expected field names on the provided csv {}"
        sys.exit(msg.format(expected_fnames))

    name = os.path.basename(filepath)

    docdb = DocumentManager()
    seen = set()

    i = 0
    while True:

        try:
            d = next(reader)
        except StopIteration:
            break
        except csv.Error as error:
            logger.warn("Couldn't load document: {}".format(error))
            continue

        i += 1

        doc_id = d["document_id"]
        if doc_id in seen:
            continue
        seen.add(doc_id)
        docdb.create_document(
            identifier=doc_id,
            text=d["document_text"],
            metadata={"input_filename": name},
            update_mode=True
        )
        print ('Added {} documents'.format(i))

예제 #3

파일 보기

def csv_to_iepy(filepath):
    print('Importing Documents to IEPY from {}'.format(filepath))
    from iepy.data.db import DocumentManager

    if filepath.endswith(".gz"):
        fin = gzip.open(filepath, "rt")
    else:
        fin = open(filepath, "rt")
    reader = csv.DictReader(fin)

    expected_fnames = ['document_id', 'document_text']
    if not set(reader.fieldnames).issuperset(expected_fnames):
        msg = "Couldn't find the expected field names on the provided csv {}"
        sys.exit(msg.format(expected_fnames))

    name = os.path.basename(filepath)

    docdb = DocumentManager()
    seen = set()

    i = 0
    while True:

        try:
            d = next(reader)
        except StopIteration:
            break
        except csv.Error as error:
            logger.warn("Couldn't load document: {}".format(error))
            continue

        i += 1

        doc_id = d["document_id"]
        if doc_id in seen:
            continue
        seen.add(doc_id)
        docdb.create_document(identifier=doc_id,
                              text=d["document_text"],
                              metadata={"input_filename": name},
                              update_mode=True)
        print('Added {} documents'.format(i))

예제 #4

파일 보기

파일: utils.py 프로젝트: theblueskies/iepy

def csv_to_iepy(filepath):
    logger.info('Importing Documents to IEPY from {}'.format(filepath))
    from iepy.data.db import DocumentManager

    if filepath.endswith(".gz"):
        fin = gzip.open(filepath, "rt")
    else:
        fin = open(filepath, "rt")
    reader = csv.DictReader(fin)
    name = os.path.basename(filepath)

    docdb = DocumentManager()
    seen = set()
    for i, d in enumerate(reader):
        mid = d["freebase_mid"]
        if mid in seen:
            continue
        seen.add(mid)
        docdb.create_document(identifier=mid,
                              text=d["description"],
                              metadata={"input_filename": name})
        logger.info('Added {} documents'.format(i + 1))

예제 #5

파일 보기

from docopt import docopt

from iepy.data.db import DocumentManager

if __name__ == "__main__":
    logging.basicConfig(
        level=logging.INFO,
        format=u"%(asctime)s - %(name)s - %(levelname)s - %(message)s")
    opts = docopt(__doc__, version=0.1)

    name = opts["<filename>"]
    if name.endswith(".gz"):
        fin = gzip.open(name, "rt")
    else:
        fin = open(name, "rt")
    reader = csv.DictReader(fin)
    name = os.path.basename(name)

    docdb = DocumentManager()

    seen = set()
    for i, d in enumerate(reader):
        mid = d["freebase_mid"]
        if mid in seen:
            continue
        seen.add(mid)
        docdb.create_document(identifier=mid,
                              text=d["description"],
                              metadata={"input_filename": name})

예제 #6

파일 보기

        per_season.append(season_ep)
    return per_season

if __name__ == '__main__':
    logging.basicConfig()
    logger = logging.getLogger('wikia_to_iepy')
    logger.setLevel(logging.DEBUG)
    opts = docopt(__doc__, version=0.1)
    docs = DocumentManager()
    pages_dict = build_pages_dict(opts['<wikia_zipped_xml_dump_file>'])
    eps = get_episode(pages_dict, int(opts['<nr_of_seasons>']),
                      opts['--all-episodes-tag'],
                      opts['--season-tag-pattern'])
    for season_nr, season in enumerate(eps, 1):
        issues_counter = 0
        for i, e in enumerate(season):
            try:
                docs.create_document(
                    identifier=e['title'],
                    text='',
                    metadata={
                        'raw_text': e['revision']['text']['#text'],
                        'season': season_nr,
                        'source': opts['<wikia_zipped_xml_dump_file>']
                    })
            except Exception as err:
                issues_counter += 1
                logger.error('Document not created, %s', err)
                continue
        logger.info('Dumped %i episodes from season %i', len(season) - issues_counter, season_nr)

예제 #7

파일 보기

파일: csv_to_iepy.py 프로젝트: 52nlp/iepy

from docopt import docopt

from iepy.data.db import DocumentManager


if __name__ == "__main__":
    logging.basicConfig(level=logging.INFO,
                        format=u"%(asctime)s - %(name)s - %(levelname)s - %(message)s")
    opts = docopt(__doc__, version=0.1)

    name = opts["<filename>"]
    if name.endswith(".gz"):
        fin = gzip.open(name, "rt")
    else:
        fin = open(name, "rt")
    reader = csv.DictReader(fin)
    name = os.path.basename(name)

    docdb = DocumentManager()

    seen = set()
    for i, d in enumerate(reader):
        mid = d["freebase_mid"]
        if mid in seen:
            continue
        seen.add(mid)
        docdb.create_document(identifier=mid,
                              text=d["description"],
                              metadata={"input_filename": name})