Python FeverDocDB.get_non_empty_doc_ids 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: retrieval.fever_doc_db

클래스/타입: FeverDocDB

메소드/함수: get_non_empty_doc_ids

hotexamples.com에서의 예제들: 3

Python FeverDocDB.get_non_empty_doc_ids - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 retrieval.fever_doc_db.FeverDocDB.get_non_empty_doc_ids에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

FeverDocDB(30)

get_doc_lines(23)

get_doc_ids(3)

get_non_empty_doc_ids(3)

예제 #1

파일 보기

파일: vocab_preprocess.py 프로젝트: anshiquanshu66/conll2019-snopes-experiments

def _create_token_set_of_db(db):
    logger.debug("start creating token set for DB...")
    if type(db) == str:
        db = FeverDocDB(db)
    _token_set = set()
    for doc_id in tqdm(db.get_non_empty_doc_ids()):
        doc_lines = db.get_doc_lines(doc_id)
        for line in doc_lines:
            tokens = tokenize(clean_text(line))
            for token in tokens:
                if token.lower() in _token_set:
                    continue
                _token_set.add(token.lower())
    return _token_set

예제 #2

파일 보기

파일: vocab_preprocess.py 프로젝트: anshiquanshu66/conll2019-snopes-experiments

def _create_db_vocab_idx(db, _global_dict):
    # logger = LogHelper.get_logger("_create_db_vocab_idx")
    logger.debug("start creating vocab indices for DB...")
    if type(db) == str:
        db = FeverDocDB(db)
    _vocab_idx = {}
    for doc_id in tqdm(db.get_non_empty_doc_ids()):
        doc_lines = db.get_doc_lines(doc_id)
        for line in doc_lines:
            tokens = tokenize(clean_text(line))
            for token in tokens:
                if token.lower() in _vocab_idx:
                    continue
                if token.lower() in _global_dict:
                    _vocab_idx[token.lower()] = _global_dict[token.lower()]
    _vocab_idx = sorted(list(_vocab_idx.values()))
    return _vocab_idx

예제 #3

파일 보기

from common.dataset.reader import JSONLineReader
from common.util.random import SimpleRandom
from retrieval.fever_doc_db import FeverDocDB
from retrieval.filter_uninformative import uninformative

parser = argparse.ArgumentParser()
parser.add_argument('db_path', type=str, help='/path/to/fever.db')

args = parser.parse_args()

jlr = JSONLineReader()

docdb = FeverDocDB(args.db_path)

idx = docdb.get_non_empty_doc_ids()
idx = list(filter(lambda item: not uninformative(item), tqdm(idx)))

r = SimpleRandom.get_instance()

with open("data/fever/test.ns.rand.jsonl", "w+") as f:
    for line in jlr.read("data/fever-data/test.jsonl"):
        if line["label"] == "NOT ENOUGH INFO":

            for evidence_group in line['evidence']:
                for evidence in evidence_group:
                    evidence[2] = idx[r.next_rand(0, len(idx))]
                    evidence[3] = -1

        f.write(json.dumps(line) + "\n")