Python Vocabulary 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: c2nl.inputters.vocabulary

클래스/타입: Vocabulary

hotexamples.com에서의 예제들: 8

Python Vocabulary - 8개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 c2nl.inputters.vocabulary.Vocabulary에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

normalize(4)

Vocabulary(3)

add(2)

add_tokens(1)

remove(1)

예제 #1

파일 보기

def build_word_dict(args, examples, fields, dict_size=None,
                    no_special_token=False):
    """Return a dictionary from question and document words in
    provided examples.
    """
    word_dict = Vocabulary(no_special_token)
    for w in load_words(args, examples, fields, dict_size):
        word_dict.add(w)
    return word_dict

예제 #2

파일 보기

def build_word_dict(args, examples, fields, dict_size=None,
                    special_token="pad_unk", attrname="tokens"):
    """Return a dictionary from question and document words in
    provided examples.
    """
    word_dict = Vocabulary(no_special_token)
    for w in load_words(args, examples, fields, dict_size, \
                       num_spec_tokens=len(special_tokens.split("_")),\
                       attrname=attrname):
        word_dict.add(w)
    return word_dict

예제 #3

파일 보기

파일: utils.py 프로젝트: deepchatterjeevns/NeuralCodeSum

 def _insert(iterable):
     words = []
     for w in iterable:
         w = Vocabulary.normalize(w)
         if valid_words and w not in valid_words:
             continue
         words.append(w)
     word_count.update(words)

예제 #4

파일 보기

파일: utils.py 프로젝트: tmuttaqueen/NeuralCodeSum-smalltest

def top_summary_words(args, examples, word_dict):
    """Count and return the most common question words in provided examples."""
    word_count = Counter()
    for ex in examples:
        for w in ex['summary'].tokens:
            w = Vocabulary.normalize(w)
            if w in word_dict:
                word_count.update([w])
    return word_count.most_common(args.tune_partial)

예제 #5

파일 보기

파일: utils.py 프로젝트: tmuttaqueen/NeuralCodeSum-smalltest

def index_embedding_words(embedding_file):
    """Put all the words in embedding_file into a set."""
    words = set()
    with open(embedding_file) as f:
        for line in tqdm(f, total=count_file_lines(embedding_file)):
            w = Vocabulary.normalize(line.rstrip().split(' ')[0])
            words.add(w)

    words.update([BOS_WORD, EOS_WORD, PAD_WORD, UNK_WORD])
    return words

예제 #6

파일 보기

 def form_src_vocab(self) -> None:
     self.src_vocab = Vocabulary()
     assert self.src_vocab.remove(BOS_WORD)
     assert self.src_vocab.remove(EOS_WORD)
     self.src_vocab.add_tokens(self.tokens)

예제 #7

파일 보기

class Code(object):
    """
    Code containing annotated text, original text, selection label and
    all the extractive spans that can be an answer for the associated question.
    """
    def __init__(self, _id=None):
        self._id = _id
        self._language = None
        self._text = None
        self._tokens = []
        self._type = []
        self._mask = []
        self.src_vocab = None  # required for Copy Attention

    @property
    def id(self) -> str:
        return self._id

    @property
    def language(self) -> str:
        return self._language

    @language.setter
    def language(self, param: str) -> None:
        self._language = param

    @property
    def text(self) -> str:
        return self._text

    @text.setter
    def text(self, param: str) -> None:
        self._text = param

    @property
    def type(self) -> list:
        return self._type

    @type.setter
    def type(self, param: list) -> None:
        assert isinstance(param, list)
        self._type = param

    @property
    def mask(self) -> list:
        return self._mask

    @mask.setter
    def mask(self, param: list) -> None:
        assert isinstance(param, list)
        self._mask = param

    @property
    def tokens(self) -> list:
        return self._tokens

    @tokens.setter
    def tokens(self, param: list) -> None:
        assert isinstance(param, list)
        self._tokens = param
        self.form_src_vocab()

    def form_src_vocab(self) -> None:
        self.src_vocab = Vocabulary()
        assert self.src_vocab.remove(BOS_WORD)
        assert self.src_vocab.remove(EOS_WORD)
        self.src_vocab.add_tokens(self.tokens)

    def vectorize(self, word_dict, _type='word') -> list:
        if _type == 'word':
            return [word_dict[w] for w in self.tokens]
        elif _type == 'char':
            return [
                word_dict.word_to_char_ids(w).tolist() for w in self.tokens
            ]
        else:
            assert False

예제 #8

파일 보기

파일: utils.py 프로젝트: Zhangxq-1/NeuralCodeSum

 def _insert(iterable):
     words = []
     for w in iterable:
         w = Vocabulary.normalize(w)
         words.append(w)
     word_count.update(words)