Python TextDataset.extract_text_features示例

编程语言: Python

命名空间/包名称: onmt.inputters.text_dataset

类/类型: TextDataset

方法/功能: extract_text_features

hotexamples.com的示例: 3

Python TextDataset.extract_text_features - 已找到3个示例。这些是从开源项目中提取的最受好评的onmt.inputters.text_dataset.TextDataset.extract_text_features现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

make_text_examples_nfeats_tpl(7)

get_fields(4)

make_examples(4)

TextDataset(3)

extract_text_features(3)

get_num_features(3)

make_text_examples(1)

make_text_examples_parse_tpl(1)

示例#1

显示文件

文件： vector_dataset.py 项目： USE-sum/usesum

    def _example_dict_iter(self, line, index):
        line = line.split()
        if self.line_truncate:
            line = line[:self.line_truncate]
        words, feats, n_feats = TextDataset.extract_text_features(line)
        example_dict = {self.side: words, "indices": index}
        if feats:
            # All examples must have same number of features.
            aeq(self.n_feats, n_feats)

            prefix = self.side + "_feat_"
            example_dict.update((prefix + str(j), f)
                                for j, f in enumerate(feats))

        return example_dict

示例#2

显示文件

文件： vector_dataset.py 项目： USE-sum/usesum

    def num_feats(self):
        """
        We peek the first line and seek back to
        the beginning of the file.
        """
        saved_pos = self.corpus.tell()

        line = self.corpus.readline().split()
        if self.line_truncate:
            line = line[:self.line_truncate]
        _, _, self.n_feats = TextDataset.extract_text_features(line)

        self.corpus.seek(saved_pos)

        return self.n_feats

示例#3

显示文件

def get_num_features(src_data_type, corpus_file, side):
    """
    Args:
        src_data_type (str): ['text'|'img'|'audio']
        corpus_file (str): file path to get the features.
        side (str): src or tgt

    Returns:
        number of features on `side`.
    """
    assert side in ["src", "tgt"]
    assert src_data_type in ['text', 'img', 'audio'], \
        "Data type not implemented"
    if side == 'src' and src_data_type != 'text':
        return 0  # no features for non-text
    else:
        with codecs.open(corpus_file, "r", "utf-8") as f:
            line = f.readline().strip().split()
            _, _, n_feats = TextDataset.extract_text_features(line)
            return n_feats