Python TokenizedSplitの例

プログラミング言語: Python

名前空間/パッケージ名: data_pipeline.split_corpus_dataset

メソッド/関数: TokenizedSplit

hotexamples.comのコード掲載数: 11

Python TokenizedSplit - 11件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのdata_pipeline.split_corpus_dataset.TokenizedSplitの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

 def test_single_word(self):
     data_source = getStream(self.test_words_short)
     ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 1)
     tokens_string = next(iter(ts))
     expectation = (torch.LongTensor([0]), torch.LongTensor([1])
                    )  # input, target
     self.assertEqual(tokens_string, expectation)

コード例 #2

ファイルを表示

 def test_two_word_seq_long(self):
     data_source = getStream(self.test_words_long)
     ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 2)
     tokens_strings = list(iter(ts))
     expectation = [(torch.LongTensor([0, 1]), torch.LongTensor([1, 2])),
                    (torch.LongTensor([2, 0]), torch.LongTensor([0, 0]))]
     self.assertEqual(tokens_strings, expectation)

コード例 #3

ファイルを表示

ファイル: test_multistream.py プロジェクト: ishine/BrnoLM

    def get_tokenized_splits(self, word_seqs, unroll):
        files = [getStream(seq) for seq in word_seqs]
        tss = [
            split_corpus_dataset.TokenizedSplit(f, self.vocab, unroll)
            for f in files
        ]

        return tss

コード例 #4

ファイルを表示

 def test_single_word_seq(self):
     data_source = getStream(self.test_words_short)
     ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 1)
     tokens_strings = list(iter(ts))
     expectation = [(torch.LongTensor([0]), torch.LongTensor([1])),
                    (torch.LongTensor([1]), torch.LongTensor([2])),
                    (torch.LongTensor([2]), torch.LongTensor([0]))]
     self.assertEqual(tokens_strings, expectation)

コード例 #5

ファイルを表示

ファイル: test_ivec_appenders.py プロジェクト: ishine/BrnoLM

    def test_iter_ends(self):
        data_source = getStream(self.test_words_short)
        ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 1)
        appender = ivec_appenders.CheatingIvecAppender(ts, self.ivec_eetor)
        appender = iter(appender)

        next(appender)
        next(appender)
        next(appender)

        self.assertRaises(StopIteration, next, appender)

コード例 #6

ファイルを表示

ファイル: test_ivec_appenders.py プロジェクト: ishine/BrnoLM

    def test_single_data(self):
        data_source = getStream(self.test_words_short)
        ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 1)
        appender = ivec_appenders.CheatingIvecAppender(ts, self.ivec_eetor)

        # cannot acces ts._tokens, it's an implementation
        tokens = [self.vocab[w] for w in self.test_words_short]

        expectation = self.ivec_eetor(" ".join(self.test_words_short[:-1]))
        seqs = next(iter(appender))
        first = seqs[2]

        self.assertEqual(first, expectation)

コード例 #7

ファイルを表示

ファイル: test_ivec_appenders.py プロジェクト: ishine/BrnoLM

    def test_whole_seq(self):
        data_source = getStream(self.test_words_short)
        ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 1)
        appender = ivec_appenders.HistoryIvecAppender(ts, self.ivec_eetor)

        # cannot acces ts._tokens, it's an implementation
        tokens = [self.vocab[w] for w in self.test_words_short]

        expectation = [
            self.ivec_eetor(" ".join(self.test_words_short[:0])),
            self.ivec_eetor(" ".join(self.test_words_short[:1])),
            self.ivec_eetor(" ".join(self.test_words_short[:2])),
        ]
        seqs = [x[2] for x in (iter(appender))]

        self.assertEqual(seqs, expectation)

コード例 #8

ファイルを表示

ファイル: test_ivec_appenders.py プロジェクト: ishine/BrnoLM

    def test_whole_seq_with_next(self):
        data_source = getStream(self.test_words_short)
        ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 1)
        appender = ivec_appenders.CheatingIvecAppender(ts, self.ivec_eetor)
        appender = iter(appender)

        # cannot acces ts._tokens, it's an implementation
        tokens = [self.vocab[w] for w in self.test_words_short]
        expectation = [
            self.ivec_eetor(" ".join(self.test_words_short[:-1])),
            self.ivec_eetor(" ".join(self.test_words_short[:-1])),
            self.ivec_eetor(" ".join(self.test_words_short[:-1]))
        ]

        seq0 = next(appender)[2]
        self.assertEqual(seq0, expectation[0])

        seq1 = next(appender)[2]
        self.assertEqual(seq1, expectation[1])

        seq2 = next(appender)[2]
        self.assertEqual(seq2, expectation[2])

コード例 #9

ファイルを表示

 def test_two_word_retrieval(self):
     data_source = getStream(self.test_words_short)
     ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 2)
     words = list(ts.input_words())
     self.assertEqual(words, ['a b'])  # we expect the input words

コード例 #10

ファイルを表示

 def test_len_no_output(self):
     data_source = getStream(self.test_words_short)
     ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 5)
     self.assertEqual(len(ts), 0)

コード例 #11

ファイルを表示

 def test_single_word_len(self):
     data_source = getStream(self.test_words_short)
     ts = split_corpus_dataset.TokenizedSplit(data_source, self.vocab, 1)
     self.assertEqual(len(ts), len(self.test_words_short) - 1)