Python WordNoiser Examples

Programming Language: Python

Namespace/Package Name: opennmt.data.noise

Method/Function: WordNoiser

Examples at hotexamples.com: 6

Python WordNoiser - 6 examples found. These are the top rated real world Python examples of opennmt.data.noise.WordNoiser extracted from open source projects. You can rate examples to help us improve the quality of examples.

Example #1

Show file

File: sequence_to_sequence.py Project: BrianTin/OpenNMT-tf

 def initialize(self, data_config, params=None):
     super(SequenceToSequence, self).initialize(data_config, params=params)
     if self.params.get("contrastive_learning"):
         # Use the simplest and most effective CL_one from the paper.
         # https://www.aclweb.org/anthology/P19-1623
         noiser = noise.WordNoiser(noises=[noise.WordOmission(1)],
                                   subword_token=self.params.get(
                                       "decoding_subword_token", "￭"))
         self.labels_inputter.set_noise(noiser, in_place=False)

Example #2

Show file

File: noise_test.py Project: ehgp/OpenNMT-tf

 def testWordNoising(self):
     tokens = tf.constant([["a￭", "b", "c￭", "d", "￭e"],
                           ["a", "b", "c", "", ""]])
     lengths = tf.constant([5, 3])
     noiser = noise.WordNoiser()
     noiser.add(noise.WordDropout(0.1))
     noiser.add(noise.WordReplacement(0.1))
     noiser.add(noise.WordPermutation(3))
     noisy_tokens, noisy_lengths = noiser(tokens,
                                          sequence_length=lengths,
                                          keep_shape=True)
     tokens, noisy_tokens = self.evaluate([tokens, noisy_tokens])
     self.assertAllEqual(noisy_tokens.shape, tokens.shape)

Example #3

Show file

File: inputter_test.py Project: andy-96/OpenNMT-tf

 def testWordEmbedderWithInPlaceNoise(self, probability):
     vocab_file = self._makeTextFile("vocab.txt", ["the", "world", "hello"])
     data_file = self._makeTextFile("data.txt", ["hello world !"])
     noiser = noise.WordNoiser(noises=[noise.WordOmission(1)])
     embedder = text_inputter.WordEmbedder(embedding_size=10)
     embedder.set_noise(noiser, probability=probability)
     features, transformed = self._makeDataset(
         embedder,
         data_file,
         data_config={"vocabulary": vocab_file},
         shapes={"tokens": [None, None], "ids": [None, None], "length": [None]},
     )
     self.assertEqual(features["length"][0], 3 if probability == 0 else 2)

Example #4

Show file

 def testWordNoising(self, as_function, tokens, lengths):
     tokens = tf.constant(tokens)
     if lengths is not None:
         lengths = tf.constant(lengths, dtype=tf.int32)
     noiser = noise.WordNoiser()
     noiser.add(noise.WordDropout(0.1))
     noiser.add(noise.WordReplacement(0.1))
     noiser.add(noise.WordPermutation(3))
     noiser_fn = tf.function(noiser) if as_function else noiser
     noisy_tokens, noisy_lengths = noiser_fn(tokens,
                                             sequence_length=lengths,
                                             keep_shape=True)
     tokens, noisy_tokens = self.evaluate([tokens, noisy_tokens])
     self.assertAllEqual(noisy_tokens.shape, tokens.shape)

Example #5

Show file

File: sequence_to_sequence.py Project: BrianTin/OpenNMT-tf

def _add_noise(tokens, lengths, params, subword_token):
    if not isinstance(params, list):
        raise ValueError("Expected a list of noise modules")
    noises = []
    for module in params:
        noise_type, args = six.next(six.iteritems(module))
        if not isinstance(args, list):
            args = [args]
        noise_type = noise_type.lower()
        if noise_type == "dropout":
            noise_class = noise.WordDropout
        elif noise_type == "replacement":
            noise_class = noise.WordReplacement
        elif noise_type == "permutation":
            noise_class = noise.WordPermutation
        else:
            raise ValueError("Invalid noise type: %s" % noise_type)
        noises.append(noise_class(*args))
    noiser = noise.WordNoiser(noises=noises, subword_token=subword_token)
    return noiser(tokens, lengths, keep_shape=True)

Example #6

Show file

File: inputter_test.py Project: whatyouknow123/OpenNMT-tf

 def testWordEmbedderWithNoise(self):
     vocab_file = self._makeTextFile("vocab.txt", ["the", "world", "hello"])
     data_file = self._makeTextFile("data.txt", ["hello world !"])
     noiser = noise.WordNoiser(noises=[noise.WordOmission(1)])
     embedder = text_inputter.WordEmbedder(embedding_size=10)
     embedder.set_noise(noiser, in_place=False)
     expected_shapes = {
         "tokens": [None, None],
         "ids": [None, None],
         "length": [None],
         "noisy_tokens": [None, None],
         "noisy_ids": [None, None],
         "noisy_length": [None]
     }
     features, transformed = self._makeDataset(
         embedder,
         data_file,
         data_config={"vocabulary": vocab_file},
         shapes=expected_shapes)
     self.assertEqual(features["noisy_length"][0],
                      features["length"][0] - 1)