Python process_dataset示例

编程语言: Python

命名空间/包名称: utils.preprocess

方法/功能: process_dataset

hotexamples.com的示例: 6

Python process_dataset - 已找到6个示例。这些是从开源项目中提取的最受好评的utils.preprocess.process_dataset现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： lda_model.py 项目： adamwawrzynski/vectorized_documents_benchmark

 def preprocess_data(self, dataset, y_dataset):
     logging.info("Transform data on " + self.__class__.__name__)
     processed_dataset = process_dataset(dataset)
     processed_dataset = processed_dataset.map(
         lambda x: ' '.join(word for word in x))
     doc_term_matrix = self.count_vectorizer.transform(
         processed_dataset.values.astype('U'))
     return self.model.transform(doc_term_matrix)

示例#2

显示文件

 def preprocess_data(self, dataset, y_dataset):
     logging.info("Transforming data on " + self.__class__.__name__)
     processed_dataset = process_dataset(dataset)
     processed_dataset = processed_dataset.map(
         lambda x: ' '.join(word for word in x))
     tfidf = self.tfidf_vectorizer.transform(
         processed_dataset.values.astype('U'))
     return self.model.transform(tfidf)

示例#3

显示文件

文件： doc2vec_model.py 项目： adamwawrzynski/vectorized_documents_benchmark

 def preprocess_data(
     self,
     dataset,
     y_dataset
 ):
     logging.info("Transforming data on " + self.__class__.__name__)
     processed_dataset = process_dataset(dataset).tolist()
     vectors = [self.model.infer_vector(processed_dataset[doc_id]) for doc_id in range(len(processed_dataset))]
     return vectors

示例#4

显示文件

文件： lda_model.py 项目： adamwawrzynski/vectorized_documents_benchmark

 def train(self, x, y=None):
     logging.info("Building vocabulary on " + self.__class__.__name__)
     t0 = time.time()
     processed_dataset = process_dataset(x)
     processed_dataset = processed_dataset.map(
         lambda x: ' '.join(word for word in x))
     doc_term_matrix = self.count_vectorizer.fit_transform(
         processed_dataset.values.astype('U'))
     self.model.fit(doc_term_matrix)
     elapsed = (time.time() - t0)
     logging.info("Done in %.3fsec" % elapsed)

示例#5

显示文件

 def train(self, x, y=None):
     logging.info("Building vectorizer on " + self.__class__.__name__)
     t0 = time.time()
     processed_dataset = process_dataset(x)
     processed_dataset = processed_dataset.map(
         lambda x: ' '.join(word for word in x))
     tfidf = self.tfidf_vectorizer.fit_transform(
         processed_dataset.values.astype('U'))
     self.model.fit(tfidf)
     elapsed = (time.time() - t0)
     logging.info("Done in %.3fsec" % elapsed)

示例#6

显示文件

文件： doc2vec_model.py 项目： adamwawrzynski/vectorized_documents_benchmark

 def train(
     self,
     x,
     y
 ):
     logging.info("Training " + self.__class__.__name__)
     t0 = time.time()
     processed_x = process_dataset(x)
     documents = [TaggedDocument(doc, [tag]) for doc, tag in zip(processed_x, y)]
     self.model.build_vocab(documents)
     self.model.train(documents, total_examples=self.model.corpus_count, epochs=self.model.epochs)
     elapsed = (time.time() - t0)
     logging.info("Done in %.3fsec" % elapsed)