Python ModelCommon.convert_text_to_sequences 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utils_nnet

클래스/타입: ModelCommon

메소드/함수: convert_text_to_sequences

hotexamples.com에서의 예제들: 2

Python ModelCommon.convert_text_to_sequences - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utils_nnet.ModelCommon.convert_text_to_sequences에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

show_msg(7)

file_validation(3)

compute_overlap_features(2)

convert_text_to_sequences(2)

preprocess_tweet(2)

get_user_from_tweet(1)

remove_duplicates(1)

예제 #1

파일 보기

파일: run_nnet.py 프로젝트: eliran122/TwitterBotDetector

    def predict(self):
        if self.tweet_pred is None:
            raise Exception(
                'Can not Start Predicting without any Prediction Tweet!')

        # perform pre-processing
        clean_tweet_pred = Utils.preprocess_tweet(self.tweet_pred)

        # build doc list by duplicate tweet prediction foreach line in bot list
        tweet_pred_list = [clean_tweet_pred] * len(self.bot_list)

        # convert tweet predicted to sequence
        temp_pred_list = [clean_tweet_pred]
        x_temp_pred_list = Utils.convert_text_to_sequences(
            self.tokenizer, temp_pred_list, self.max_text_len)

        # duplicate sequence to the length of bot size list
        x_doc_list = [x_temp_pred_list[0]] * len(self.bot_list)
        x_doc_list = np.array(x_doc_list)

        # calculate word overlapping additional feature
        if self.additional_feats_enabled:
            additional_feat = Utils.compute_overlap_features(
                self.bot_list, tweet_pred_list)
        else:
            additional_feat = np.zeros(len(self.bot_list))

        # perform the prediction operation
        predict_list = self.model.predict(
            [self.x_bot_list, x_doc_list, additional_feat],
            verbose=1,
            callbacks=[self.callback_predict])

        # calculate and save the how much current tweet similar to training bots list
        self.bot_similarity_score = len(
            list(filter(lambda x: x > 0.5, predict_list))) / len(predict_list)

예제 #2

파일 보기

    def train_model(self):
        # load exists dataset or create a new one if not exists
        #self._load_dataset()

        # build dataset for training
        self.dataset.perform_build(self.bots_file, self.human_file,
                                   self.additional_feats_enabled)

        self.logger.write_log('Splitting datasets into train and test sets')

        data_train, data_test = self._split_train_test_sets()
        q_train, d_train, addn_feat_train, y_train = data_train
        q_test, d_test, addn_feat_test, y_test = data_test

        self.logger.write_log(f'trains samples: {len(q_train)}')
        self.logger.write_log(f'test samples: {len(q_test)}')

        # extract some parameters that uses for our model
        vocabulary = self.dataset.tokenizer.index_word
        max_text_len = self.dataset.max_text_len
        addit_feat_len = self.dataset.addit_feat_len
        tokenizer = self.dataset.tokenizer

        # convert texts to sequences
        self.logger.write_log('convert texts to sequences')
        x_q_train = Utils.convert_text_to_sequences(tokenizer, q_train,
                                                    max_text_len)
        x_d_train = Utils.convert_text_to_sequences(tokenizer, d_train,
                                                    max_text_len)
        x_q_test = Utils.convert_text_to_sequences(tokenizer, q_test,
                                                   max_text_len)
        x_d_test = Utils.convert_text_to_sequences(tokenizer, d_test,
                                                   max_text_len)

        # prepare data for predicting
        self.bot_tweets = self._get_unique_matches(q_train, y_train)
        self.x_bot_tweets = Utils.convert_text_to_sequences(
            tokenizer, self.bot_tweets, max_text_len)

        self.bot_test_tweets = q_test
        self.doc_test_tweets = d_test
        self.labels_test = y_test

        # create our model with embedding matrix
        self.model = self._create_model(vocabulary, max_text_len,
                                        addit_feat_len)

        self.logger.write_log(f'Start training process..')

        # start fitting model
        history = self.model.fit([
            np.array(x_q_train),
            np.array(x_d_train),
            np.array(addn_feat_train)
        ],
                                 np.array(y_train),
                                 epochs=self.epochs,
                                 batch_size=self.batch_size,
                                 verbose=1,
                                 validation_split=self.validation_split,
                                 callbacks=self._get_callbacks())