Python NLP.divide_train_test Beispiele

Programmiersprache: Python

Namespace / Paketname: nlp

Klasse / Typ: NLP

Methode / Funktion: divide_train_test

Beispiele auf hotexamples.com: 1

Python NLP.divide_train_test - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die nlp.NLP.divide_train_test, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

NLP(3)

filter_features(3)

analyze_entities(3)

removeDuplicates(1)

get_lines(1)

lemmatize(1)

namedEntityRecognition(1)

negationCheck(1)

reconstruct(1)

relationSearch(1)

replaceAttr(1)

removePunctAndStop(1)

get_entities_list(1)

replaceContractions(1)

replaceOperators(1)

replaceRelations(1)

replaceSynAttr(1)

replaceSynCommon(1)

tag(1)

tokenize(1)

get_entity_types(1)

getMorphology(1)

get_dependencies(1)

clean_string(1)

add_msg_gzh(1)

analyze(1)

analyze_sentiment(1)

andOr(1)

array_merge(1)

check(1)

checkSatz(1)

cleaningSelectList(1)

add_msg(1)

clearCheckWord(1)

detect_language(1)

divide_train_test(1)

docDetails(1)

encode(1)

extract_keywords(1)

getKeywords(1)

unknownAttr(1)

Beispiel #1

Datei anzeigen

Datei: nlp_with_gensim.py Projekt: SebastianElvis/ElvisProjs

import gensim
import pandas as pd
from nlp import NLP
from dataset_utils import *
import jieba

combined_dir = '../dataset/combined/'

assembled_combined_csv = pd.read_csv(combined_dir + 'assembled_combined.csv', quoting=3)
train_dataset, test_dataset = NLP.divide_train_test(assembled_combined_csv, '2016-02-01')

# date and label list




class NLPWithGensim:
    @classmethod
    def documents_to_tfidf_corpus(cls, documents):
        news_data = documents.values
        tokenized_news_list = []
        for daily_news in news_data:
            filtered_daily_news = []
            filtered_daily_news = [x for x in daily_news if str(type(x)).find('float') == -1]

            filtered_daily_news = ' '.join(filtered_daily_news)
            filtered_daily_news = list(jieba.cut(filtered_daily_news))
            tokenized_news_list.append(filtered_daily_news)
        dic = gensim.corpora.Dictionary(tokenized_news_list)
        corpus = [dic.doc2bow(text) for text in tokenized_news_list]
        tfidf = gensim.models.TfidfModel(corpus)