Python process_file示例

编程语言: Python

命名空间/包名称: factiva_model

方法/功能: process_file

hotexamples.com的示例: 4

Python process_file - 已找到4个示例。这些是从开源项目中提取的最受好评的factiva_model.process_file现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： file_LDA_JAMA.py 项目： yezhang1989/A-Data-Driven-Approach-to-Characterizing-the-Perceived-Newsworthiness-of-Health-ScienceArticles

def get_X_y():
    X,y,interest = process_file("jama/jama_article_info.csv","jama/jama_pmids.txt_matched_articles_filtered.csv")
    vectorizer = CountVectorizer(stop_words="english",
                                    min_df=2,
                                    token_pattern=r"(?u)95% confidence interval|95% CI|95% ci|[a-zA-Z0-9_*\-][a-zA-Z0-9_/*\-]+",
                                    binary=False, max_features=50000)
    X = vectorizer.fit_transform(X)
    return X,np.array(y),vectorizer

示例#2

显示文件

文件： file_LDA_JAMA.py 项目： yezhang-xiaofan/mediaCoverage

def get_X_y():
    X, y, interest = process_file(
        "jama/jama_article_info.csv",
        "jama/jama_pmids.txt_matched_articles_filtered.csv")
    vectorizer = CountVectorizer(
        stop_words="english",
        min_df=2,
        token_pattern=
        r"(?u)95% confidence interval|95% CI|95% ci|[a-zA-Z0-9_*\-][a-zA-Z0-9_/*\-]+",
        binary=False,
        max_features=50000)
    X = vectorizer.fit_transform(X)
    return X, np.array(y), vectorizer

示例#3

显示文件

文件： BS_NC_Reuters.py 项目： yezhang-xiaofan/mediaCoverage

def get_X_y():
    X, y, interest = process_file(
        "reuters/all_reuters_article_info.csv",
        "reuters/all_reuters_matched_articles_filtered.csv")
    vectorizer = CountVectorizer(
        ngram_range=(1, 2),
        stop_words="english",
        min_df=1,
        token_pattern=
        r"(?u)95% confidence interval|95% CI|95% ci|[a-zA-Z0-9_*\-][a-zA-Z0-9_/*\-]+",
        binary=False,
        max_features=50000)
    X = vectorizer.fit_transform(X)
    return X, np.array(y), vectorizer

示例#4

显示文件

文件： BS_NC_Reuters.py 项目： yezhang1989/A-Data-Driven-Approach-to-Characterizing-the-Perceived-Newsworthiness-of-Health-ScienceArticles

def get_X_y():
    X, y, interest = process_file(
        "reuters/all_reuters_article_info.csv", "reuters/all_reuters_matched_articles_filtered.csv"
    )
    vectorizer = CountVectorizer(
        ngram_range=(1, 2),
        stop_words="english",
        min_df=1,
        token_pattern=r"(?u)95% confidence interval|95% CI|95% ci|[a-zA-Z0-9_*\-][a-zA-Z0-9_/*\-]+",
        binary=False,
        max_features=50000,
    )
    X = vectorizer.fit_transform(X)
    return X, np.array(y), vectorizer