Python TextProcessor.TextProcessor示例

编程语言: Python

命名空间/包名称: processor

类/类型: TextProcessor

方法/功能: TextProcessor

hotexamples.com的示例: 4

Python TextProcessor.TextProcessor - 已找到4个示例。这些是从开源项目中提取的最受好评的processor.TextProcessor.TextProcessor现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

TextProcessor(4)

get_top_ind(2)

build_doc_matrix(1)

calculateConditionalFrequency(1)

consine_similarity(1)

gen_matrix(1)

map_data(1)

map_json_data(1)

process(1)

process_doc(1)

similarity_analysis(1)

示例#1

显示文件

文件： similarity.py 项目： chena/text-proc-craig

def find_similar_pairs(data):
    """
	Find the most similar document for each document in the collection, output the pairs
	"""
    processor = TextProcessor()
    processor.map_json_data(data)
    similar_pairs = processor.similarity_analysis()
    data_output = {
        processor.doc_collection[f].link: processor.doc_collection[s].link
        for f, s in similar_pairs
    }

    with open('similar_0817.json', 'w') as file_output:
        json.dump(data_output, file_output)

示例#2

显示文件

文件： main.py 项目： lukasborggren/bert-for-hmltc

        "DATA_PATH": str,
        "session_num": 13,
    }

    if os.environ["HOME"] == "/root":
        args["DATA_PATH"] = "/content/gdrive/MyDrive/bert-for-hmltc/data"
    else:
        args["DATA_PATH"] = "data"

    random.seed(args["seed"])
    np.random.seed(args["seed"])
    torch.manual_seed(args["seed"])

    logger.info("Initializing…")
    tokenizer = load_tokenizer(args)
    processor = TextProcessor(args, tokenizer, logger, "topic_list.json")

    if args["use_parents"]:
        model = create_experimental(args, len(processor.labels))
    else:
        model = create_baseline(args, len(processor.labels))

    model_state_dict = torch.load(
        join(args["DATA_PATH"], "model_files/13_finetuned_pytorch_model.bin"),
        map_location="cpu",
    )
    model.load_state_dict(model_state_dict)
    if args["do_train"]:
        trainer = ModelTrainer(args, model, logger)

        logger.info("Loading data…")

示例#3

显示文件

文件： craig.py 项目： chena/text-proc-craig

from flask import Flask, render_template, request
from processor import TextProcessor, Document
import re
from bs4 import BeautifulSoup
import urllib3
import numpy as np
from flask.ext.pymongo import PyMongo
import os
import sys

app = Flask(__name__)
app.config['MONGO_URI'] = os.getenv('MONGOHQ_URL')
mongo = PyMongo(app)
processor = TextProcessor()

with app.app_context():
    processor.map_data(mongo.db.postings.find())
    processor.build_doc_matrix()


@app.route('/', methods=['GET', 'POST'])
def main():
    if request.method == 'GET':
        return render_template('index.html')

    url = request.form['url'].strip()
    domain = 'newyork.craigslist.org/'

    if not domain in url:
        return render_template('index.html', error='Please enter a valid URL')

示例#4

显示文件

文件： test.py 项目： chena/text-proc-craig

 def setUp(self):
     self.processor = TextProcessor()