Python Corpus.findの例

プログラミング言語: Python

名前空間/パッケージ名: Corpus

クラス/型: Corpus

メソッド/関数: find

hotexamples.comのコード掲載数: 5

Python Corpus.find - 5件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのCorpus.Corpus.findの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Corpus(30)

find(5)

get_postag_set(4)

read(3)

__init__(2)

verificarPlagio(2)

add_source_document(2)

add_target_document(2)

get_file_name(2)

buildCorpus(2)

emails_as_string(2)

dump(2)

preprocess(2)

get_data(2)

read_ner(2)

outputWords(1)

pickledumpwords(1)

output_rules(1)

ner(1)

outputPOStags(1)

nettoyer_texte(1)

most_frequent_word_by_year(1)

most_frequent_word_by_month(1)

most_frequent_word_by_day(1)

most_frequent_word(1)

most_frequent_trigrams(1)

most_frequent_content_words(1)

picklegetwords(1)

read_label(1)

prepapre_to_matrix(1)

search_ambiguous(1)

vectoriserDocCorpus(1)

url_to_dir(1)

train_word2vec(1)

tag_words_with_most_likely_parses(1)

spanishTags(1)

set_lista_texto(1)

save_json(1)

process(1)

save(1)

results(1)

resetSentStats(1)

read_word2vec(1)

read_prediction(1)

load_json(1)

read_data(1)

most_frequent_bigrams(1)

get_instances(1)

lemmatiserCorpus(1)

calculSimilarite(1)

コード例 #1

ファイルを表示

ファイル: extractd.py プロジェクト: takayuk/says

def main2():
    corpus = {}
    
    db = Corpus(database="sanal", collection=sys.argv[1])
    query = {}
    for i, item in enumerate(db.find(query)):

        text = item["text"]
        words = getwords(unicode(text))

        wordsd = {}
        for w in words:
            countup(wordsd, w)

        doc = { "text": wordsd, "id": item["id"] }
        #u = item["user"]["screen_name"]
        u = item["screen_name"]

        try:
            corpus[u].append(doc)
        except KeyError:
            corpus[u] = [ doc ]
    
        print(i)


    with file(sys.argv[2], "w") as opened:
        for k, v in corpus.items():
            opened.write("%s\n" % json.dumps({k: v}))

コード例 #2

ファイルを表示

ファイル: graphd.py プロジェクト: takayuk/says

            uid = extractd.getid(n2i, u)
            vid = extractd.getid(n2i, v)

            graph.add_edge(uid, vid)
            
            extractd.countup(weights, (uid, vid))
            extractd.countup(weights, (vid, uid))

    with file('%s.wpairs' % sys.argv[1], 'w') as opened:

        for e in graph.edges():
            w = weights[(e[0], e[1])] if weights[(e[0], e[1])] <= weights[(e[1], e[0])] else weights[(e[1], e[0])]
            opened.write( '%d\t%d\t%d\n' % (e[0], e[1], w) )

    with file('%s.n2i' % sys.argv[1], 'w') as opened:
        for u in n2i:
            opened.write('%s\t%d\n' % (u, n2i[u]))


if __name__ == '__main__':
    
    dbinfo = Pit.get("says")
    db = Corpus(database=dbinfo["db"], collection=dbinfo["items"])

    t_end = time.mktime( datetime.today().timetuple() )
    t_begin = t_end - (24 * 60 * 60 * 10)
 
    items = [ item for item in db.find({'created_at': { '$gt': t_begin, '$lt': t_end }}) ]

    make_graph(items)

コード例 #3

ファイルを表示

ファイル: itemsd.py プロジェクト: takayuk/says


def parse_args():

    usage = "[--interval] [interval] [-l] [path-to-log]"
   
    parser = argparse.ArgumentParser(description="says")
    parser.add_argument("--interval", type=float, default=1.0)
    parser.add_argument("-l", "--log", default=".log/log")

    args = parser.parse_args()
    return args


if __name__ == "__main__":

    args = parse_args()

    dbinfo = Pit.get("says")

    users_db = Corpus(database=dbinfo["db"], collection=dbinfo["users"])
    #users = users_db.find({})
    users = [ item["screen_name"] for item in users_db.find({}) ]

    api = activate_api()

    items_db = Corpus(database=dbinfo["db"], collection=dbinfo["items"])

    getitems(users, api, items_db)

コード例 #4

ファイルを表示

ファイル: extractor.py プロジェクト: takayuk/says

    return args


if __name__ == "__main__":

    args = parse_args()

    db = Corpus(database=args.database, collection=args.items)
    db_stats = Corpus(database=args.database, collection=args.itemstats)
    
    try:
        latstats = db_stats.findsorted({}, key="id")[0]["id"]
    except IndexError:
        latstats = 0L

    for i, item in enumerate(db.find({ "id": { "$gt": latstats }})):

        words = extractd.getwords(item)
        messages = extractd.getmessages(item)
        tags = extractd.gethashtags(item)
        urls = extractd.geturls(item)
        
        db_stats.append({
            "screen_name": item["screen_name"]
            , "words": words
            , "messages": messages
            , "hashtags": tags
            , "urls": urls
            , "created_at": item["created_at"]
            , "id": item["id"] })

コード例 #5

ファイルを表示

ファイル: ngram_df.py プロジェクト: takayuk/says

# -*- encoding: utf-8 -*-
# -*- coding: utf-8 -*-

import sys
import extractor
from Corpus import Corpus


if __name__ == "__main__":

    dbname, collname = sys.argv[1], sys.argv[2]
    corpus_db = Corpus(database=dbname, collection=collname)

    df_dbname, df_collname = dbname, sys.argv[3]

    df = {}
    for j, item in enumerate(corpus_db.find({})):
        for word in set( extractor.getwords(item["text"]) ):
            extractor.countup(df, word)

    with file(df_collname, "w") as opened:
        for word, freq in sorted(df.items(), key=lambda x:x[1], reverse=True):
            opened.write("%s\t%d\n" % (word, freq))