Python split_records Beispiele

Programmiersprache: Python

Namespace / Paketname: textacy.io

Methode / Funktion: split_records

Beispiele auf hotexamples.com: 7

Python split_records - 7 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die textacy.io.split_records, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Beispiel #1

Datei anzeigen

Datei: models.py Projekt: entrepreneur-interet-general/dataESR

 def build_corpus(self, size=-1):
     texts = self.wp.records(limit=size)
     text_stream, metadata_stream = split_records(texts, 'text')
     logging.info('building corpus...')
     self.corpus = Corpus(self.lang,
                          texts=text_stream,
                          metadatas=metadata_stream)

Beispiel #2

Datei anzeigen

Datei: test_corpus.py Projekt: sammous/textacy

def test_corpus_init_texts_and_metadatas():
    limit = 3
    texts, metadatas = io.split_records(DATASET.records(limit=limit), 'text')
    texts = list(texts)
    metadatas = list(metadatas)
    corpus = Corpus('en', texts=texts, metadatas=metadatas)
    assert len(corpus.docs) == limit
    assert all(doc.spacy_vocab is corpus.spacy_vocab for doc in corpus)
    for i in range(limit):
        assert texts[i] == corpus[i].text
        assert metadatas[i] == corpus[i].metadata

Beispiel #3

Datei anzeigen

Datei: test_corpus.py Projekt: sammous/textacy

def test_corpus_init_docs():
    limit = 3
    texts, metadatas = io.split_records(DATASET.records(limit=limit), 'text')
    docs = [
        Doc(text, lang='en', metadata=metadata)
        for text, metadata in zip(texts, metadatas)
    ]
    corpus = Corpus('en', docs=docs)
    assert len(corpus.docs) == limit
    assert all(doc.spacy_vocab is corpus.spacy_vocab for doc in corpus)
    for i in range(limit):
        assert corpus[i].metadata == docs[i].metadata
    corpus = Corpus('en',
                    docs=docs,
                    metadatas=({
                        'foo': 'bar'
                    } for _ in range(limit)))
    for i in range(limit):
        assert corpus[i].metadata == {'foo': 'bar'}

Beispiel #4

Datei anzeigen

def test_corpus_init_docs():
    limit = 3
    texts, metadatas = io.split_records(DATASET.records(limit=limit), "text")
    docs = [
        Doc(text, lang="en", metadata=metadata)
        for text, metadata in zip(texts, metadatas)
    ]
    corpus = Corpus("en", docs=docs)
    assert len(corpus.docs) == limit
    assert all(doc.spacy_vocab is corpus.spacy_vocab for doc in corpus)
    for i in range(limit):
        assert corpus[i].metadata == docs[i].metadata
    corpus = Corpus("en",
                    docs=docs,
                    metadatas=({
                        "foo": "bar"
                    } for _ in range(limit)))
    for i in range(limit):
        assert corpus[i].metadata == {"foo": "bar"}

Beispiel #5

Datei anzeigen

Datei: test_readme.py Projekt: xuezhizeng/textacy

def corpus():
    spacy_lang = cache.load_spacy('en')
    records = DATASET.records(speaker_name={'Bernie Sanders'}, limit=10)
    text_stream, metadata_stream = io.split_records(records, 'text')
    corpus = Corpus(spacy_lang, texts=text_stream, metadatas=metadata_stream)
    return corpus

Beispiel #6

Datei anzeigen

Datei: test_corpus.py Projekt: sammous/textacy

def corpus(request):
    texts, metadatas = io.split_records(DATASET.records(limit=3), 'text')
    corpus = Corpus('en', texts=texts, metadatas=metadatas)
    return corpus

Beispiel #7

Datei anzeigen

def corpus(request):
    texts, metadatas = io.split_records(DATASET.records(limit=3), "text")
    corpus = Corpus("en", texts=texts, metadatas=metadatas)
    return corpus