Python DocsAndLabelsFromCorpusSample 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: scattertext.DocsAndLabelsFromCorpus

hotexamples.com에서의 예제들: 5

Python DocsAndLabelsFromCorpusSample - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 scattertext.DocsAndLabelsFromCorpus.DocsAndLabelsFromCorpusSample에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DocsAndLabelsFromCorpusSample(4)

get_labels_and_texts(1)

get_labels_and_texts_and_meta(1)

예제 #1

파일 보기

 def _make_docs_getter(self, max_docs_per_category):
     if max_docs_per_category is None:
         docs_getter = DocsAndLabelsFromCorpus(self.term_doc_matrix)
     else:
         docs_getter = DocsAndLabelsFromCorpusSample(
             self.term_doc_matrix, max_docs_per_category)
     if self.scatterchartdata.use_non_text_features:
         docs_getter = docs_getter.use_non_text_features()
     return docs_getter

예제 #2

파일 보기

	def test_categories(self):
		for obj in [DocsAndLabelsFromCorpusSample(self.corpus, 1), DocsAndLabelsFromCorpus(self.corpus)]:
			output = obj.get_labels_and_texts()
			self.assertEqual(output['categories'], ['hamlet', 'jay-z/r. kelly', '???'])
			metadata = ['element 0 0', 'element 1 0', 'element 2 0', 'element 3 0',
			            'element 4 1', 'element 5 1', 'element 6 1',
			            'element 7 1', 'element 8 1', 'element 9 2']
			output = obj.get_labels_and_texts_and_meta(metadata)
			self.assertEqual(output['categories'], ['hamlet', 'jay-z/r. kelly', '???'])

예제 #3

파일 보기

    def test_max_per_category(self):
        docs_and_labels = DocsAndLabelsFromCorpusSample(self.parsed_corpus,
                                                        max_per_category=2,
                                                        seed=0)
        metadata = np.array([
            'element 0 0', 'element 1 0', 'element 2 0', 'element 3 0',
            'element 4 1', 'element 5 1', 'element 6 1', 'element 7 1',
            'element 8 1', 'element 9 2'
        ])
        output = docs_and_labels.get_labels_and_texts_and_meta(metadata)
        self.assertTrue('texts' in output)
        self.assertTrue('labels' in output)
        self.assertTrue('meta' in output)
        self.assertTrue('extra' not in output)
        d = {}
        for text, lab, meta in zip(output['texts'], output['labels'],
                                   output['meta']):
            d.setdefault(lab, []).append(text)
        for lab, documents in d.items():
            self.assertLessEqual(len(documents), 2)
        json.dumps(d)

        docs_and_labels = DocsAndLabelsFromCorpusSample(self.parsed_corpus,
                                                        max_per_category=2)
        output = docs_and_labels.get_labels_and_texts()
        self.assertTrue('texts' in output)
        self.assertTrue('labels' in output)
        self.assertTrue('meta' not in output)
        self.assertTrue('extra' not in output)
        d = {}
        for text, lab in zip(output['texts'], output['labels']):
            d.setdefault(lab, []).append(text)
        for lab, documents in d.items():
            self.assertLessEqual(len(documents), 2)
        json.dumps(d)

        docs_and_labels = DocsAndLabelsFromCorpusSample(
            self.parsed_corpus, max_per_category=2).use_non_text_features()
        output = docs_and_labels.get_labels_and_texts()
        self.assertTrue('texts' in output)
        self.assertTrue('labels' in output)
        self.assertTrue('meta' not in output)
        self.assertTrue('extra' in output)
        d = {}
        for text, lab in zip(output['texts'], output['labels']):
            d.setdefault(lab, []).append(text)
        for lab, documents in d.items():
            self.assertLessEqual(len(documents), 2)
        json.dumps(d)

예제 #4

파일 보기

 def test_alternative_text_field(self):
     DocsAndLabelsFromCorpus(self.corpus)
     DocsAndLabelsFromCorpus(self.parsed_corpus)
     with self.assertRaises(CorpusShouldBeParsedCorpusException):
         DocsAndLabelsFromCorpus(self.corpus, alternative_text_field='orig')
     d = DocsAndLabelsFromCorpus(self.parsed_corpus,
                                 alternative_text_field='orig')
     self.assertEqual(d.get_labels_and_texts()['texts'][0],
                      d.get_labels_and_texts()['texts'][0].upper())
     d = DocsAndLabelsFromCorpus(self.parsed_corpus)
     self.assertNotEqual(d.get_labels_and_texts()['texts'][0],
                         d.get_labels_and_texts()['texts'][0].upper())
     d = DocsAndLabelsFromCorpusSample(self.parsed_corpus,
                                       2,
                                       alternative_text_field='orig',
                                       seed=0)
     texts = d.get_labels_and_texts()['texts']
     self.assertEqual(texts[0], texts[0].upper())
     d = DocsAndLabelsFromCorpusSample(self.parsed_corpus, 2)
     self.assertNotEqual(d.get_labels_and_texts()['texts'][0],
                         d.get_labels_and_texts()['texts'][0].upper())

예제 #5

파일 보기

파일: test_docsAndLabelsFromCorpus.py 프로젝트: JasonKessler/scattertext

	def test_max_per_category(self):
		docs_and_labels = DocsAndLabelsFromCorpusSample(self.parsed_corpus, max_per_category=2, seed=0)
		metadata = np.array(['element 0 0', 'element 1 0', 'element 2 0', 'element 3 0',
		                     'element 4 1', 'element 5 1', 'element 6 1',
		                     'element 7 1', 'element 8 1', 'element 9 2'])
		output = docs_and_labels.get_labels_and_texts_and_meta(metadata)
		self.assertTrue('texts' in output)
		self.assertTrue('labels' in output)
		self.assertTrue('meta' in output)
		self.assertTrue('extra' not in output)
		d = {}
		for text, lab, meta in zip(output['texts'], output['labels'], output['meta']):
			d.setdefault(lab, []).append(text)
		for lab, documents in d.items():
			self.assertLessEqual(len(documents), 2)
		json.dumps(d)

		docs_and_labels = DocsAndLabelsFromCorpusSample(self.parsed_corpus, max_per_category=2)
		output = docs_and_labels.get_labels_and_texts()
		self.assertTrue('texts' in output)
		self.assertTrue('labels' in output)
		self.assertTrue('meta' not in output)
		self.assertTrue('extra' not in output)
		d = {}
		for text, lab in zip(output['texts'], output['labels']):
			d.setdefault(lab, []).append(text)
		for lab, documents in d.items():
			self.assertLessEqual(len(documents), 2)
		json.dumps(d)

		docs_and_labels = DocsAndLabelsFromCorpusSample(self.parsed_corpus, max_per_category=2).use_non_text_features()
		output = docs_and_labels.get_labels_and_texts()
		self.assertTrue('texts' in output)
		self.assertTrue('labels' in output)
		self.assertTrue('meta' not in output)
		self.assertTrue('extra' in output)
		d = {}
		for text, lab in zip(output['texts'], output['labels']):
			d.setdefault(lab, []).append(text)
		for lab, documents in d.items():
			self.assertLessEqual(len(documents), 2)
		json.dumps(d)