Python parseHtml примеры, voikkohtml.parseHtml Python примеры использования

Пример #1

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testIgnoreTraditionalBr(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on ruokittava <br>huolella.</p></body></html>"
     )
     self.assertEquals(
         [(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")],
         result)

Пример #2

0

Показать файл

Файл: ajaxvoikko.py Проект: santipazos/corevoikko

def checkPage(url, dictionary, clientIp, requestHeaders):
    log("checkPage: " + url.encode("UTF-8"))
    if dictionary not in _voikko:
        return u""
    v = _voikko[dictionary]
    try:
        html = getHtmlSafely(url.encode('UTF-8'), clientIp, requestHeaders)
        segments = parseHtml(html)
        res = u"Analyysi sivusta " + escape(url) + u"<br />"
        v.setAcceptUnfinishedParagraphsInGc(True)
        for segment in segments:
            segmentClass = None
            checkGrammar = True
            if segment[0] == SEGMENT_TYPE_HEADING:
                v.setAcceptTitlesInGc(True)
                v.setAcceptBulletedListsInGc(False)
                segmentClass = u"webvoikkoH"
            elif segment[0] == SEGMENT_TYPE_LIST_ITEM:
                v.setAcceptTitlesInGc(False)
                v.setAcceptBulletedListsInGc(True)
                segmentClass = u"webvoikkoLi"
            elif segment[0] == SEGMENT_TYPE_PARAGRAPH:
                v.setAcceptTitlesInGc(False)
                v.setAcceptBulletedListsInGc(False)
                segmentClass = u"webvoikkoP"
            elif segment[0] == SEGMENT_TYPE_OTHER:
                checkGrammar = False
                segmentClass = u"webvoikkoO"
            res = res + u"<p class='" + segmentClass + u"'>" + doSpell(
                segment[1], v, checkGrammar) + u"</p>"
        return res
    except HttpException, e:
        return u"Sivua %s ei voitu hakea: %s" % (escape(url), e.parameter)

Пример #3

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testUnclosedTdIsLikeClosedTd(self):
     result = parseHtml(
         u"<html><body><table><tr><th>kissa<td>koira<td>poni</tr></table></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa"),
                        (SEGMENT_TYPE_OTHER, u"koira"),
                        (SEGMENT_TYPE_OTHER, u"poni")], result)

Пример #4

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testLineFeedIsJustSpace(self):
     result = parseHtml(
         u"<html><body><p>Kissaa\non\r\nruokittava\rhuolella.</p></body></html>"
     )
     self.assertEquals(
         [(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")],
         result)

Пример #5

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testExtraWhitespaceIsRemoved(self):
     result = parseHtml(
         u"<html><body><p>\tKissaa  on \rruokittava huolella.  </p></body></html>"
     )
     self.assertEquals(
         [(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")],
         result)

Пример #6

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testH1WithinPClosesP(self):
     result = parseHtml(
         u"<html><body><p>Kissa<h1>Koira</h1>jotain muuta</p></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissa"),
                        (SEGMENT_TYPE_HEADING, u"Koira"),
                        (SEGMENT_TYPE_OTHER, u"jotain muuta")], result)

Пример #7

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testBrIsWhitespace(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on ruokittava<br/>huolella.</p></body></html>"
     )
     self.assertEquals(
         [(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")],
         result)

Пример #8

0

Показать файл

Файл: ajaxvoikko.py Проект: diegolinan/corevoikko

def checkPage(url, dictionary, clientIp, requestHeaders, checkForMaybeErrors):
	log("checkPage: " + url.encode("UTF-8"))
	if dictionary not in _voikko:
		return u""
	v = _voikko[dictionary]
	try:
		html = getHtmlSafely(url.encode('UTF-8'), clientIp, requestHeaders)
		segments = parseHtml(html)
		res = u"Analyysi sivusta " + escape(url) + u"<br />"
		v.setAcceptUnfinishedParagraphsInGc(True)
		for segment in segments:
			segmentClass = None
			checkGrammar = True
			if segment[0] == SEGMENT_TYPE_HEADING:
				v.setAcceptTitlesInGc(True)
				v.setAcceptBulletedListsInGc(False)
				segmentClass = u"webvoikkoH"
			elif segment[0] == SEGMENT_TYPE_LIST_ITEM:
				v.setAcceptTitlesInGc(False)
				v.setAcceptBulletedListsInGc(True)
				segmentClass = u"webvoikkoLi"
			elif segment[0] == SEGMENT_TYPE_PARAGRAPH:
				v.setAcceptTitlesInGc(False)
				v.setAcceptBulletedListsInGc(False)
				segmentClass = u"webvoikkoP"
			elif segment[0] == SEGMENT_TYPE_OTHER:
				checkGrammar = False
				segmentClass = u"webvoikkoO"
			res = res + u"<p class='" + segmentClass + u"'>" + doSpell(segment[1], v, checkGrammar, checkForMaybeErrors) + u"</p>"
		return res
	except HttpException, e:
		return u"Sivua %s ei voitu hakea: %s" % (escape(url), e.parameter)

Пример #9

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testUnclosedP(self):
     result = parseHtml(u"<html><body><p>kissa<p>koira<div><p>hevonen</div></body></html>")
     self.assertEquals(
         [
             (SEGMENT_TYPE_PARAGRAPH, u"kissa"),
             (SEGMENT_TYPE_PARAGRAPH, u"koira"),
             (SEGMENT_TYPE_PARAGRAPH, u"hevonen"),
         ],
         result,
     )

Пример #10

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testH1WithinPClosesP(self):
     result = parseHtml(u"<html><body><p>Kissa<h1>Koira</h1>jotain muuta</p></body></html>")
     self.assertEquals(
         [
             (SEGMENT_TYPE_PARAGRAPH, u"Kissa"),
             (SEGMENT_TYPE_HEADING, u"Koira"),
             (SEGMENT_TYPE_OTHER, u"jotain muuta"),
         ],
         result,
     )

Пример #11

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testLineFeedIsJustSpace(self):
     result = parseHtml(u"<html><body><p>Kissaa\non\r\nruokittava\rhuolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)

Пример #12

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testBrIsWhitespace(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava<br/>huolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)

Пример #13

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testIgnoreTraditionalBr(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava <br>huolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)

Пример #14

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testScriptsAreStripped(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on ruokittava.</p><script>lksjdf</script></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")],
                       result)

Пример #15

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def assertParseError(self, html, lineno, offset):
     try:
         parseHtml(html)
     except HTMLParseError, e:
         self.assertEquals(lineno, e.lineno)
         self.assertEquals(offset, e.offset)

Пример #16

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testUnknownEntityIsAssumedToBeJustText(self):
     result = parseHtml(u"<html><body><p>Kissa & koira ja &kissa;</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissa & koira ja &kissa")], result)

Пример #17

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testStrayTdCloseTag(self):
     result = parseHtml(u"<html><body><p>kissa</p></td></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"kissa")], result)

Пример #18

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testNonAscii(self):
     result = parseHtml(
         u"<html><body><h1>Eläinlääk&auml;rissä käynti €</h1></body></html>"
     )
     self.assertEquals(
         [(SEGMENT_TYPE_HEADING, u"Eläinlääkärissä käynti €")], result)

Пример #19

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testUnderlineInducesNoSpace(self):
     result = parseHtml(
         u"<html><body><h1>Libre<u>Office</u></h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"LibreOffice")], result)

Пример #20

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testCiteIsJustText(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on <cite>ruokittava</cite>.</p></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")],
                       result)

Пример #21

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testStrayTdCloseTag(self):
     result = parseHtml(u"<html><body><p>kissa</p></td></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"kissa")], result)

Пример #22

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testTableWithinP(self):
     result = parseHtml(
         u"<html><body><p><table><tr><td>sdsd</td></tr></table>ruokittava.</p></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"sdsd"),
                        (SEGMENT_TYPE_OTHER, u"ruokittava.")], result)

Пример #23

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testTablesAreIgnored(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on ruokittava.</p><table><tr><td>sdsd</td></tr></table></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava."),
                        (SEGMENT_TYPE_OTHER, u"sdsd")], result)

Пример #24

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testScriptsWithinPIsIgnoredAndContentStripped(self):
     result = parseHtml(u"<html><body><p>Kissaa on <script>aksldj</script>ruokittava.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")], result)

Пример #25

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testTablesAreIgnored(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on ruokittava.</p><table><tr><td>sdsd</td></tr></table></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava."), (SEGMENT_TYPE_OTHER, u"sdsd")], result)

Пример #26

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testUnknownEntityIsAssumedToBeJustText(self):
     result = parseHtml(
         u"<html><body><p>Kissa & koira ja &kissa;</p></body></html>")
     self.assertEquals(
         [(SEGMENT_TYPE_PARAGRAPH, u"Kissa & koira ja &kissa")], result)

Пример #27

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testUnderlineInducesNoSpace(self):
     result = parseHtml(u"<html><body><h1>Libre<u>Office</u></h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"LibreOffice")], result)

Пример #28

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testParseEmptyDocument(self):
     result = parseHtml(u"<html><head></head><body></body></html>")
     self.failUnless(len(result) == 0)

Пример #29

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testTextWithinBody(self):
     result = parseHtml(u"<html><body>kissa</body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa")], result)

Пример #30

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testHexCharacterReferences(self):
     result = parseHtml(u"<html><body><h1>&#xE4;</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"ä")], result)

Пример #31

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testParseTitle(self):
     result = parseHtml(u"<html><head><title>kissa</title></head><body></body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa")], result)

Пример #32

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testTextWithinBody(self):
     result = parseHtml(u"<html><body>kissa</body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa")], result)

Пример #33

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testParseParagraph(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava huolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)

Пример #34

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testAnyClosingTagIsIgnoredIfOpenTagStackHasNoSuchTag(self):
     result = parseHtml(
         u"<html><head></style></head><body><p>kissa</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"kissa")], result)

Пример #35

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testIgnoreImages(self):
     result = parseHtml(u"<html><body><p>Kissaa <img src='cat.jpg'>on ruokittava.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")], result)

Пример #36

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testPWithinBlockquote(self):
     result = parseHtml(
         u"<html><body><blockquote><p>Kissa</p></blockquote></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissa")], result)

Пример #37

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testExtraWhitespaceIsRemoved(self):
     result = parseHtml(u"<html><body><p>\tKissaa  on \rruokittava huolella.  </p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)

Пример #38

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testParseTitle(self):
     result = parseHtml(
         u"<html><head><title>kissa</title></head><body></body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa")], result)

Пример #39

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testScriptsAreStripped(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava.</p><script>lksjdf</script></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")], result)

Пример #40

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testHeadMayRemainUnfinished(self):
     result = parseHtml(u"<html><head></html>")
     self.assertEquals([], result)

Пример #41

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testParseHeader(self):
     result = parseHtml(
         u"<html><body><h1>Kissan ruokkiminen</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"Kissan ruokkiminen")],
                       result)

Пример #42

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testParseListItemsWithinEm(self):
     result = parseHtml(
         u"<html><body><ul><li>kis<em>sa</em></li></ul></body></html>")
     self.assertEquals([(SEGMENT_TYPE_LIST_ITEM, u"kissa")], result)

Пример #43

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testTableWithinP(self):
     result = parseHtml(u"<html><body><p><table><tr><td>sdsd</td></tr></table>ruokittava.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"sdsd"), (SEGMENT_TYPE_OTHER, u"ruokittava.")], result)

Пример #44

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testParseNestedLists(self):
     result = parseHtml(
         u"<html><body><ul><li>kissa<ul><li>koira</li></ul></li></ul></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa"),
                        (SEGMENT_TYPE_LIST_ITEM, u"koira")], result)

Пример #45

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testStrongIsJustText(self):
     result = parseHtml(u"<html><body><p>Kissaa on <strong>ruokittava</strong>.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")], result)

Пример #46

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testParseDefinitionLists(self):
     result = parseHtml(
         u"<html><body><dl><dt>kissa</dt><dd>jalo eläin</dd></dl></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_LIST_ITEM, u"kissa"),
                        (SEGMENT_TYPE_LIST_ITEM, u"jalo eläin")], result)

Пример #47

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testNonAscii(self):
     result = parseHtml(u"<html><body><h1>Eläinlääk&auml;rissä käynti €</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"Eläinlääkärissä käynti €")], result)

Пример #48

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testParseHeader(self):
     result = parseHtml(u"<html><body><h1>Kissan ruokkiminen</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"Kissan ruokkiminen")], result)

Пример #49

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testHexCharacterReferences(self):
     result = parseHtml(u"<html><body><h1>&#xE4;</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"ä")], result)

Пример #50

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testParseNestedLists(self):
     result = parseHtml(u"<html><body><ul><li>kissa<ul><li>koira</li></ul></li></ul></body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa"), (SEGMENT_TYPE_LIST_ITEM, u"koira")], result)

Пример #51

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testAnyClosingTagIsIgnoredIfOpenTagStackHasNoSuchTag(self):
     result = parseHtml(u"<html><head></style></head><body><p>kissa</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"kissa")], result)

Пример #52

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def assertParseError(self, html, lineno, offset):
     try:
         parseHtml(html)
     except HTMLParseError, e:
         self.assertEquals(lineno, e.lineno)
         self.assertEquals(offset, e.offset)

Пример #53

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testParseEmptyDocument(self):
     result = parseHtml(u"<html><head></head><body></body></html>")
     self.failUnless(len(result) == 0)

Пример #54

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testClearBeforeParagraph(self):
     result = parseHtml(u"<html><head><title>koira</title></head><body><p>kissa</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"koira"), (SEGMENT_TYPE_PARAGRAPH, u"kissa")], result)

Пример #55

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testHeadMayRemainUnfinished(self):
     result = parseHtml(u"<html><head></html>")
     self.assertEquals([], result)

Пример #56

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testScriptsWithinPIsIgnoredAndContentStripped(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on <script>aksldj</script>ruokittava.</p></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")],
                       result)

Пример #57

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testParseListItemsWithinEm(self):
     result = parseHtml(u"<html><body><ul><li>kis<em>sa</em></li></ul></body></html>")
     self.assertEquals([(SEGMENT_TYPE_LIST_ITEM, u"kissa")], result)

Пример #58

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testParseParagraph(self):
     result = parseHtml(
         u"<html><body><p>Kissaa on ruokittava huolella.</p></body></html>")
     self.assertEquals(
         [(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")],
         result)

Пример #59

0

Показать файл

Файл: voikkohtmlTest.py Проект: komu/corevoikko

 def testParseDefinitionLists(self):
     result = parseHtml(u"<html><body><dl><dt>kissa</dt><dd>jalo eläin</dd></dl></body></html>")
     self.assertEquals([(SEGMENT_TYPE_LIST_ITEM, u"kissa"), (SEGMENT_TYPE_LIST_ITEM, u"jalo eläin")], result)

Пример #60

0

Показать файл

Файл: voikkohtmlTest.py Проект: xyuebai/corevoikko

 def testIgnoreImages(self):
     result = parseHtml(
         u"<html><body><p>Kissaa <img src='cat.jpg'>on ruokittava.</p></body></html>"
     )
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")],
                       result)

Python parseHtml примеры использования