コード例 #1
0
def test_scrape_walla():
    items_expected = [
        NewsFlash(
            date=datetime.datetime(2020, 5, 23, 19, 55, tzinfo=timezones.ISREAL_SUMMER_TIMEZONE),
            title='פרקליטי רה"מ יתלוננו נגד רביב דרוקר על שיבוש הליכי משפט',
            link="https://news.walla.co.il/break/3362504",
            source="walla",
            author="דניאל דולב",
            description='פרקליטיו של ראש הממשלה בנימין נתניהו מתכוונים להגיש הערב (שבת) תלונה ליועץ המשפטי לממשלה, אביחי מנדלבליט, נגד העיתונאי רביב דרוקר בטענה ששיבש הליכי משפט והדיח עד בתוכניתו "המקור". התלונה מתייחסת לראיונות שנתנו לתוכנית עדי תביעה במשפטו של נתניהו, בהם שאול אלוביץ\' ומומו פילבר.]]>',
        ),
        NewsFlash(
            date=datetime.datetime(2020, 5, 22, 16, 14, tzinfo=timezones.ISREAL_SUMMER_TIMEZONE),
            title="פקיסטן: לפחות נוסע אחד שרד את התרסקות המטוס",
            link="https://news.walla.co.il/break/3362389",
            source="walla",
            author="רויטרס",
            description="לפחות נוסע אחד שרד מהתרסקות המטוס הפקיסטני היום (שישי) באזור מגורים בקראצ'י - כך אמר גורם בממשל המקומי. בהודעתו אמר דובר ממשלת המחוז כי בנקאי שהיה על המטוס אותר לאחר ששרד את ההתרסקות. מרשות התעופה האזרחית של פקיסטן נמסר כי היו 91 נוסעים ושמונה אנשי צוות על מטוס איירבוס A320.]]>",
        ),
    ]

    items_actual = list(
        rss_sites.scrape("walla", fetch_rss=fetch_rss_walla, fetch_html=fetch_html_walla)
    )
    assert_all_equal(items_actual, items_expected)
    verify_cache(items_actual)
コード例 #2
0
def test_scrape_ynet():
    items_expected = [
        # note: the file holds date in winter timezone, so here it is described as summer timezone - +1 hour
        NewsFlash(
            date=datetime.datetime(
                2020, 5, 22, 19, 27, 32, tzinfo=timezones.ISREAL_SUMMER_TIMEZONE
            ),
            title="קפריסין הודיעה: ישראלים יוכלו להיכנס למדינה החל מה-9 ביוני",
            link="http://www.ynet.co.il/articles/0,7340,L-5735229,00.html",
            source="ynet",
            author="איתמר אייכנר",
            description=": \"שר התחבורה של קפריסין הודיע על תוכנית לפתיחת שדות התעופה וחידוש הטיסות החל מה-9 ביוני. התוכנית שאושרה בידי הממשלה חולקה לשני שלבים לפי תאריכים ומדינות שיורשו להיכנס בשעריה. עד ה-19 ביוני נוסעים מכל המקומות יצטרכו להיבדק לקורונה 72 שעות לפני מועד הטיסה. מה-20 ביוני יידרשו לכך רק נוסעים משוויץ, פולין רומניה, קרואטיה, אסטוניה וצ'כיה. בתי המלון ייפתחו ב-1 ביוני, וחובת הבידוד תבוטל ב-20 ביוני.   ",
        ),
        NewsFlash(
            date=datetime.datetime(2020, 5, 22, 16, 8, 48, tzinfo=timezones.ISREAL_SUMMER_TIMEZONE),
            link="http://www.ynet.co.il/articles/0,7340,L-5735178,00.html",
            source="ynet",
            author="אלישע בן קימון",
            title="צוותי כיבוי פועלים בשריפת קוצים שמתפשטת סמוך ליצהר שבשומרון",
            description=': "צוותי כיבוי פועלים בשריפת קוצים שמתפשטת לעבר ההתנחלות יצהר שבשומרון. לוחמי האש פועלים למניעת התקדמות השריפה ליצהר על ידי חתירה למגע עם האש ובסיוע מטוסי כיבוי. נמסר כי קיימת סכנה למוצב צבאי במקום.   ',
        ),
    ]

    items_actual = list(
        rss_sites.scrape("ynet", fetch_rss=fetch_rss_ynet, fetch_html=fetch_html_ynet)
    )
    assert_all_equal(items_actual, items_expected)
    verify_cache(items_actual)
コード例 #3
0
ファイル: test_news_flash.py プロジェクト: atalyaalon/anyway
def test_scrape_ynet():
    items_expected = [
        # note: the file holds date in winter timezone, so here it is described as summer timezone - +1 hour
        NewsFlash(
            date=datetime.datetime(2021,
                                   6,
                                   23,
                                   13,
                                   58,
                                   51,
                                   tzinfo=timezones.ISREAL_SUMMER_TIMEZONE),
            title=
            'עבודות לתועלת הציבור לסייעת "גן מתוק" בגבעתיים שבו הותקפו ילדים',
            link='https://www.ynet.co.il/news/article/HkhoCYxnO',
            source="ynet",
            author="גלעד מורג",
            description=
            'בית משפט השלום בתל אביב קבע שלא להרשיע את סייעת "גן מתוק" בגבעתיים, אורנה אקבלי. הוא קבע שביצעה עבירת סיוע לתקיפה אך בגלל נסיבות החריגות של המקרה ובגלל שהייתה מעורבת בדיווח על האלימות בגן לא תורשע. עם זאת על אקבלי הוטלו 180 שעות עבודות לתועלת הציבור, צו מבחן, ו-3,000 שקל פיצויים.',
        ),
    ]

    items_actual = list(
        rss_sites.scrape("ynet",
                         rss_source="tests/ynet.xml",
                         fetch_html=fetch_html_ynet))
    assert_all_equal(items_actual, items_expected)
    verify_cache(items_actual)
コード例 #4
0
def scrape_extract_store_rss(site_name, db):
    latest_date = db.get_latest_date_of_source(site_name)
    for newsflash in rss_sites.scrape(site_name):
        if newsflash.date <= latest_date:
            break
        # TODO: pass both title and description, leaving this choice to the classifier
        newsflash.accident = classify_rss(newsflash.title
                                          or newsflash.description)
        newsflash.organization = classify_organization(site_name)
        if newsflash.accident:
            # FIX: No accident-accurate date extracted
            extract_geo_features(db, newsflash)
        db.insert_new_newsflash(newsflash)
コード例 #5
0
ファイル: test_news_flash.py プロジェクト: atalyaalon/anyway
def test_scrape_walla():
    # Reuters is marked differently than Walla's authors
    items_expected = [
        NewsFlash(
            date=datetime.datetime(2021,
                                   6,
                                   23,
                                   16,
                                   49,
                                   tzinfo=timezones.ISREAL_SUMMER_TIMEZONE),
            title='חובת המסכות תוחזר אם יהיה ממוצע שבועי של 100 חולים ביום',
            link="https://news.walla.co.il/break/3443829",
            source="walla",
            author="מירב כהן",
            description=
            'חובת המסכות תוחזר בחללים סגורים אם יהיה ממוצע שבועי של 100 חולים ביום - כך הוחלט היום (רביעי) בדיון השרים.',
        ),
        NewsFlash(
            date=datetime.datetime(2021,
                                   7,
                                   14,
                                   9,
                                   10,
                                   tzinfo=timezones.ISREAL_SUMMER_TIMEZONE),
            title="פקיסטן: שמונה הרוגים בפיצוץ באוטובוס",
            link="https://news.walla.co.il/break/3448092",
            source="walla",
            author="רויטרס",
            description=
            "שמונה בני אדם נהרגו הבוקר (רביעי) בפיצוץ אוטובוס בצפון פקיסטן. בין ההרוגים, שישה מהנדסים תושבי סין. טרם ידוע מקור הפיצוץ.",
        ),
    ]

    items_actual = list(
        rss_sites.scrape("walla",
                         rss_source="tests/walla.xml",
                         fetch_html=fetch_html_walla))
    assert_all_equal(items_actual, items_expected)
    verify_cache(items_actual)
コード例 #6
0
def test_scrape_sanity_online_walla():
    next(rss_sites.scrape("walla"))
コード例 #7
0
def test_scrape_sanity_online_ynet():
    next(rss_sites.scrape("ynet"))