thesis-anne/Requester.py

'''
Requester
=========

retrieves JSON files from webhose.io
saves articles' relevant information in csv file
'''

#toDo: insert personal webhose key

import re
from datetime import datetime

import pandas as pd
import webhoseio

from CsvHandler import CsvHandler

class Requester:

    def save_articles_from_webhoseio():
        ''' create DataFrame of articles with
        Timestamp, Title, Text, SiteSection
        and then save it in csv target file
        '''
        datestring = datetime.strftime(datetime.now(), '%Y-%m-%d')
        filestring = 'download_articles_{}.csv'.format(datestring)

        # print message
        print('# retrieving articles from webhose.io')
        print('# ...')

        # personal API key
        webhoseio.config(token="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX")

        # webhose.io query
        # suboptimal: usage of search terms :-(
        query_params = {
            "q": "thread.title:(merger OR merges OR merge OR merged OR "
                 "acquisition OR \"take over\" OR \"take-over\" OR "
                 "\"takeover\" OR deal OR transaction OR buy OR sell OR "
                 "approval OR approve OR \"business combination\" OR "
                 "\"combined company\") "
                 "is_first:true "
                 "site_type:news "
                 "site:reuters.com "
                 "language:english "
                 "has_video:false",
            "ts": "1527411742661",
            "sort": "crawled"}

        output = webhoseio.query("filterWebContent", query_params)

        sum_posts = output['totalResults']
        print('# total sum of posts: ' + str(sum_posts))

        # 100 articles per batch (download)
        num_downloads = int(sum_posts / 100)
        print('# collecting first {} articles'.format(num_downloads * 100))
        print('# sorting out other sources than reuters')
        print('# ...')

        # twodimensional list of all articles
        list_articles = []

        for n in range(num_downloads):
            # save next 100 articles
            for i in range(100):
                # check if correct source 'reuters'
                if not re.search(r'reuters',
                                 output['posts'][i]['thread']['site_section']):
                    continue
                else:
                    article = []
                    article.append(output['posts'][i]['published'])
                    article.append(output['posts'][i]['title'].replace('|', ' '))
                    # remove white spaces and separators
                    text = output['posts'][i]['text'].replace('\n', ' ')\
                           .replace('\r', ' ').replace('|', ' ')
                    section = output['posts'][i]['thread']['site_section']
                    article.append(text)
                    # remove '\r' at end of some urls
                    section = section.replace('\r', '')
                    article.append(section)
                    # add article to list
                    list_articles.append(article)

            # Get the next batch of 100 posts
            output = webhoseio.get_next()

        # create DataFrame
        df = pd.DataFrame(data=list_articles,
                          columns=['Timestamp', 'Title', 'Text', 'SiteSection'])
        # save csv
        CsvHandler.write_csv(df, filestring)

    print('# starting requester')
    print('# ...')
    save_articles_from_webhoseio()
    print('# ending requester')
added new files 2018-09-07 12:16:47 +00:00			`'''`
			`Requester`
			`=========`

			`retrieves JSON files from webhose.io`
			`saves articles' relevant information in csv file`
			`'''`

			`#toDo: insert personal webhose key`

			`import re`
			`from datetime import datetime`

			`import pandas as pd`
added requirements and some things 2018-09-17 12:47:50 +00:00			`import webhoseio`
added new files 2018-09-07 12:16:47 +00:00
added requirements and some things 2018-09-17 12:47:50 +00:00			`from CsvHandler import CsvHandler`
added new files 2018-09-07 12:16:47 +00:00
			`class Requester:`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`def save_articles_from_webhoseio():`
			`''' create DataFrame of articles with`
			`Timestamp, Title, Text, SiteSection`
			`and then save it in csv target file`
			`'''`
			`datestring = datetime.strftime(datetime.now(), '%Y-%m-%d')`
			`filestring = 'download_articles_{}.csv'.format(datestring)`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`# print message`
			`print('# retrieving articles from webhose.io')`
callable scripts 2018-09-17 19:16:19 +00:00			`print('# ...')`

added new files 2018-09-07 12:16:47 +00:00			`# personal API key`
added requirements and some things 2018-09-17 12:47:50 +00:00			`webhoseio.config(token="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX")`
added new files 2018-09-07 12:16:47 +00:00
added requirements and some things 2018-09-17 12:47:50 +00:00			`# webhose.io query`
added new files 2018-09-07 12:16:47 +00:00			`# suboptimal: usage of search terms :-(`
			`query_params = {`
			`"q": "thread.title:(merger OR merges OR merge OR merged OR "`
			`"acquisition OR \"take over\" OR \"take-over\" OR "`
			`"\"takeover\" OR deal OR transaction OR buy OR sell OR "`
			`"approval OR approve OR \"business combination\" OR "`
			`"\"combined company\") "`
			`"is_first:true "`
			`"site_type:news "`
			`"site:reuters.com "`
			`"language:english "`
			`"has_video:false",`
			`"ts": "1527411742661",`
			`"sort": "crawled"}`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`output = webhoseio.query("filterWebContent", query_params)`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`sum_posts = output['totalResults']`
			`print('# total sum of posts: ' + str(sum_posts))`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`# 100 articles per batch (download)`
added requirements and some things 2018-09-17 12:47:50 +00:00			`num_downloads = int(sum_posts / 100)`
added new files 2018-09-07 12:16:47 +00:00			`print('# collecting first {} articles'.format(num_downloads * 100))`
			`print('# sorting out other sources than reuters')`
callable scripts 2018-09-17 19:16:19 +00:00			`print('# ...')`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`# twodimensional list of all articles`
			`list_articles = []`

			`for n in range(num_downloads):`
			`# save next 100 articles`
added requirements and some things 2018-09-17 12:47:50 +00:00			`for i in range(100):`
added new files 2018-09-07 12:16:47 +00:00			`# check if correct source 'reuters'`
added requirements and some things 2018-09-17 12:47:50 +00:00			`if not re.search(r'reuters',`
added new files 2018-09-07 12:16:47 +00:00			`output['posts'][i]['thread']['site_section']):`
			`continue`
			`else:`
			`article = []`
			`article.append(output['posts'][i]['published'])`
			`article.append(output['posts'][i]['title'].replace('\|', ' '))`
			`# remove white spaces and separators`
added requirements and some things 2018-09-17 12:47:50 +00:00			`text = output['posts'][i]['text'].replace('\n', ' ')\`
			`.replace('\r', ' ').replace('\|', ' ')`
added new files 2018-09-07 12:16:47 +00:00			`section = output['posts'][i]['thread']['site_section']`
			`article.append(text)`
			`# remove '\r' at end of some urls`
added requirements and some things 2018-09-17 12:47:50 +00:00			`section = section.replace('\r', '')`
added new files 2018-09-07 12:16:47 +00:00			`article.append(section)`
			`# add article to list`
			`list_articles.append(article)`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`# Get the next batch of 100 posts`
			`output = webhoseio.get_next()`
added requirements and some things 2018-09-17 12:47:50 +00:00
added new files 2018-09-07 12:16:47 +00:00			`# create DataFrame`
added requirements and some things 2018-09-17 12:47:50 +00:00			`df = pd.DataFrame(data=list_articles,`
added new files 2018-09-07 12:16:47 +00:00			`columns=['Timestamp', 'Title', 'Text', 'SiteSection'])`
			`# save csv`
callable scripts 2018-09-17 19:16:19 +00:00			`CsvHandler.write_csv(df, filestring)`

			`print('# starting requester')`
			`print('# ...')`
			`save_articles_from_webhoseio()`
			`print('# ending requester')`