Web mining of firm websites : a framework for web scraping and a pilot study for Germany


Kinne, Jan ; Axenbeck, Janna


[img]
Vorschau
PDF
dp18033.pdf - Veröffentlichte Version

Download (4MB)

URL: https://ub-madoc.bib.uni-mannheim.de/46518
URN: urn:nbn:de:bsz:180-madoc-465189
Dokumenttyp: Arbeitspapier
Erscheinungsjahr: 2018
Titel einer Zeitschrift oder einer Reihe: ZEW Discussion Papers
Band/Volume: 18-033
Ort der Veröffentlichung: Mannheim
Sprache der Veröffentlichung: Englisch
Einrichtung: Sonstige Einrichtungen > ZEW - Leibniz-Zentrum für Europäische Wirtschaftsforschung
MADOC-Schriftenreihe: Veröffentlichungen des ZEW (Leibniz-Zentrum für Europäische Wirtschaftsforschung) > ZEW Discussion Papers
Fachgebiet: 330 Wirtschaft
Fachklassifikation: JEL: O30 , C81 , C88,
Freie Schlagwörter (Englisch): Web mining , web scraping , R&D , R&I , STI , innovation , indicators , text mining
Abstract: Nowadays, almost all (relevant) firms have their own websites which they use to publish information about their products and services. Using the example of innovation in firms, we outline a framework for extracting information from firm websites using web scraping and data mining. For this purpose, we present an easy and free-to-use web scraping tool for large-scale data retrieval from firm websites. We apply this tool in a large-scale pilot study to provide information on the data source (i.e. the population of firm websites in Germany), which has as yet not been studied rigorously in terms of its qualitative and quantitative properties. We find, inter alia, that the use of websites and websites’ characteristics (number of subpages and hyperlinks, text volume, language used) differs according to firm size, age, location, and sector. Web-based studies also have to contend with distinct outliers and the fact that low broadband availability appears to prevent firms from operating a website. Finally, we propose two approaches based on neural network language models and social network analysis to derive firm-level information from the extracted web data.




Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen