Wikipedia Qualität

From Wikipedia Quality
Revision as of 18:33, 16 November 2018 by Professor (talk | contribs) (Created page with "== Data Mining == Um solche Modelle zu bauen, können Sie verschiedene Algorithmen verwenden, insbesondere Data Mining. Einer der am häufigsten verwendeten Algorithmen – Ra...")
Jump to: navigation, search
Other languages:
Deutsch • ‎English • ‎español • ‎français • ‎polski • ‎русский
Willkommen bei Wikipedia Qualität,
Portal zu Konzepten, Forschungen und Dienstleistungen im Zusammenhang mit der Qualitätsbewertung der Mehrsprachigkeit Wikipedia.
Artikel zählen: 6.470
Anzahl der Wissenschaftler in jedem Land, die Forschung über die Wikipedia-Qualität.

Trotz der Tatsache, dass Wikipedia wegen seiner schlechten Qualität oft kritisiert wird, ist es immer noch eine der beliebtesten Wissensgrundlagen der Welt. Derzeit liegt diese Online-Enzyklopädie auf dem 5. Platz im Ranking der meistbesuchten Seiten (nach Google, Youtube, Facebook, Baidu). Artikel in dieser Enzyklopädie werden in etwa 300 verschiedenen Sprachen erstellt und bearbeitet. Derzeit enthält Wikipedia mehr als 48 Millionen Artikel zu verschiedenen Themen und Sprachen.

Jeden Tag wächst die Zahl der Artikel in Wikipedia. Sie können auch von anonymen Nutzern erstellt und bearbeitet werden. Die Autoren müssen ihre Fähigkeiten, ihre Ausbildung und ihre Erfahrungen in bestimmten Bereichen nicht formell unter Beweis stellen. Wikipedia hat weder eine zentrale Redaktion noch eine Gruppe von Gutachtern, die alle neuen und bestehenden Texte umfassend überprüfen könnten. Aus diesen und anderen Gründen kritisieren die Menschen oft das Konzept von Wikipedia, insbesondere den Hinweis auf die schlechte Informationsqualität.

Trotzdem findet man in Wikipedia manchmal wertvolle Informationen – je nach Sprachversion und Thema. Praktisch in jeder Sprachversion gibt es ein System von Auszeichnungen für die besten Artikel. Die Zahl dieser Artikel ist jedoch relativ gering (weniger als ein Prozent). In einigen Sprachversionen gibt es auch andere Qualitätsstufen. Die überwiegende Mehrheit der Artikel ist jedoch nicht ausgewertet worden (in einigen Sprachen mehr als 99%).

Automatische Qualitätsbewertung von Wikipedia-Artikeln

So haben viele Artikel in Wikipedia keine Qualitätsqualitäten, daher sollte jeder Leser seinen Inhalt manuell analysieren. Die automatische Qualitätsbewertung von Wikipedia-Artikeln ist in der wissenschaftlichen Welt bekannt und weit verbreitet-Forscher aus über 50 Ländern veröffentlichten verschiedene Arbeiten zur Qualität von Wikipedia. Im Grunde beschreiben die wissenschaftlichen Arbeiten die am weitesten entwickelte Sprachversion von Wikipedia – Englisch, die bereits mehr als 5,5 Millionen Artikel enthält.

Wikipedia Qualität

Seit seiner Gründung und mit der wachsenden Popularität von Wikipedia haben immer mehr wissenschaftliche Publikationen zu diesem Thema veröffentlicht. Eine der ersten Studien zeigte, dass die Messung des Inhaltsvolumens helfen kann, den Grad der "Reife" des Wikipedia-Artikels zu bestimmen. Werke in diese Richtung zeigen, dass in der Regel höherwertige Artikel lang sind, viele Referenzen verwenden, von Hunderten von Autoren bearbeitet werden und Tausende von Ausgaben haben.

Wie kommen sie zu solchen Schlussfolgerungen? Einfach ausgedrückt: Gute und schlechte Artikel vergleichen.

Wie bereits erwähnt, gibt es in fast jeder Sprachversion von Wikipedia ein System zur Bewertung der Qualität von Artikeln. Die besten Artikel werden auf besondere Weise prämiert – erhalten sie ein spezielles "Abzeichen". In der russischen Wikipedia werden solche Artikel "Featured Articles" (FA) genannt. Es gibt noch ein weiteres "Abzeichen" für Artikel, die etwas unter den besten liegen – "Gute Artikel" (GA). In einigen Sprachversionen gibt es andere Schätzungen für "schwache" Artikel. Zum Beispiel gibt es im Englischen Wikipedia auch: A-Klasse, B-Klasse, C-Klasse, Start, Stub. Auf der anderen Seite in der russischen Wikipedia können wir die folgenden zusätzlichen Noten: Solid, Full, Developed, In Development, Stub.

Selbst am Beispiel der englischen und russischen Version können wir feststellen, dass die Standards für die Sortierskala unterschiedlich sind und von der Sprache abhängen. Darüber hinaus haben nicht alle Sprachversionen von Wikipedia ein so entwickeltes System der Qualitätsbewertung von Artikeln. So verwendet die deutsche Wikipedia, die mehr als 2 Millionen Artikel enthält, nur zwei Schätzungen – Äquivalente für FA und GA. Daher werden die Einschätzungen in wissenschaftlichen Arbeiten oft in zwei groups:[1][2][3][4][5][6][7][8]

  • "Complete" – FA und GA-Note,
  • "Incomplete" – alle anderen Sorten zusammengefasst.

Nennen wir diese Methode "binary" (1 - Vollständige Artikel, 0 - Unvollständige Artikel). Diese Trennung "verwischt" natürlich die Grenzen zwischen den einzelnen Klassen, aber sie ermöglicht es, Qualitätsmodelle für verschiedene Sprachversionen von Wikipedia zu erstellen und zu vergleichen.

Data Mining

Um solche Modelle zu bauen, können Sie verschiedene Algorithmen verwenden, insbesondere Data Mining. Einer der am häufigsten verwendeten Algorithmen – Random Forest [1][2][3][4][6][7][8][5]. Es gibt sogar Studien[4], die es mit anderen Algorithmen vergleichen (CART, SMO, Multilayer Perceptron, LMT, C4.5, C5.0 und andere). Random Forest erlaubt es, Modelle zu erstellen, auch mit Variablen, die miteinander korrelieren. Zusätzlich kann dieser Algorithmus zeigen, welche Variablen für die Bestimmung der Qualität von Artikeln wichtiger sind. Wenn wir andere Informationen über die Bedeutung von Variablen erhalten müssen, können wir andere Algorithmen verwenden, einschließlich der logistischen Regression.[9]

The results show that there are differences between article quality models in different language versions of Wikipedia.[1][2][3][4] So, if in one language version one of the most important parameters is the number of references (sources), in another language will be more important the number of images and the length of the text.

In this case, the quality is modeled as the probability of referring an article to one of two groups – Complete or Incomplete. The conclusion is made on the basis of analysis of various parameters (metrics): the length of the text[10][11][12][13][14][15], the number of references[16][17][18][19], images[20][21], sections[22][23], links to the article, the number of facts[7][24], visits, the number of editions and many others. There are also a number of linguistic parameters,[6][8] which depend on the considered language. Also it can be taken into the account measures that shows number of the links from external sources, such as Reddit, Facebook, Youtube, Twitter, Linkedin, VKontakte and other social services.[25]

Currently, in total, more than 300 parameters (or measures) are used in studies, depending on the language version of Wikipedia and the complexity of the quality model. Some parameters, such as references (sources), can be evaluated additionally[26] – we can not only count the quantity, but also assess how well-known and reliable sources are used in the Wikipedia article.

Where to get these parameters?

There are several sources – it can be a backup copy of Wikipedia, API service, special tools and others.[27]

To get some parameters, you just need to send a request (query) to the appropriate API, for other parameters (especially linguistic ones) you need to use special libraries and parsers. A considerable part of the time, however, is spent writing your own tools (we’ll talk about this in separate articles).

Are there other ways for quality assessing of Wikipedia articles other than binary?

Yes. Recent studies[28][29] propose the method for estimating articles on a scale from 0 to 100 in a continuous scale. Thus, an article can receive, for example, an estimate of 54.21. This method has been tested in 55 language versions. The results are available on the WikiRank service, which allows you to evaluate and compare the quality and popularity of Wikipedia articles in different languages. The method, of course, is not ideal, but works for locally known topics.[29]

Are there ways of assessing the quality of some part of Wikipedia article?

Of course. For example, one of the important elements of the article is the so-called “infobox”. This is a separate frame (table), which is often located at the top right of the article and shows the most important facts about the subject. So, there is no need to look for this information in the text – you can just look at this table. Evaluation of the quality of these infoboxes is devoted to individual studies.[2][30] There are also projects, such as Infoboxes.net, which allow you to automatically compare the infoboxes in different language versions.

Why do we need all this?

Wikipedia is used often, but the information quality is not always checked. The proposed methods can simplify this task – if the article is bad, then the reader, knowing this, will be more careful in using its materials for decision making. On the other hand, the user can also see in which language the topic of interest is described better. And most importantly, modern techniques allow you to transfer information between different language versions. This means that you can automatically enrich the weak versions of Wikipedia with high-quality data from other language versions.[31] This will also improve the quality of other semantic databases, for which Wikipedia is the main source of information. First of all, this is – DBpedia, Wikidata, YAGO2 and others.

References

  1. 1.0 1.1 1.2 Lewoniewski, W., Węcel, K., Abramowicz, W. (2016). Quality and Importance of Wikipedia Articles in Different Languages. In International Conference on Information and Software Technologies (pp. 613-624). Springer International Publishing.
  2. 2.0 2.1 2.2 2.3 Węcel, K., Lewoniewski, W. (2015). Modelling the Quality of Attributes in Wikipedia Infoboxes. In International Conference on Business Information Systems (pp. 308-320). Springer International Publishing.
  3. 3.0 3.1 3.2 Lewoniewski, W., Węcel, K., Abramowicz, W. (2015). Analiza porównawcza modeli jakości informacji w narodowych wersjach Wikipedii. Prace Naukowe/Uniwersytet Ekonomiczny w Katowicach, 133-154.
  4. 4.0 4.1 4.2 4.3 Lewoniewski, W., Węcel, K., Abramowicz, W. (2017), Comparative analysis of classification models for quality assessment of Wikipedia articles, Matematyka i informatyka na usługach ekonomii, Wydawnictwo UEP Poznań, ISBN 9788374179386
  5. 5.0 5.1 Warncke-Wang, Morten, Dan Cosley, and John Riedl. Tell Me More: An Actionable Quality Model for Wikipedia. Proceedings of the 9th International Symposium on Open Collaboration. ACM, 2013.
  6. 6.0 6.1 6.2 Khairova, N., Lewoniewski, W., Węcel, K. (2017). Estimating the Quality of Articles in Russian Wikipedia Using the Logical-Linguistic Model of Fact Extraction. In International Conference on Business Information Systems (pp. 28-40). Springer, Cham.
  7. 7.0 7.1 7.2 Lewoniewski, W., Khairova, N., Węcel, K., Stratiienko, N., & Abramowicz, W. (2017). Using Morphological and Semantic Features for the Quality Assessment of Russian Wikipedia. In International Conference on Information and Software Technologies (pp. 550-560). Springer, Cham. DOI: 10.1007/978-3-319-67642-5_46
  8. 8.0 8.1 8.2 Lewoniewski, W., Wecel, K., Abramowicz, W. (2017). Determining Quality of Articles in Polish Wikipedia Based on Linguistic Features.
  9. Lamek, A., Lewoniewski, W. (2017), Zastosowanie regresji logistycznej w ocenie jakości informacji na przykładzie Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.3
  10. Blumenstock, J.E.: Automatically Assessing the Quality of Wikipedia Articles. Tech. rep. (2008)
  11. Conti, R., Marzini, E., Spognardi, A., Matteucci, I., Mori, P., Petrocchi, M.: Maturity Assessment of Wikipedia Medical Articles. In: Computer-Based Medical Systems (CBMS), 2014 IEEE 27th International Symposium on. pp. 281-286. IEEE (2014)
  12. Yaari, E., Baruchson-Arbib, S., Bar-Ilan, J.: Information Quality Assessment of Community Generated Content: A User Study of Wikipedia. Journal of Information Science 37(5), 487-498 (2011)
  13. Dang, Q.V., Ignat, C.L.: Measuring Quality of Collaboratively Edited Documents: The Case of Wikipedia. In: Collaboration and Internet Computing (CIC), 2016 IEEE 2nd International Conference on. pp. 266-275. IEEE (2016)
  14. Shen, A., Qi, J., Baldwin, T.: A hybrid model for quality assessment of wikipedia articles. In: Proceedings of the Australasian Language Technology Association Workshop 2017. pp. 43-52 (2017)
  15. Zhang, S., Hu, Z., Zhang, C., Yu, K.: History-based article quality assessment on wikipedia. In: Big Data and Smart Computing (BigComp), 2018 IEEE International Conference on. pp. 1-8. IEEE (2018)
  16. Warncke-Wang, M., Ayukaev, V. R., Hecht, B., & Terveen, L. G. (2015). The Success and Failure of Quality Improvement Projects in Peer Production Communities. In Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing (pp. 743-756). ACM.
  17. Soonthornphisaj, N., & Paengporn, P. (2017). Thai Wikipedia Article Quality Filtering Algorithm. In Proceedings of the International MultiConference of Engineers and Computer Scientists (Vol. 1).
  18. Dalip, D.H., Gonçalves, M.A., Cristo, M., Calado, P.: Automatic Quality Assessment of Content Created Collaboratively by Web Communities: A Case Study of Wikipedia. In: Proceedings of the 9th ACM/IEEE-CS Joint Conference on Digital Libraries. pp. 295-304 (2009).
  19. di Sciascio, C., Strohmaier, D., Errecalde, M., Veas, E.: Wikilyzer: interactive information quality assessment in wikipedia. In: Proceedings of the 22nd International Conference on Intelligent User Interfaces. pp. 377-388. ACM (2017)
  20. Wu, K., Zhu, Q., Zhao, Y., Zheng, H.: Mining the Factors Affecting the Quality of Wikipedia Articles. In: Information Science and Management Engineering (ISME), 2010 International Conference of. vol. 1, pp. 343-346. IEEE (2010)
  21. Liu, J., Ram, S.: Using Big Data and Network Analysis to Understand Wikipedia Article Quality. Data & Knowledge Engineering (2018)
  22. Blumenstock, J.E.: Size Matters: Word Count as a Measure of Quality on Wikipedia‎. In: WWW. pp. 1095-1096 (2008).
  23. Lerner, J., Lomi, A.: Knowledge Categorization Affects Popularity and Quality of Wikipedia Articles‎. PloS one 13(1), e0190674 (2018)
  24. Lex, Elisabeth, Michael Voelske, Marcelo Errecalde, Edgardo Ferretti, Leticia Cagnina, Christopher Horn, Benno Stein, and Michael Granitzer. Measuring the Quality of Web Content Using Factual Information‎. In Proceedings of the 2nd joint WICOW/AIRWeb workshop on web quality, pp. 7-10. ACM, 2012.
  25. Lewoniewski, W., Härting, R. C., Wecel, K., Reichstein, C., Abramowicz, W. (2018). Application of SEO Metrics to Determine the Quality of Wikipedia Articles and Their Sources. In International Conference on Information and Software Technologies (pp. 139-152). Springer, Cham
  26. Lewoniewski, W., Węcel, K., Abramowicz, W., (2017), Analysis of References Across Wikipedia Languages. Information and Software Technologies. ICIST 2017. DOI: 10.1007/978-3-319-67642-5_47
  27. Lewoniewski, W., Węcel, K., (2017), Cechy artykułów oraz metody ich ekstrakcji na potrzeby oceny jakości informacji w Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.7
  28. Lewoniewski, W., Węcel, K., Abramowicz, W. (2017). Relative Quality and Popularity Evaluation of Multilingual Wikipedia Articles. In Informatics (Vol. 4, No. 4, p. 43). Multidisciplinary Digital Publishing Institute. DOI: 10.3390/informatics4040043
  29. 29.0 29.1 Lewoniewski, W., Węcel, K. (2017). Relative Quality Assessment of Wikipedia Articles in Different Languages Using Synthetic Measure. In International Conference on Business Information Systems (pp. 282-292). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_24
  30. Lewoniewski, W. (2017). Completeness and Reliability of Wikipedia Infoboxes in Various Languages. In International Conference on Business Information Systems (pp. 295-305). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_25
  31. Lewoniewski, W. (2017). Enrichment of Information in Multilingual Wikipedia Based on Quality Analysis. In International Conference on Business Information Systems (pp. 216-227). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_19