Datainnsamling for analyser av sosiale medier i en totalforsvarssammenheng – metoder og implikasjoner

Author
Rosvold, Gard-Inge
Bergh, Arild
Date Issued
2022-07-04
Keywords
Databaser
Datainnsamling
Datamaskinprogrammer
Datastruktur
Hybridkrigføring
Sosiale medier
Project number
22/00793
Permalink
http://hdl.handle.net/20.500.12242/3052
Collection
Rapporter
22-00793.pdf
Size: 2M
Abstract
Nasjonale trusselvurderinger i 2022 viser til en økning av statlige aktørers bruk av sosiale me-dier for å spre desinformasjon og utøve påvirkning for å skade demokratiske land. Det er også en markant økning i ikke-statlige aktørers bruk av sosiale medier til å spre feilinformasjon i for-bindelse med kriser som for eksempel covid-19-pandemien. Sammenstilling av informasjon fra sosiale medier som en del av det sammensatte trusselbildet er relevant for ansvarlige etater og myndigheter for Norges sikkerhet. Forsvarets forskningsinsti-tutts (FFIs) undersøkelser av problemstillinger relatert til sosiale medier, påvirkning og desinfor-masjon har fremhevet nødvendigheten av fleksible analyser som kan dekke dette behovet. Samtidig er det nødvendig å ha kunnskap om og forske videre på sosiale medier og sammen-satte trusler. Både operative analyser og forskning krever tilgang til relevante sosiale medier-data som kan studeres. Denne rapporten beskriver hvordan data kan samles inn fra sosiale medier. Rapporten har to målgrupper: i) de som har behov for dataanalyser (her kalt bestillere), og ii) de som gjennom ut-vikling eller administrasjon av databaser er ansvarlige for tekniske aspekter ved datainnsamling (her kalt utførere). Rapporten kan også være av interesse for andre som jobber med sosiale medier og sammensatte trusler. Fokuset i rapporten er på de tekniske og praktiske sider ved datainnsamling fra sosiale medier. Det er derfor utenfor denne rapportens rammer å diskutere spesifikke aktører og tilnærminger. For bestillere vil rapporten belyse praktiske problemstillinger. Spørsmålene man ønsker å få svar på ved å analysere data fra sosiale medier, vil påvirke mengden av data som skal samles inn. Her må man balansere kostnader, i form av tid og penger, med behovet for detaljnivået på analysene. Sosiale mediers relasjonelle natur er spesielt viktig å forstå. Det sentrale konseptet med venners venner og deres innlegg som kilde for informasjon fører til en mye større vekst i datamengden enn man kan anta, en såkalt eksponentiell økning. Det er utfordrende å gi et en-kelt svar på hvordan man skal foreta avveininger, så rapporten fokuserer på å synliggjøre problemstillingen og illustrere hvilke faktorer som må tas i betraktning. For utførere gir rapporten en detaljert beskrivelse av hvordan man kan utvikle programvare for datainnsamling fra sosiale medier. Funnene diskutert her er basert på en prototypedatainnsam-ler for YouTube som ble utviklet for å utforske relevante problemstillinger. Rapporten utforsker YouTube sitt programmeringsgrensesnitt (API) og hva den relasjonelle naturen betyr for data-innsamling. Sosiale medier-relasjoner diskuteres fra et utviklerperspektiv, spesielt med tanke på sosiale mediers kvoter for nedlasting av data, og hvordan det påvirker innsamlingsstrategier. Avslutningsvis drøfter rapporten mulighetene for å overføre tilnærmingene fra YouTube-prototy-pen til andre sosiale medier, og kommer med forslag til sanntids datainnsamlingsstrategier.
Recent national threat assessments have highlighted the increase in state actors' use of social media to disseminate disinformation and undertake influence operations to damage democratic countries. There is also a significant increase in non-governmental actors' use of social media to spread misinformation in connection with crises such as the Covid-19-pandemic. Authorities responsible for national security will therefore need to analyse data from social me-dia to create a situational awareness as part of a larger threat picture. The Norwegian Defence Research Establishment (FFI) investigations on issues related to social media-based influence operations and disinformation have highlighted the demand for flexible analyses to meet this need. At the same time, it is necessary to undertake further research on social media as a part of hybrid threats. Both operational analyses and research require access to relevant data for study from social media. This report describes how to collect data from social media. The target groups are: i) Those who require data analyses (here called the customer), and ii) those who, through development or ad-ministration of databases, are responsible for the technical aspects of data collection (here called the supplier). The report may also be of interest to others who work with social media and hybrid threats. The focus here is on the technical and practical aspects of data collection from social media. It is beyond the scope of this report to discuss specific disinformation and influ-ence operations issues such as actors or approaches. For the customer target group, practical considerations are explored. The questions one wants answered by analysing data from social media will affect the amount of data to be collected. Here one will have to balance costs, in terms of time and money, with the level of details an analysis requires. It is particularly important to understand the relational nature of social media. The key concept of friends' friends and their social media posts as a source for information leads to a steeper growth in the data size than one may assume, a so-called exponential in-crease. It is not possible to give a simple answer as to what trade-offs to make; instead, the re-port focuses on highlighting the issues and illustrates some factors to consider. For the supplier target group the report provides a detailed description of how data collection software can be developed. The findings discussed here are based on a prototype data collec-tor for YouTube that was designed to explore issues relevant to social media data collection. YouTube's programming interface (API) is explored and the relational character of social media and the implications it has for data collection are discussed from a developer's perspective. The effect of social media quotas on data downloads and overall collection strategies is considered. Finally, the report examines the possibilities of transferring the YouTube prototype approaches to other social media, as well as providing suggestions for real-time data collection strategies.
View Meta Data