Hantering, organisering och lagring av forskningsdata
Tanken med denna sida är att du ska hitta svar på några vanliga frågor kring hantering av forskningsdata.
Hur data kan organiseras på lämpligt sätt, hur du rent praktiskt ska hantera data och en del om vad du får och inte får göra.
I hanteringen av forskningsmaterial brukar det uppstå en hel del mindre praktiska frågor, och listan med vanliga frågor är tänkt att besvara en del av dessa. Det finns också en hel del mer allmänna aspekter som kan vara värda att lära sig mer om.
Datahanteringsplaner
Det har blivit vanligare vid ansökan om forskningsmedel att så kallade datahanteringsplaner efterfrågas. Så här skriver Svensk nationell datatjänst (SND, se länk i högermarginalen) om datahanteringsplaner:
"En datahanteringsplan, eller data management plan (DMP), är ett dokument som samlar information om datahanteringen i ett forskningsprojekt. Planen täcker projektets alla faser, från planering och insamling, skapande, eller generering av data, till analys, publicering och arkivering. Tanken är att du börjar skriva på datahanteringsplanen i samband med att du söker forskningsmedel eller planerar projektet och sedan utvecklar den allt eftersom olika behov uppstår. Du kan även påbörja en plan för ett projekt som du är mitt inne i. Exakt vad planen innehåller beror på ditt forskningsämne och projektets natur. Tanken är att datahanteringsplanen är ett ”levande” dokument som hålls uppdaterat genom hela projektet."
Att sätta ihop en DMP kan vara rätt krävande, men när den är på plats är tanken att det dokumentet ska göra det lättare för både dig själv och andra att fortsätta arbeta med materialet. SND har som stöd för framtagandet av dessa DMP en del material, bland annat en checklista.
Ska forskningsdata delas eller göras tillgängligt?
Begreppet "öppen vetenskap" har fått allt större spridning, och det omfattar bland annat en ambition att forskningsdata ska göras tillgängligt i bredare kretsar. För de flesta forskarna inom kliniska områden är det inte möjligt att tillgängliggöra data helt öppet eftersom det handlar om patientuppgifter, men för exempelvis forskning inom genetik är publicering av data ofta en självklarhet eller till och med ett krav från tidskrifterna. Många tidskrifter har också krav på att du ska beskriva om och hur data ska tillgängliggöras.
Grundregeln när det handlar om patientuppgifter är att data inte kan tillgängliggöras på så vis att fil med data läggs ut öppet. Det som däremot går att göra är att beskriva hur intresserade kan få ta del av materialet. Ett sätt är att ta fram en beskrivning som sedan läggs in i SND:s katalog, men det förekommer också att forskargrupper har egna webbplatser där det framgår hur andra forskare kan göra för att ansöka om att få ta del av material. Hur detta ska hanteras beror på de aktuella omständigheterna, men vår ambition är att lära oss mer för att i bästa fall kunna ge exempel på hur detta kan hanteras och formuleras. Har du egna frågor, hör gärna av dig så hjälper vi till, vilket också blir ett tillfälle för oss att lära oss mer.
FAIR-principerna för data
En rörelse i forskarvärlden argumenterar för att forskningsdata ska hanteras enligt en uppsättning principer som fått akronymen FAIR: F för findable, A för accessible, I för interoperable och R för Reusable. Om datamaterial lagras enligt dessa principer så ska de ges identifierande information som kan katalogiseras, de ska kunna nås, de ska kunna öppnas i tillgänglig programvara och det ska gå att förstå vad materialet innehåller. I vilken mån denna ambition slår igenom återstår ännu att se, men även om du inte går hela vägen så är det i mångt och mycket eftersträvansvärda egenskaper.
För att ta några typsituationer där datamaterial inte har utformats enligt FAIR-principerna:
- Variabler har inte försetts med förklaringar av vad som mäts eller vilken enhet värde kommer i.
- Koder har inte förklarats
- Data har sparats i ett visst program som inte längre finns att tillgå, eller i en programversion som inte används och som inte kan öppnas i senare versioner
- Information om projektet och datamaterialet finns inte tillgängligt någonstans, så de som är intresserade av att se mer kan inte hitta till materialet eller till dig
En lämplig utgångspunkt är den struktur som beskrivs i en artikel av Eloranta et al, det vill säga fyra huvudmappar:
- Data
- Dokument
- Program/syntax
- Resultat
I dessa huvudmappar kan sedan delmappar läggas upp efter tycke och smak.
I de mappar där du lägger material, gärna oavsett om det är data eller andra slags dokument, lägg gärna in en enkel ”readme”-fil, kan skapas med Anteckningar eller liknande program. Den får gärna vara en ren textfil för att det ska vara lätt att öppna i flera system och inte beroende av en viss version av Word eller motsvarande. I den filen kan du ge korta beskrivningar av mappens innehåll.
Här finns det inga givna regler, men några vanliga rekommendationer är att göra det enkelt. Ett typiskt råd är att du ska använda gemener i namnen så att det inte blir problem i bearbetning och analys för att programmet skiljer på gemener och versaler.
Oavsett hur du sätter variabelnamn torde det vara viktigt att se till att antingen dessa namn eller etiketter (”labels”) för variablerna ges i klartext.
Detta är förstås en fråga om tycke och smak, men ett knep som många använder är att när nya datafiler skapas så sätts datum in som del av namnet. Det ger i slutändan många filer, men de flesta kan rensas bort och risken att det något allvarligt fel görs blir mindre.
Det är rätt vanligt att filer som är tänkt att vara slutgiltiga får ett tillägg av typen "...clean" eller "slutgiltig", men det kan inte rekommenderas. För det är sällan en fil verkligen är slutgiltig. Det upptäcks fel, eller så tillkommer nya variabler. Enklare och bättre är att lägga till datum för senaste bearbetningen som föreslås ovan. Tar du den senaste så vet du att den innehåller alla korrigeringar och tillägg.
Ett annat sätt är att göra alla ändringar och tillägg med syntax utifrån en och samma datafil, vilket betyder att nya datafiler inte behöver skapas alls. Med syntax-fil öppnas grundfil, följt av ändringar och bearbetningar, vilket betyder att du bara har en datafil. Då är det dock bra att spara syntaxfiler med senaste datum i namnet.
Det finns andra mer utarbetade förslag, se litteraturlistan, men oavsett vilket sätt du väljer är det förstås en poäng att vara någorlunda konsekvent.
Förutom att förklaringar till variabler och koder är bra att ha i det egna arbetet är det också viktigt att ha sådana förklaringar för eventuell framtida användning. Omvänt kan man också säga att utan bra förklaringar kan data visa sig omöjligt att använda i framtiden. Så att skapa en ”kodbok”, dvs en slags uppslagsbok med detaljer om datamaterialet är ett bra hjälpmedel. Det finns flera sätt att göra en sådan:
- För dig som använder SPSS finns flera funktioner inbyggda i programmet, se Analyze/Reports/Codebook.
- För dig som använder Excel kan till exempel Colectica for Excel installeras som ger en tilläggsmeny i Excel. Det tillägget har vi i skrivande stund inte i någon uppdaterad form bland de program som kan installeras på regiondatorer, men det kan ordnas, så säg till om det blir aktuellt.
- Det går förstås också att samla informationen i Word eller Excel, även om det blir en del manuellt arbete.
Kodböcker får gärna sparas i flera format – som SPSS-fil, pdf, Word, eller ren textfil – för att säkerställa att informationen ska kunna läsas senare.
En loggbok är ett bra hjälpmedel. Det kan vara en loggbok i form av anteckningsbok, eller så är det en elektronisk loggbok.
I loggboken ska du skriva så mycket som möjligt om vad du gör, men framförallt ändringar i datafiler: tillägg av nya variabler och hur dessa definierats, urval,…
Detta kan också göras i syntax-filer, eftersom det där går att lägga till förklarande kommentarer. Annorlunda uttryckt: även detta är ett skäl att använda syntax snarare än programmets menyer i första hand.
Ja, men det ska gå att motivera. Enligt GDPR är behandling av personnummer särskilt reglerat. Huvudprincipen är: behövs personnumret för att utföra/säkerställa arbetsuppgiften, till exempel säker identifiering med mera? I så fall är det möjligt, men om det går att undvika är det förstås lämpligt att ta bort personnummer. I GDPR framhävs att pseudonymisering av personuppgifter ska användas så långt som möjligt.
Pseudonymisering är en teknik för anonymisering av personlig information. Identitetsbeteckningen (till exempel namn eller personnummer) ersätts med en pseudonym eller ”nyckel” som inte enkelt kan knytas till personen. Pseudonymen/nyckeln kan knytas till personen genom extra information, såsom en förteckning över namn med tillhörande pseudonymer som förvaras avskilt.
Avidentifiering innebär att all information som kan identifiera en person tas bort.
Om du har en fil med personnummer eller annan identifierande variabel kan du först skapa en nyckel genom att lägga till en variabel som är unik för varje individ. I SPSS kan detta till exempel göras med Automatic Recode. Spara sedan identifierande variabel och nyckel tillsammans i egen fil. Den filen ska sparas på annan plats än datamaterialet.
I den fil där nyckel lagts till kan du sedan ta bort den identifierande variabeln. Om det senare visar sig att du måste koppla på den identifierande variabeln går det att lösa med s k matchning. Det finns rutiner för detta i SPSS, och om du inte känner att du är tillräckligt säker på hur detta fungerar, hör då av dig till FoU-enhetens statistiker.
Att avidentifiera ett material innebär att det ska vara omöjligt eller åtminstone väldigt svårt att avläsa vilka individer det handlar. Det betyder att du förstås måste ta bort personnummer och namn, men att det kan krävas mer. I ett litet patientmaterial med en ovanlig diagnos så kan det kanske gå att identifiera individer med hjälp av enkla bakgrundsvariabler som kön, ålder och hemkommun. Det finns dock ingen regel hur det ska göras, utan det beror på sammanhanget. Har du frågor, hör av dig FoU-enhetens statistiker.
Ja
Ja. I ledningssystemet under rubriken ”Föra register” (intern länk) beskrivs vad och hur detta ska göras, se särskilt instruktionerna i inledningen om hur du får länk till formulär för registrering.
Ansökan om att få användare till det system som används kan skickas till e-post informationssakerhet@norrbotten.se.
Ja, även anställdas namn räknas som personuppgifter, se föregående fråga.
Om alla inblandade är anställda inom regionen: ja. Lägg upp mappstruktur på N:.
Om det finns inblandade som inte är anställda inom regionen så blir det svårare. Det kanske kommer att finnas sådana tjänster framöver, men i dagsläget får vi hålla oss till tillgängliga molntjänster.
Där är det förstås viktigt att filer med personuppgifter inte lagras på sådana ytor. Detta gäller särskilt molntjänst med servrar utanför EU, och eftersom det kan vara svårt att veta vilka tjänster detta gäller är det en stark rekommendation att helt undvika molntjänster för lagring av personuppgifter.
En variant är att dela allt utom filer med personuppgifter i molntjänst. Manus, etikprövningsdokument med mera, kan förstås sparas på mindre säker yta, och så behåller berörda personer datafiler lokalt under säkrare former.
Det kan vara så att de du arbetar tillsammans med som jobbar inom annan organisation har licens på tjänst för krypterad filöverföring. Det finns flera sådana system, men Region Norrbotten har ingen sådan licens. Detta är förstås inget sätt att lagra filer, utan bara för filöverföring.
Mappar på N: kan anställda inom regionen komma åt direkt från dator i nätverket, men de kan även nås utifrån för den som kan ansluta till nätverket via VPN.
Det kommer andra lösningar på detta i och med övergången till Office 365, men de tekniska lösningarna eller rutiner för användningen är inte klara än.
Ska filer skickas till andra som arbetar i regionen är det bäst att undvika att skicka datafiler med e-post. En bättre lösning är att flytta filer tillfälligt till Filbrevlådan på N:.
Om andra berörda inte arbetar i regionen kan filer skickas med e-post om de är krypterade. Där ska förstås lösenord inte skickas tillsammans med fil. Använd istället annan kanal, till exempel SMS. Kryptering kan förstås användas även internt inom regionen.
IT/MT Stöd har procedurer för att du ska kunna göra detta själv, se Insidan/Service & stöd/IT/MT Direkt/Din arbetsplats/Datorer och lagring.(intern länk, regionens intranät) Kom ihåg att ange om ni är flera som ska ha tillgång till mappen. Detta går förstås att ändra senare.
Om filer är så stora att det blir svårt att rymma dem i Mina dokument eller i mapp på N: så finns det två vägar som dessutom kan kombineras:
- Komprimera filer
- Få hjälp av IT/MT Stöd med att ordna lagringsmedium som rymmer filerna
Det finns två sätt som ofta fungerar bra:
Din mottagare finns inom Region Norrbotten. Då kan du lägga fil i din mottagares mapp på N:\Filbrevlåda. Finns inte sådan namngiven mapp kan du skapa en. Där är det viktigt att båda parter förstår att detta är en tillfällig lagringsplats, så filer ska inte sparas där utan mappar där ska bara användas för att flytta filer.
Om din mottagare inte är anställd inom regionen ska du kryptera fil innan du skickar den. När den är krypterad kan den skickas med e-post eller läggas upp på webbplats för filöverföring. Sådan kryptering kan antingen göras med externt program för detta eller direkt i SPSS.
Det är förstås inte fel att kryptera filer som skickas till mottagare inom regionen heller.
Filer med patientuppgifter som skickas externt ska alltid vara krypterade. När du skickar filer internt kan de gärna vara krypterade.
Det finns några olika lösningar:
- Rena SPSS-filer kan med fördel krypteras i det programmet, och då kan mottagaren som fått lösenordet öppna den i SPSS på sin sida. Filer som krypterats i SPSS kan öppnas i dator med annat operativsystem.
- Filer kan krypteras i externt program. I nätverket har vi några olika system du kan få installerade, till exempel 7-zip som kan användas för att både komprimera och kryptera. Här finns det versioner för både Windows och Mac.
Det går även att kryptera USB-minnen, se avsnittet om just detta.
Det går också att lösenordsskydda Excel-filer direkt i Excel, men detta är inte kryptering och verkar inte uppfylla rimliga krav på säkerhet. Det är förstås ett visst skydd, så för internt bruk är det en fungerande lösning. Vid filöverföring till andra utanför regionen bör dock kryptering göras.
Oavsett hur kryptering gjorts är det förstås lämpligt att skicka lösenord i annan kanal än den som använts för filöverföring. Använd t ex sms om fil skickats med e-post.
Handlar det om regiondator, gå till Insidan/Service & stöd/IT/MT Direkt/Min arbetsplats, (intern länk regionens intranät) se länken IT Självservice under rubriken Applikationer. För installation på annan dator, googla på namnet på krypteringsprogram så hittar du säkert flera länkar.
Det är förstås tekniskt möjligt, men inte lämpligt. Minnen går sönder, och de kan försvinna. Det görs inte heller någon backup, så händer något med innehållet eller om du gör misstag så kan det bli svårt att rekonstruera det som försvunnit.
Det är alltså bättre är att spara material i nätverket. Det går att spara i ”Mina dokument”, men ännu bättre är det med mapp på N:. Det senare gör det lättare med underhållet av mappar och innehåll ifall IT/MT Stöd måste kopplas in.
Om du ändå vill använda USB-minne för lagring är det lämpligt att kryptera minnet. Det kan göras genom att använda BitLocker, se rubriken ”Kryptering av USB” på Insidan/Service & Stöd/IT/MT Direkt/Din arbetsplats. (intern länk, regionens intranät)
Det finns två sätt:
- Släng den som vanligt och se till att tömma papperskorgen, det senare genom att stå med markören på papperskorgen och med högerknapp välja ”Töm papperskorgen”.
- Stå med markören på filnamnet, hålla in Shift-knapp på tangentbordet, klicka med högerknapp och välj ”Ta bort”.
Tänk samtidigt på att eftersom det finns backup på filer sparade på servrar finns material kvar i ca 3 månader.
I skrivande stund är detta inte klart, men det ska redas ut. Tills vidare är beskedet att det inte behövs, men är det praktiskt hanterbart är det förstås lämpligt som extra skydd.
Om flera aktörer är inblandade i forskningen bör de teckna någon form av avtal om samarbetet där det klargörs vem som har äganderätt och nyttjanderätt till data i forskningen, personuppgiftsansvar med mera.
Kontakta strateg på FoU-enheten och/eller regionens jurist för att reda ut om det är aktuellt och hur det i så fall ska göras.
Om regionen är forskningshuvudman ska rådata - enkäter, datafiler,… - sparas i 10 år. Därefter kan handlingarna gallras. Verksamheten där forskaren är anställd är ansvarig för att handlingarna bevaras på ett lämpligt sätt i 10 år. Om verksamheten därefter vill att handlingarna ska sparas en längre tid än så kan handlingarna lämnas över till regionarkivet som då kan förvara handlingarna. Du kan läsa mer i Region Norrbottens dokumenthanteringsplan 2022.xlsx, se särskilt avsnitt 3.4.1 som behandlar regional forskningsverksamhet.
Enklast är att skanna in pappersmaterial i en vanlig kopiator/skrivare/skanner. Tänk igenom struktur så att den pdf-fil du får som resultat blir hanterbar. Är det många enkäter kanske de ska skannas in några i taget så att du får flera filer. Är det flera delar, exempelvis upprepade enkäter till deltagarna, kan det vara bättre att skanna så att varje deltagare får alla sina enkäter samlade i en egen fil. Oavsett lösning är det viktigt att du både tänker igenom strukturen och dokumenterar hur en viss enkät för en viss individ ska kunna tas fram.
Det kan kanske också vara möjligt att få hjälp av personal vid Regionarkivet, men det är då något ni får komma överens om efter att du kontaktat arkivet.
Ja. Det bör dock vara så att pdf-filer sparas i s k PDF/A-format, men det bör vara standard vid inskanningen.
I skrivande stund är detta inte helt utrett, svar kommer.
Målet bör vara att relevant material ska sparas på ett både säkert och tillgängligt sätt. Arbetsfiler kommer i de flesta fall inte att användas igen, men för säkerhets skull kan det vara bra att en del sådana filer sparas. Den största svårigheten torde vara dokumentationen: vad innehåller filerna i grova drag, vad betyder variabelnamnen?
Ett sätt att lösa detta är att bygga upp en struktur på N: som är förberedd för lagring av material från ett färdigt projekt. I den struktur som föreslås i föregående punkt kan mappen Data få en undermapp Arbetsfiler.
En sådan struktur skulle alltså kunna byggas redan innan projektet är avslutat, och material och tillhörande dokumentation kan läggas dit vartefter projektet fortskrider.
Rent praktiskt kan detta gå till på följande sätt:
- Du ser till att få en mapp skapad på N:
- Du samlar ditt material i den mappen, gärna med den struktur som föreslagits på annan plats i detta dokument.
I mappen lägger du in en fil med förklarande text av innehållet i mappen, vilket projekt materialet är kopplat till, vem som är ansvarig och korta förklaringar av filernas innehåll. Lägg också in den kodbok du skapat. Filen får gärna vara en ren textfil och namnges som "readme" eller liknande.
En datahanteringsplan, eller data management plan (DMP), är ett dokument som samlar information om datahanteringen i ett forskningsprojekt. Planen täcker projektets alla faser, från planering och insamling, skapande, eller generering av data, till analys, publicering och arkivering. VR och andra som finansierar forskning har i ökande grad lagt in en sådan plan som krav för tilldelning av medel.
Det finns ingen enkel mall för hur en DMP ska se ut, det beror på ämnesområde och projektets omfattning. Mer finns att läsa på bland annat SND:s webbplats.
Stöd i hur du använder dessa funktioner i SPSS och Excel kan du få av FoU-enhetens statistiker.
Svensk Nationell Datatjänst (SND)
Har mycket material om lagring och hantering av forskningsdata på sin webbplats.
Lärosätena har ofta egna sidor på sina webbplatser om hantering av forskningsdata, se exempelvis: umu.se och ltu.se (interna sidor)
- Broman, K. & Woo, K., Data Organization in Spreadsheets, The American Statistician, 2018, 72(1), 2-10.
- Collier J. Using SPSS syntax: a beginner's guide. Sage 2010.
- Eloranta S, Johansson AL, Kristinsson SY, Andersson TM. Att strukturera och dokumentera forskningsprojekt. Läkartidningen 2013;110(8):416-419.
- Long JS. The workflow of data analysis using Stata, Stata Press; 2009.
- Juul S. Take good care of your data, Århus universitet, 2004 .
Har du fler frågor du tycker hör hit men som inte besvarats här, hör då gärna av dig till FoU-enheten.
E-post: forskning@norrbotten.se.