Kas ir datu kolekcijas?

Datu kolekcijas jeb datu kopas ir vienotā struktūrā apvienoti dati un informācija par tiem, un ar mērķi padarīt šos datus atkārtoti izmantojamus. Parasti netiek domāts par sistemātisku datu organizēšanu. Pētnieki primāri veic pētījumu, nesekojot principiem, kā visiem materiāliem būtu jāizskatās – pārskatāmiem un atrodamiem, iespējamiem atkārtotai izmantošanai – kā vienotai materiāla struktūrai, kas ir ļoti būtisks aspekts pētniecības datu pārvaldības jautājumā.

Pat, ja datu kopas nav apjomīgas, ir ieteicams ņemt vērā sekojošus pieturpunktus:

Pētījuma pārskats, ietverot tēmu un finansējuma avotu;
Datu veidi un stadijas – narratīvā formā par datu kolekciju, iekļaujot datu tabulu, kurā uzskaitīti dati pēc apjoma, formāta un objektu daudzuma;
Intelektuālā īpašuma tiesības uz datiem;
Datu apraksts un organizēšana, ietverot izmantoto metadatu standartus;
Repozitorija izvēle;
Dalīšanās iespēja un piekļuve – kurš drīkst izmantot datus un ar kādu pamatojumu, ietverot jebkuru embargo perioda ievērošanas nepieciešamību;
Izplatīšana, ietverot mērķauditoriju;
Rīki - kādi izmantoti pētījuma veikšanas gaitā, kurus būtu nepieciešams izmantot arī interesentiem, kuri plāno atkārtoti izmantot datus;
Izmantojamības mērījumi / rādītāji – kādus mērījumus būtu vēlams ieplānot savākt, lai varētu gūt priekštatu par materiāla izmantošanas intensitāti;
Datu pārvaldība – praktiski jautājumi, ietverot informāciju par īstermiņa saglabāšanu, rezerves kopiju veidošanu un drošību;
Saglabāšana – kurus materiālus nepieciešams saglabāt ilgtermiņā un cik ilgu laiku.

Digitālie dati ir kontekstjūtīgi, tie zaudē savu būtību un nozīmi ārpus savas kolekcijas, ja netiek dokumentēti. Izklājlapa bez nosaukuma un atslēgas skaidrojuma kļūst bezjēdzīga. Konceptuāli svarīga ir izpratne par to, kā informatīvie objekti veidoti. Pētnieks, atkārtoti izmantojot datus, noteikti vēlēsies izprast kritisko nozīmi tam, kā dati tika ģenerēti, lai būtu pārliecināts par to atkārtotu izmantošanu atbilstošā aspektā.

Pētniecības datu kopu raksturošanai var izmantot arī Lielo datu (Big Data) piecu “V” principu:

Apjoms (Volume) – ir būtiski pārzināt radīto datu apjomu, lai to vieglāk spētu pārvaldīt, neatkarīgi no tā, cik daudz vai maz datu ir.
Daudzveidība (Variety) – norāda uz datu organizēšanas sarežģītību, mēdz būt projekti, kuros radītie dati tiek pētīti dažādos formātos.
Ātrums (Velocity) – dinamiskie dati jeb dati, kas iegūti no sensortipa vai interneta datu plūsmas satiksmes. Jāņem vērā, ka šādi dati veido daudz atvasinājumus, līdz ar to veidojas vairākas datu versijas. Dati mainās.
Patiesums (Veracity) – datu patiesums ir ļoti būtisks pētniekam, katrā nozarē tā būtība atšķiras, piemēram, valodniekam, iespējams, ļoti būtiski ir transkribēt pauzes intervijas transkripcijā. Citam, piemēram, svarīgi laicīgi pārbaudīt instrumentu, kas nolasa datus. Pats datu patiesuma modelis ir svarīgs saglabāšanai.
Vērtība (Value) – kamēr vieni dati ir neaizstājami (piemēram, mērījumi no kāda unikāla notikuma, pasākuma), tos nav iespējams savākt atkārtoti, tikmēr citi var tikt vākti atkārtoti.

Piecu (5) zvaigžņu atvērto datu modelis ir datu atvērtības novērtēšanas sistēma, ko izveidojis Tims Berners-Lī (Tim Berners-Lee), kas ir World Wide WEB dibinātājs. Lai sasniegtu maksimālo zvaigžņu skaitu, datiem ir nepieciešams būt (1) pieejamiem globālajā tīmeklī un licencētiem ar atvērtu licenci, (2) strukturētu datu formā, (3) nepatentētā (non-proprietary) datņu formātā, (4) tiem nepieciešams izmantot URL kā to identifikatoru, (5) ietvert saites uz citiem datu avotiem (saistītie dati – linked data). Lai datiem piešķirtu 3 zvaigznes, jāatbilst 1.-3. punktu prasībām utt.

★ dati pieejami globālajā tīmeklī, izmantojot jebkādu formātu un piešķirot atvērto licenci

Datu lietotājs var tos aplūkot, izdrukāt, saglabāt datu nesējā, arī jekurā citā sistēmā, izmainīt datus un dalīties ar tiem. Datu publiskotājam šādu formātu ir vienkārši publiskot un nav nepieciešams atkārtoti skaidrot, kā šie dati var tikt izmantoti, jo tiem ir piešķirta atbilstoša licence.

★★ dati pieejami strukturētā veidā (piemēram, Excel datnes formats attēla vietā)

Datu lietotājs uzreiz tiešā veidā, izmantojot atbilstošu patentētu programmatūru, var datus apstrādāt, veikt kalkulācijas utt. Datus iespējams eksportēt jebkurā citā strukturētā veidā.

★★★ dati pieejami, izmantojot nepatentētu atvērto datņu formātu (piemēram, CSV formāts Excel vietā)

Datu lietotājs var darboties ar datiem, neizmantojot patentētu programmatūru. Datu publiskotājam var būt nepieciešams izmantot datu pārveidotājus vai spraudņus, lai datus eksportētu no patentēta formāta.

★★★★ izmantoti vienotie resursu identifikatori (Uniform Resource Identificator – URI), lai dotu norādes vai sniegtu informāciju par resursu, tādā veidā dodot iespēju citiem interesentiem pareizi atsaukties uz šiem datiem

Datu lietotājs šos datus var sasaistīt ar citiem, tos var atzīmēt lietošanai vēlāk, var atkārtoti izmantot daļu no datiem, datiem var piemērot esošos rīkus, pat ja tie atpazīs tikai daļu no datu publiskotāja izmantotajiem rīkiem. Šos datus var kombinēt ar citiem. Datu publiskotājam būs nepieciešams organizēt URI pievienošanu dažādiem datu objektiem un pārdomāt to reprezentēšanu.

★★★★★ dati sasaistīti ar citiem, veidojot kontekstu

Datu lietotājam, izmantojot datus, ir iespēja atrast vairāk (saistītos) datus, tanī pašā laikā, iespējams, meklējumos sastapsies ar bojātām saitēm. Datu publiskotājam jāorganizē piekļuve datiem un iespējas tos atrast, tādējādi pievienojot vērtību saviem datiem. Būs nepieciešams investēt resursos, lai datus sasaistītu globālajā tīmeklī.

Atvērtā piekļuve

Sabiedriskā zinātne (Citizen Science)

Kas ir datu kolekcijas?