Elokuussa julkaistussa blogissaan Gesund Partnersin analyytikko Waltteri Lemola mainitsi synteettisen datan tarjoaman potentiaalin esimerkiksi asiakaskokemuksen kehittämisessä. Oheisessa innovaatiojohtajamme Jarkon sekä vanhemman datatieteilijämme Niklaksen yhteisblogissa syvennytään tarkemmin synteettisen datan tarjoamiin mahdollisuuksiin sekä varsin tärkeään yksityisyysnäkökulmaan.
Millainen data on synteettistä?
Aluksi on hyvä ymmärtää perusasiat eli mistä synteettisessä datassa on kysymys. Synteettinen data tarkoittaa keinotekoisesti luotuja laajoja tietojoukkoja, jotka peilaavat alkuperäislähteen eli esimerkiksi potilastietojen tilastollista olemusta, noudattaen tiukkoja yksityisyysmääräyksiä. Se näyttää ja käyttäytyy kuten alkuperäinen data, mutta ilman mitään henkilökohtaisesti tunnistettavaa tietoa (HTT), turvattuja tietueita tai muita sensitiivisiä tietopisteitä.
Yksityisyyttä suojaavien ominaisuuksiensa vuoksi synteettinen data on erityisen hyödyllistä terveydenhuollossa, vakuutusalalla ja finanssipalveluissa, joissa asiakastiedon eettinen ja lainmukainen käyttö on pakollista. Synteettisen datan voidaan ennakoida nousevan esimerkiksi terveys- ja lääkealan toimijoiden väyläksi luoda laajoja, edustavia tietojoukkoja, jotka täsmällisesti peilaavat monipuolista potilaspopulaatiota. Tämä mahdollistaa entistä nopeampia ja tarkempia kliinisiä tutkimuksia.
Miten synteettisen datan yksityisyys varmistetaan?
Differentiaalinen yksityisyys (DY) on yksi lähestymistapa synteettisen datan yksityisyyden takaamiseksi. DY saavutetaan tekemällä satunnaisia pieniä muutoksia yksittäisiin rivitason tietoihin, jotka eivät muuta kiinnostavien aggregaattitilastojen arvoja. Näin ollen tietoja ei voida käyttää päätelmien tekemiseen yksittäisistä henkilöistä.
DY:n lisäksi on olemassa muitakin yksityisyyttä takaavia menetelmiä synteettisen datan luomisessa. Esimerkiksi DP-GAN tekoäly menetelmässä yksi ’generaattorimalli’ luo synteettisiä potilaita ja toinen ’erottelijamalli’ oppii tunnistamaan niitä aidoista potilaista. Mallien välinen kiista johtaa siihen, että ’generaattorimalli’ oppii luomaan realistisia synteettisiä potilaita.
Synteettinen data mahdollistaa yksilöllisyyttä ilman yksityisyyden vaarantamista
Yhteiskunnan resurssit ovat niukassa, mikä peräänkuuluttaa entistä tarkemmin kohdennetumpia palveluita ja vaikuttavampia resursointi- sekä investointipäätöksiä. Ajatellen esimerkiksi sote-alaa, päätöksenteon tarvitseman, riittävän kattavan ja yksilöllisen terveys- sekä hyvinvointiymmärryksen muodostaminen on kuitenkin usein hidasta. Tämä johtuu muun muassa tietojärjestelmien monimutkaisuudesta sekä korkeista, mutta luonnollisesti välttämättömistä yksityisyysvaatimuksista. Hitaus estää muun muassa TKI-toiminnassa ja tiedolla johtamisessa merkittävän potentiaalin hyödyntämistä.
Koska synteettisen datan luomisessa noudatetaan varsin tiukkoja yksityisyysmääräyksiä, tämä innovatiivinen lähestymistapa antaakin niin hyvinvointialueille kuin esimerkiksi terveys- ja lääkeyrityksille mahdollisuuden nopeuttaa TKI-prosesseja ja tarttua tiedolla johtamisen potentiaaliin aivan uudella tavalla.
Synteettisen datan edistämiseksi kannattaa hyödyntää pragmaattista, ketterää ja tarpeista lähtevää lähestymistä. Sen sijaan että tehtäisiin ”dataa datan vuoksi”, olisi aluksi ymmärrettävä riittävän kirkkaasti kehittämisen tavoite sekä millaisesta ilmiöstä puhutaan. ”Kokeilusta skaalaan” -hengessä tehty synteettisen datan käyttöönotto on myös hallittua ja tekeminen luo uutta arvoa heti ensi askeleelta.
Olethan matalalla kynnyksellä meihin yhteydessä, jos kirjoitus herätti ajatuksia. Olemme mieluusti tukena synteettisen datan ensiaskeleiden ottamisessa!
Hyvää alkanutta lokakuuta toivottaen,
Jarkko ja Niklas