Perustieteiden korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.
Väitös tietotekniikan alalta, DI Tuomas Kynkäänniemi
Väitös Aalto-yliopiston perustieteiden korkeakoulusta, tietotekniikan laitokselta.

Väitöskirjan nimi: Advances in Evaluation Metrics and Sampling Techniques for Generative Image Models
³Õä¾±³Ù³Ù±ð±ô¾±Âáä: Tuomas Kynkäänniemi
³Õ²¹²õ³Ù²¹±¹Ã¤¾±³Ù³ÙäÂáä: professori Jun-Yan Zhu, Carnegie Mellon University, USA
Kustos: professori Jaakko Lehtinen, Aalto-yliopiston perustieteiden korkeakoulu
Generatiivinen mallinnus on koneoppimisen osa-alue, jossa kehitetään malleja, jotka oppivat koulutusdatan jakauman, jolloin niillä pystytään tuottamaan uutta dataa, jota ei voida erottaa alkuperäisestä datasta. Generatiivinen mallinnus kattaa useita datatyyppejä, kuten kuvat, teksti, ääni ja 3D-muodot.
Tämä väitöskirja tutkii kuvia tuottavien, oppivien generatiivisten mallien laadunarviointi- ja näytteenottotekniikoita. Mallien ja sovellusten määrän kasvaessa laatumittarien suunnittelu on yhä tärkeämpää mallien paremmuusjärjestyksen määrittämiseksi, jotta mallien arkkitehtuuriin tai koulutusasetelmiin tehtyjen muutosten vaikutukset kuvajakaumaan voidaan tunnistaa.
Ensin analysoimme yleisesti käytettyä Fréchet Inception Distance (FID) -mittaria ja selvitämme, miksi sen avulla arvioitu mallien paremmuusjärjestys ja ihmisten tekemät arvioinnit saattavat poiketa toisistaan. Tämä tapahtuu tarkastelemalla FID:n herkkyyttä ImageNet-kuvajoukon luokille. Tämän analyysin ohessa arvioimme havaintojemme vaikutuksia synteettisten mallien laadunarviointiin. Tämän jälkeen esitämme mittarin, jolla voidaan erikseen arvioida synteettisten kuvien uskottavuutta ja monimuotoisuutta eksplisiittisten, ei-parametristen jakaumaesitysten avulla. Tämä mahdollistaa synteettisten kuvajakaumien kattavamman tarkastelun yhdessä olemassa olevien mittarien kanssa.
Diffuusiomallien kontekstissa tutkimme ohjausmenetelmää (Classifier-Free Guidance), joka on keskeinen tekijä näiden mallien menestyksessä. Analysoimme ohjauksen vaikutusta synteettiseen kuvajakaumaan, kun sitä käytetään eri vaiheissa näytteenottoprosessia. Havaintojemme mukaan ohjauksesta on hyötyä vain tietyllä kohinatasojen alueella, kun taas korkeilla kohinatasoilla se on haitallista ja matalilla kohinatasoilla tarpeetonta. Tämän havainnon pohjalta esittelemme ohjausvälin, jossa ohjausta käytetään valikoidusti vain tietyllä hyödyllisten kohinatasojen alueella. Menetelmämme saavutti julkaisuaikanaan FID-mittarilla mitattuna uuden ennätyksen sekä paransi kvalitatiivisia tuloksia eri verkkoarkkitehtuureilla, mukaan lukien suuren mittakaavan tekstistä kuvia syntetisoivalla Stable Diffusion XL -mallilla.
Avainsanat: Generatiiviset mallit, laatumittarit
Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä):
Perustieteiden korkeakoulu väitöskirjat
