91ÇàÇà²Ý

Tapahtumat

Väitös tietotekniikan alalta, DI Tuomas Kynkäänniemi

Advances in Evaluation Metrics and Sampling Techniques for Generative Image Models

Väitös Aalto-yliopiston perustieteiden korkeakoulusta, tietotekniikan laitokselta.
Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Väitöskirjan nimi: Advances in Evaluation Metrics and Sampling Techniques for Generative Image Models

³Õä¾±³Ù³Ù±ð±ô¾±Âáä: Tuomas Kynkäänniemi
³Õ²¹²õ³Ù²¹±¹Ã¤¾±³Ù³ÙäÂáä: professori Jun-Yan Zhu, Carnegie Mellon University, USA
Kustos: professori Jaakko Lehtinen, Aalto-yliopiston perustieteiden korkeakoulu 

Generatiivinen mallinnus on koneoppimisen osa-alue, jossa kehitetään malleja, jotka oppivat koulutusdatan jakauman, jolloin niillä pystytään tuottamaan uutta dataa, jota ei voida erottaa alkuperäisestä datasta. Generatiivinen mallinnus kattaa useita datatyyppejä, kuten kuvat, teksti, ääni ja 3D-muodot.

Tämä väitöskirja tutkii kuvia tuottavien, oppivien generatiivisten mallien laadunarviointi- ja näytteenottotekniikoita. Mallien ja sovellusten määrän kasvaessa laatumittarien suunnittelu on yhä tärkeämpää mallien paremmuusjärjestyksen määrittämiseksi, jotta mallien arkkitehtuuriin tai koulutusasetelmiin tehtyjen muutosten vaikutukset kuvajakaumaan voidaan tunnistaa.

Ensin analysoimme yleisesti käytettyä Fréchet Inception Distance (FID) -mittaria ja selvitämme, miksi sen avulla arvioitu mallien paremmuusjärjestys ja ihmisten tekemät arvioinnit saattavat poiketa toisistaan. Tämä tapahtuu tarkastelemalla FID:n herkkyyttä ImageNet-kuvajoukon luokille. Tämän analyysin ohessa arvioimme havaintojemme vaikutuksia synteettisten mallien laadunarviointiin. Tämän jälkeen esitämme mittarin, jolla voidaan erikseen arvioida synteettisten kuvien uskottavuutta ja monimuotoisuutta eksplisiittisten, ei-parametristen jakaumaesitysten avulla. Tämä mahdollistaa synteettisten kuvajakaumien kattavamman tarkastelun yhdessä olemassa olevien mittarien kanssa.

Diffuusiomallien kontekstissa tutkimme ohjausmenetelmää (Classifier-Free Guidance), joka on keskeinen tekijä näiden mallien menestyksessä. Analysoimme ohjauksen vaikutusta synteettiseen kuvajakaumaan, kun sitä käytetään eri vaiheissa näytteenottoprosessia. Havaintojemme mukaan ohjauksesta on hyötyä vain tietyllä kohinatasojen alueella, kun taas korkeilla kohinatasoilla se on haitallista ja matalilla kohinatasoilla tarpeetonta. Tämän havainnon pohjalta esittelemme ohjausvälin, jossa ohjausta käytetään valikoidusti vain tietyllä hyödyllisten kohinatasojen alueella. Menetelmämme saavutti julkaisuaikanaan FID-mittarilla mitattuna uuden ennätyksen sekä paransi kvalitatiivisia tuloksia eri verkkoarkkitehtuureilla, mukaan lukien suuren mittakaavan tekstistä kuvia syntetisoivalla Stable Diffusion XL -mallilla.

Avainsanat: Generatiiviset mallit, laatumittarit

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä):  

Perustieteiden korkeakoulu väitöskirjat

Suuri valkoinen 'A!' veistos Otaniemen Kandidaattikeskuksen katolla. Taustalla puu ja muita rakennuksia.

Perustieteiden korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Zoom pikaopas
  • ±Êä¾±±¹¾±³Ù±ð³Ù³Ù²â:
  • Julkaistu:
Jaa
URL kopioitu