Väitös tietotekniikan alalta, DI Tuomas Kynkäänniemi

Tapahtumat

Väitös tietotekniikan alalta, DI Tuomas Kynkäänniemi

��ä��ö��پ��ܻܳ��

Advances in Evaluation Metrics and Sampling Techniques for Generative Image Models

Väitös Aalto-yliopiston perustieteiden korkeakoulusta, tietotekniikan laitokselta.

Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Milloin

15.8.2025 12:00 – 15:00 (UTC +3)

�Ѿ��ä

Maarintie 8

TU2

Tapahtuman kieli

Englanti

Väitöskirjan nimi: Advances in Evaluation Metrics and Sampling Techniques for Generative Image Models

��ä��ٳٱ��ä: Tuomas Kynkäänniemi
�ղ��ٲ��ä��ٳ�ä��ä: professori Jun-Yan Zhu, Carnegie Mellon University, USA
Kustos: professori Jaakko Lehtinen, Aalto-yliopiston perustieteiden korkeakoulu

Generatiivinen mallinnus on koneoppimisen osa-alue, jossa kehitetään malleja, jotka oppivat koulutusdatan jakauman, jolloin niillä pystytään tuottamaan uutta dataa, jota ei voida erottaa alkuperäisestä datasta. Generatiivinen mallinnus kattaa useita datatyyppejä, kuten kuvat, teksti, ääni ja 3D-muodot.

Tämä väitöskirja tutkii kuvia tuottavien, oppivien generatiivisten mallien laadunarviointi- ja näytteenottotekniikoita. Mallien ja sovellusten määrän kasvaessa laatumittarien suunnittelu on yhä tärkeämpää mallien paremmuusjärjestyksen määrittämiseksi, jotta mallien arkkitehtuuriin tai koulutusasetelmiin tehtyjen muutosten vaikutukset kuvajakaumaan voidaan tunnistaa.

Ensin analysoimme yleisesti käytettyä Fréchet Inception Distance (FID) -mittaria ja selvitämme, miksi sen avulla arvioitu mallien paremmuusjärjestys ja ihmisten tekemät arvioinnit saattavat poiketa toisistaan. Tämä tapahtuu tarkastelemalla FID:n herkkyyttä ImageNet-kuvajoukon luokille. Tämän analyysin ohessa arvioimme havaintojemme vaikutuksia synteettisten mallien laadunarviointiin. Tämän jälkeen esitämme mittarin, jolla voidaan erikseen arvioida synteettisten kuvien uskottavuutta ja monimuotoisuutta eksplisiittisten, ei-parametristen jakaumaesitysten avulla. Tämä mahdollistaa synteettisten kuvajakaumien kattavamman tarkastelun yhdessä olemassa olevien mittarien kanssa.

Diffuusiomallien kontekstissa tutkimme ohjausmenetelmää (Classifier-Free Guidance), joka on keskeinen tekijä näiden mallien menestyksessä. Analysoimme ohjauksen vaikutusta synteettiseen kuvajakaumaan, kun sitä käytetään eri vaiheissa näytteenottoprosessia. Havaintojemme mukaan ohjauksesta on hyötyä vain tietyllä kohinatasojen alueella, kun taas korkeilla kohinatasoilla se on haitallista ja matalilla kohinatasoilla tarpeetonta. Tämän havainnon pohjalta esittelemme ohjausvälin, jossa ohjausta käytetään valikoidusti vain tietyllä hyödyllisten kohinatasojen alueella. Menetelmämme saavutti julkaisuaikanaan FID-mittarilla mitattuna uuden ennätyksen sekä paransi kvalitatiivisia tuloksia eri verkkoarkkitehtuureilla, mukaan lukien suuren mittakaavan tekstistä kuvia syntetisoivalla Stable Diffusion XL -mallilla.

Avainsanat: Generatiiviset mallit, laatumittarit

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä):

Perustieteiden korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Pikaoppaaseen

��ä��ٱ�ٳٲ�: 23.6.2025
Julkaistu: 19.6.2025

91��