摘要:在機器學(xué)習(xí)和數(shù)據(jù)庫等領(lǐng)域,高質(zhì)量數(shù)據(jù)集的合成一直以來是一個非常重要且充滿挑戰(zhàn)性的問題.其中,合成的高質(zhì)量數(shù)據(jù)集可用來改善模型,尤其是深度學(xué)習(xí)模型的訓(xùn)練過程.一個健壯的模型訓(xùn)練過程需要大量已標(biāo)注的數(shù)據(jù)集,獲取這些數(shù)據(jù)集的一種方法是通過領(lǐng)域?qū)<业氖謩訕?biāo)注,這種方法不僅代價大還容易出錯,因此由模型自動合成高質(zhì)量數(shù)據(jù)集的方法更為合理.近年來,由于計算機視覺領(lǐng)域的飛速發(fā)展,已經(jīng)有不少致力于圖像數(shù)據(jù)集合成的研究,但是這些模型不能直接應(yīng)用在結(jié)構(gòu)化數(shù)據(jù)表上,并且據(jù)調(diào)研,對這類數(shù)據(jù)的相關(guān)研究幾乎沒有.因此,提出了一個針對結(jié)構(gòu)化數(shù)據(jù)表的生成模型TableGAN,該模型是生成式對抗網(wǎng)絡(luò)(generative adversarial network, GAN)家族的一種變體,通過對抗訓(xùn)練的方式提高生成模型的性能.針對結(jié)構(gòu)化數(shù)據(jù)的特征改變了傳統(tǒng)GAN模型的內(nèi)部結(jié)構(gòu),包括優(yōu)化函數(shù)等,使其能夠生成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)用于改善模型的訓(xùn)練過程.通過在真實數(shù)據(jù)集上的大量實驗表明了此模型的有效性,即在擴大后的數(shù)據(jù)集上訓(xùn)練模型的效果有明顯提升.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機研究與發(fā)展雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述、計算機技術(shù)、計算機網(wǎng)絡(luò)、人工智能、計算機軟件、計算機應(yīng)用等。于1958年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。