第(1/3)頁(yè)
不論大家的觀點(diǎn)如何離譜,對(duì)于AI領(lǐng)域的關(guān)注隨著大選節(jié)節(jié)攀升也是不爭(zhēng)的事實(shí)。
這種熱度在孟繁岐宣布即將發(fā)布真正的,能夠根據(jù)文本繪圖的人工智能后,來(lái)到了一個(gè)新的巔峰。
因?yàn)榻咏肽曛埃戏贬懦龅脑囉冒姹綜lip就已經(jīng)展現(xiàn)了相當(dāng)出色的繪圖能力和多模態(tài)理解能力。
好到大家都以為這東西是專(zhuān)門(mén)為了AI繪圖而研發(fā)的。
結(jié)果沒(méi)想到,僅僅只是加入了圖像和文本之間的對(duì)應(yīng)關(guān)系,模型就很快自發(fā)的擁有了如此之強(qiáng)的圖像生成能力。
而且半年前就已經(jīng)那么驚人了,現(xiàn)在那還得了?
對(duì)于萬(wàn)眾期待的AI繪圖,內(nèi)部的研發(fā)其實(shí)并不順利,這點(diǎn)從發(fā)布時(shí)間上就能夠看出。
孟繁岐也猶豫了相當(dāng)一段時(shí)間,應(yīng)該具體選擇怎樣的路線。
前世最為著名的AI圖像生成器,主要是StableDiffusion,Midjourney和DALLE三個(gè)。
其中SD擴(kuò)散模型是基于Clip的文本生成圖像模型,它的方式是從有噪聲的情況開(kāi)始,逐漸改善圖像,直到完全沒(méi)有噪聲,逐步接近所提供的文本描述。
它的訓(xùn)練方式也已經(jīng)經(jīng)過(guò)了多次的研究打磨,先采樣一張圖片,并隨著時(shí)間的推移逐漸增加噪聲,直到數(shù)據(jù)無(wú)法被識(shí)別。隨后讓模型嘗試將圖像回退到原始形式,在此過(guò)程中學(xué)習(xí)如何生成圖片或其他數(shù)據(jù)。
這種路線如其名字stable一樣,非常穩(wěn)定,不過(guò)倘若想要生成非常高質(zhì)量的圖像,計(jì)算消耗非常之大。
技術(shù)上已經(jīng)達(dá)成,但在成本上,似乎目前不是很適合投入市場(chǎng)。
前世的Midjourney則比較擅長(zhǎng)各種藝術(shù)化的風(fēng)格,生成的圖像常有非常精美的結(jié)果。
第(1/3)頁(yè)