
Pembuatan gambar GPT-4O sekarang tersedia di ChatGPT. Model pembuatan gambar baru, yang menggantikan Dall-E 3, paling terkenal karena rendering teks yang akurat, peningkatan kemampuan “mengikat”, dan kemudahan penggunaan.
Tidak seperti metodologi pembuatan gambar difusi tradisional, yang detail “melukis” di atas kebisingan acak, GPT-4O menggunakan sistem autoregresif dari sisi-ke-bawah. Ini lebih lambat dari difusi, tetapi manfaat autoregresi sejelas hari. GPT-4O mampu meludahkan gambar dengan teks yang dapat dibaca dengan sempurna-sesuatu yang model AI seperti Dall-E 3 terus gagal untuk dicapai.
Tidak hanya itu, tetapi Anda dapat menentukan konten tekstual untuk gambar yang dihasilkan. Tuliskan prompt seperti “Beri saya gambar fotorealistik dari seorang gadis yang menulis di papan tulis dengan tulisan tangan yang berantakan,” beri tahu AI apa pun kata -kata yang ingin Anda lihat di papan tulis, dan itu akan memberi Anda sesuatu yang cukup akurat. Dan, mungkin yang lebih penting, model ini cukup bagus dalam menulis teks bergaya 2D untuk menu restoran, iklan, atau barang -barang lain yang mungkin berguna bagi bisnis atau penggemar.
Pendekatan autoregresif juga tampaknya membantu dengan “mengikat,” yang merupakan cara mewah untuk mengatakan bahwa AI tidak bingung dengan petunjuk yang mengandung banyak subjek. Jika Anda meminta Dall-e 3 untuk menggambar lingkaran merah, segitiga biru, hati hijau, bintang merah muda, dan kotak ungu, itu dapat tersandung dengan sendirinya dan mengeluarkan bentuk atau warna yang salah. GPT-4O, di sisi lain, dapat secara akurat menangani hingga 20 objek yang berbeda.
Ketika dipasangkan dengan kemampuan rending teks model, peningkatan ikatan jelas menciptakan beberapa peluang menarik untuk seni atau iklan perusahaan, meskipun itu juga hanya hal yang umumnya berguna yang membuat pembuatan gambar lebih mudah digunakan.
Tentu saja, generasi gambar GPT-4O hanya “lebih baik” daripada Dall-E 3. Gambar fotorealistik terlihat lebih benar untuk kehidupan, seni digital terlihat kurang pekat atau kasar, dan teknik inferencing baru mengurangi kebutuhan untuk mengetikkan permintaan yang panjang dan rumit. Model ini juga menawarkan peningkatan “konsistensi karakter”, yang berarti bahwa karakter atau objek yang dihasilkan dalam satu prompt dapat secara akurat dibawa ke petunjuk berikutnya – jika Anda memberi tahu AI untuk menggunakan kembali kucing cyborg yang dibuatnya, itu tidak akan mengubah warna kucing, dan sebagainya.
Openai mengakui bahwa model pembuatan gambar barunya tidak sempurna. Itu masih berjuang dengan halusinasi, representasi matematika (seperti grafik atau grafik), teks multibahasa, dan banyak lagi. Namun, ini jelas merupakan peningkatan dari model pembuatan gambar perusahaan sebelumnya.
Terkait
Linux Kernel 6.14 dirilis dengan perbaikan untuk game dan AI
Pembaruan ini menawarkan peningkatan frame rate yang signifikan untuk game Windows tertentu.
Openai mengatakan bahwa pembuatan gambar GPT-4O berisi perlindungan untuk mencegah penyalahgunaan, ditambah teknik watermarking canggih untuk membantu orang membedakan konten yang dihasilkan AI dari barang-barang nyata dan buatan manusia. Tapi saya akan mengambil risiko dan berasumsi bahwa perlindungan ini dapat, dengan usaha, dielakkan. Dan Openai masih menggunakan watermarking C2PA, yang hanya metadata. Dibutuhkan sedikit upaya untuk menghapus metadata ini dari suatu gambar – C2PA tidak efektif dalam mencegah penyebaran informasi yang salah.
Generator gambar GPT-4O yang baru tidak akan mengurangi kekhawatiran tentang hak cipta atau penggunaan yang adil. Itu dilatih pada campuran data “yang tersedia untuk umum” dan data berlisensi, menurut pernyataan yang diberikan The Wall Street Journal. Perusahaan AI diketahui dengan berani menentang undang -undang hak cipta dasar, dan Openai tidak berbagi data pelatihannya dengan publik, jadi jangan ragu untuk menarik kesimpulan Anda sendiri tentang masalah ini. (Untuk apa nilainya, openai melakukanpeduli dengan hak cipta saat dia pekerjaan dicuri.)

Terkait
9 Alasan untuk membuat GPT khusus Anda sendiri di Chatgpt
Ubah chatgpt menjadi alat AI sempurna Anda.
Pembuatan gambar GPT-4O tersedia saat ini. Buka chatgpt di browser Anda, minta AI untuk menghasilkan gambar, dan nikmati. Perhatikan bahwa peluncuran tidak lengkap, sehingga beberapa pengguna mungkin masih menemukan model Dall-E 3 lama. Cara terbaik untuk membedakannya adalah dengan mengamati bagaimana gambar yang dihasilkan memuat. Dall-E 3 memuat gambar dengan roda pemintalan, sedangkan gambar GPT-4O memuat dengan animasi pemindai flatbed-flatbed dari atas ke bawah.
Semua pengguna ChatGPT dapat mengakses pembuatan gambar GPT-4O, termasuk pengguna gratis. Namun, pengguna gratis menghadapi batas penggunaan, seperti yang mereka lakukan ketika menggunakan Dall-E 3. Ngomong-ngomong, Dall-E 3 akan tetap tersedia di GPT khusus untuk mereka yang ingin menggunakannya.
Sumber: Openai