Apakah saya memerlukan GPU untuk difusi yang stabil? Panduan PC, Benchmarked Difusi Stabil: GPU mana yang menjalankan AI tercepat (diperbarui) | Perangkat Keras Tom S
Difusi Stabil Benchmarked: GPU mana yang menjalankan AI tercepat (diperbarui)
Kami akan mendapatkan beberapa angka kinerja komputasi teoretis lainnya dalam sekejap, tetapi sekali lagi pertimbangkan RTX 2080 TI dan RTX 3070 TI sebagai contoh. Inti tensor 2080 TI tidak mendukung sparsity dan memiliki hingga 108 TFLOPS dari komputasi FP16. . Fakta bahwa 2080 TI mengalahkan 3070 TI jelas menunjukkan sparsity bukanlah faktor. Logika yang sama berlaku untuk perbandingan lain seperti 2060 dan 3050, atau 2070 super dan 3060 ti.
Apakah saya memerlukan GPU untuk difusi yang stabil?
Apakah Anda bertanya -tanya apakah Anda memerlukan GPU untuk difusi yang stabil? .
Difusi stabil tidak diragukan lagi merupakan alat penghasil AI yang cepat dan intuitif seperti Dall-E dan Midjourney. Hasilnya mengesankan, jadi ia memiliki jutaan pengguna saat ini. . .
GPU, atau kartu grafis, adalah potongan teknologi kecil yang akan secara serius meningkatkan permainan atau pengalaman profesional kreatif. .
Alat AI Esensial
Konten AI on-merek di mana pun Anda membuat. 100.000+ pelanggan yang membuat konten nyata dengan Jasper. .
. 8 juta pengguna menikmati menulis blog 10x lebih cepat, dengan mudah menciptakan posting media sosial yang lebih tinggi atau menulis email yang lebih menarik. Mendaftar untuk uji coba gratis. Baca selengkapnya
Hanya $ 0.00015 per kata!
. Winston AI adalah alat deteksi konten AI terkemuka di industri untuk membantu memeriksa konten AI yang dihasilkan dengan chatgpt, GPT-4, Bard, Bing Chat, Claude, dan banyak lagi LLM. Baca selengkapnya
.
Detektor AI orisinalitas
Keaslian.AI adalah deteksi AI yang paling akurat.Di seluruh kumpulan data pengujian dari 1200 sampel data, ia mencapai akurasi 96% sementara pesaing terdekatnya hanya mencapai 35%. Ekstensi krom yang berguna. Mendeteksi seluruh email, Google Documents, dan situs web.
*Harga dapat berubah. . . Belajarlah lagi
? Atau dapatkah yang satu menggantikan yang lain? Mari kita cari tahu.
Adalah GPU yang diperlukan untuk difusi yang stabil?
. Untuk minimum, lihat model 8-10 GB NVIDIA. Selain itu, pastikan Anda memiliki 16 GB RAM PC di sistem PC untuk menghindari ketidakstabilan apa pun.
GPU akan menjalankan difusi stabil tanpa mengalami masalah seperti kecepatan respons yang lebih lambat. . . Ini adalah kit yang sangat kuat yang akan menjamin Anda layanan yang cepat.
Apakah mungkin untuk menjalankan difusi yang stabil pada GPU AMD?
Ya, Anda juga dapat menjalankan difusi yang stabil pada AMD GPU. . Selain itu, untuk hasil terbaik, pastikan untuk memiliki 8GB lebih lanjut atau lebih untuk menghindari ketidaknyamanan.
FAQ
Dapat bekerja difusi yang stabil pada prosesor apple mac?
. Namun, ini hanya mendukung model terbaru M1 dan M1 berbasis silikon. Model apa pun sebelumnya bukan untuk hasil terbaik. Bahkan model M1 dan M2 yang lebih tua akan baik -baik saja jika memenuhi persyaratan.
Kesimpulan
Memiliki GPU adalah persyaratan wajib di dunia teknologi saat ini. . Oleh karena itu, untuk difusi yang stabil, yang terbaik adalah memiliki GPU. . Jadi, pastikan untuk memiliki kartu grafis yang bagus sebelum menjalankan difusi yang stabil untuk hasil terbaik.
. . Jika Anda memerlukan ide yang mana yang harus dikunjungi, lihat kumpulan kartu grafis terbaik kami di sini.
Difusi Stabil Benchmarked: GPU mana yang menjalankan AI tercepat (diperbarui)
Kecerdasan buatan dan pembelajaran mendalam terus-menerus menjadi berita utama akhir-akhir ini, apakah itu chatgpt menghasilkan nasihat yang buruk, mobil self-driving, seniman dituduh menggunakan AI, nasihat medis dari AI, dan banyak lagi. Sebagian besar alat ini bergantung pada server kompleks dengan banyak perangkat keras untuk pelatihan, tetapi menggunakan jaringan yang terlatih melalui inferensi dapat dilakukan di PC Anda, menggunakan kartu grafisnya. ?
Kami telah membandingkan difusi stabil, pencipta gambar AI yang populer, pada NVIDIA, AMD, dan bahkan Intel GPU terbaru untuk melihat bagaimana mereka menumpuk. ! – Itu bisa. Ringkasan singkatnya adalah bahwa GPU NVIDIA menguasai Roost, dengan sebagian besar perangkat lunak yang dirancang menggunakan CUDA dan perangkat NVIDIA lainnya. .
. . AMD GPU diuji menggunakan NOD.AI’s Shark Version – Kami memeriksa kinerja di NVIDIA GPU (baik dalam mode Vulkan dan CUDA) dan menemukan itu. kekurangan. sangat fungsi dasar.
Penafian sudah beres. Kami tidak membuat kode salah satu dari alat ini, tetapi kami memang mencari hal -hal yang mudah dijalankan (di bawah jendela) yang juga tampaknya dioptimalkan secara wajar. Kami relatif yakin bahwa tes NVIDIA 30-Series melakukan pekerjaan yang baik untuk mengekstraksi dekat dengan kinerja optimal-terutama ketika Xformers diaktifkan, yang memberikan tambahan ~ 20% peningkatan kinerja (meskipun pada presisi yang dikurangi yang dapat mempengaruhi kualitas). Hasil RTX 40-Series Sementara itu lebih rendah pada awalnya, tetapi George Sv8Arj memberikan perbaikan ini, di mana mengganti Pytorch Cuda DLLS memberikan dorongan yang sehat untuk kinerja.
. Anggukan.Ai memberi tahu kami bahwa mereka masih mengerjakan model ‘disetel’ untuk rDNA 2, yang seharusnya meningkatkan kinerja sedikit (berpotensi dua kali lipat) setelah tersedia. .
Kami juga menggunakan model difusi stabil yang berbeda, karena pilihan proyek perangkat lunak. Anggukan..1, sedangkan Otomatis 1111 dan OpenVino Gunakan SD1.4 (meskipun mungkin untuk mengaktifkan SD2.. .
. , . . Perhatikan bahwa pengaturan yang kami pilih dipilih untuk mengerjakan ketiga proyek SD; Beberapa opsi yang dapat meningkatkan throughput hanya tersedia di build 1111 otomatis, tetapi lebih dari itu nanti.
Prompt positif:
Kota steampunk postapokaliptik, eksplorasi, sinematik, realistis, hiper detail, detail maksimum fotorealistik, cahaya volumetrik, (((fokus))), sudut lebar, (((lit cerah))), ((vegetasi)), petir , tanaman merambat, kehancuran, kehancuran, perang, reruntuhan
Langkah:
100
15.0
Beberapa varian euler (leluhur pada 1111 otomatis, hiu euler diskrit pada AMD)
Algoritma pengambilan sampel tampaknya tidak memengaruhi kinerja, meskipun dapat mempengaruhi output. Automatic 1111 menyediakan opsi terbanyak, sedangkan Intel Openvino Build tidak memberi Anda pilihan apa pun.
Berikut adalah hasil dari pengujian AMD RX 7000/6000-Series kami, NVIDIA RTX 40/30-Series, dan Intel Arc A-Series GPU. .
. Dengan perbaikan DLL untuk obor di tempatnya, RTX 4090 memberikan kinerja 50% lebih banyak daripada RTX 3090 Ti dengan XFormers, dan kinerja 43% yang lebih baik tanpa XFormers. .
. . 7900 kartu terlihat cukup bagus, sedangkan setiap kartu RTX 30-Series akhirnya mengalahkan bagian RX 6000-seri AMD (untuk saat ini). . Mari kita bicara lebih banyak tentang perbedaannya.
Optimalisasi yang tepat dapat menggandakan kinerja pada kartu RX 6000-Series. Anggukan.. ..52 IT/S pada 4090, 13.31 pada 4080, 11.41 pada 3090 ti, dan 10..
Berdasarkan kinerja 7900 kartu menggunakan model yang disetel, kami juga ingin tahu tentang kartu nvidia dan seberapa banyak mereka dapat memperoleh manfaat dari inti tensor mereka. .7 kali kinerja bahkan jika kita mendiskontokan kelangkaan. . .
Intel’s ARC GPU saat ini memberikan hasil yang sangat mengecewakan, terutama karena mereka mendukung operasi FP16 XMX (matriks) yang harus memberikan hingga 4x throughput sebagai perhitungan FP32 reguler. . Kebetulan, jika Anda ingin mencoba dan menjalankan SD pada GPU busur, perhatikan bahwa Anda harus mengedit ‘stabil_diffusion_engine.py ‘file dan ubah “cpu” menjadi “gpu” – jika tidak, itu tidak akan menggunakan kartu grafis untuk perhitungan dan membutuhkan waktu lebih lama.
. RX 6000-Series berkinerja buruk, dan busur GPU umumnya terlihat buruk. Hal -hal dapat berubah secara radikal dengan perangkat lunak yang diperbarui, dan mengingat popularitas AI kami berharap hanya masalah waktu sebelum kami melihat tuning yang lebih baik (atau menemukan proyek yang tepat yang sudah disetel untuk memberikan kinerja yang lebih baik).
Kami juga menjalankan beberapa tes tentang Legacy GPU, khususnya Arsitektur Turing NVIDIA (RTX 20- dan GTX 16-Series) dan AMD’s RX 5000-Series. . Tapi hasilnya di sini cukup menarik.
Pertama, RTX 2080 TI akhirnya mengungguli RTX 3070 Ti. . .
. Inti tensor 2080 TI tidak mendukung sparsity dan memiliki hingga 108 TFLOPS dari komputasi FP16. . Fakta bahwa 2080 TI mengalahkan 3070 TI jelas menunjukkan sparsity bukanlah faktor. .
Adapun kartu rDNA AMD, RX 5700 XT dan 5700, ada celah yang luas dalam kinerja. 5700 XT mendarat tepat di depan 6650 XT, tetapi 5700 tanah di bawah 6600. Di atas kertas, kartu XT harus hingga 22% lebih cepat. . .
. Jika kami menggunakan kinerja shader dengan FP16 (Turing memiliki dua kali lipat throughput pada kode shader fp16), celah tersebut menyempit hanya 22% defisit. Namun dalam pengujian kami, GTX 1660 Super hanya sekitar 1/10 kecepatan RTX 2060.
Sekali lagi, tidak jelas seberapa dioptimalkan salah satu proyek ini. Juga tidak jelas apakah proyek -proyek ini sepenuhnya memanfaatkan hal -hal seperti inti tensor nvidia atau inti XMX Intel. . Bagan berikut menunjukkan kinerja FP16 teoretis untuk setiap GPU (hanya melihat kartu grafis yang lebih baru), menggunakan inti tensor/matriks jika berlaku. Hasil nvidia juga termasuk kelangkaan – pada dasarnya kemampuan untuk melewatkan multiplikasi dengan 0 hingga setengah sel dalam matriks, yang seharusnya kejadian yang cukup sering dengan beban kerja pembelajaran yang mendalam.
. Misalnya, di atas kertas RTX 4090 (menggunakan FP16) hingga 106% lebih cepat dari RTX 3090 Ti, sedangkan dalam pengujian kami 43% lebih cepat tanpa XFORMER, dan 50% lebih cepat dengan Xformers. Perhatikan juga bahwa kami mengasumsikan proyek difusi stabil yang kami gunakan (otomatis 1111) tidak memanfaatkan instruksi FP8 baru pada ADA Lovelace GPU, yang berpotensi menggandakan kinerja pada RTX 40-Series lagi.
. . Dalam praktiknya, arc gpus tidak ada di dekat tanda -tanda itu. Tanah GPU A770 tercepat antara RX 6600 dan RX 6600 XT, A750 berada tepat di belakang RX 6600, dan A380 adalah sekitar seperempat kecepatan A750. Jadi mereka semua tentang seperempat dari kinerja yang diharapkan, yang akan masuk akal jika inti XMX tidak digunakan.
Rasio internal pada busur memang terlihat benar, meskipun. . Kemungkinan besar, GPU ARC menggunakan shader untuk perhitungan, dalam mode FP32 presisi penuh, dan kehilangan beberapa optimasi tambahan.
Hal lain yang perlu diperhatikan adalah bahwa komputasi teoretis pada AMD RX 7900 XTX/XT meningkat banyak dibandingkan dengan RX 6000-series. Kita harus melihat apakah model 6000-seri yang disetel menutup celah, seperti NOD.. Bandwidth Memori bukanlah faktor penting, setidaknya untuk resolusi target 512×512 yang kami gunakan – model 3080 10GB dan 12GB mendarat secara relatif berdekatan bersama.
Berikut ini tampilan yang berbeda pada kinerja FP16 teoretis, kali ini hanya berfokus pada apa yang dapat dilakukan oleh berbagai GPU melalui perhitungan shader. . .
Jelas, pandangan kedua ini pada komputasi fp16 tidak cocok dengan kinerja kami yang sebenarnya lebih baik daripada grafik dengan inti tensor dan matriks, tetapi mungkin ada kompleksitas tambahan dalam menyiapkan perhitungan matriks dan kinerja penuh membutuhkan. sesuatu yang ekstra. .
. Kami tidak menguji GPU AMD yang baru, karena kami harus menggunakan Linux pada kartu AMD RX 6000-Series, dan tampaknya RX 7000-Series membutuhkan kernel Linux yang lebih baru dan kami tidak bisa membuatnya bekerja. Tapi lihat hasil RTX 40-Series, dengan DLL Torch diganti.
. 4080 juga mengalahkan 3090 TI sebesar 55%/18% dengan/tanpa xformers. .
Sepertinya resolusi target yang lebih kompleks dari 2048×1152 mulai memanfaatkan lebih baik dari sumber daya komputasi potensial, dan mungkin waktu berjalan yang lebih panjang berarti inti tensor dapat sepenuhnya melenturkan otot mereka.
Pada akhirnya, ini adalah snapshot terbaik dalam waktu kinerja difusi yang stabil. Kami sering melihat pembaruan proyek, dukungan untuk perpustakaan pelatihan yang berbeda, dan banyak lagi. .
. Kami akan mengirimkan berita terbaru dan ulasan mendalam tentang CPU, GPU, AI, perangkat keras pembuat dan lebih langsung ke kotak masuk Anda.
Dengan mengirimkan informasi Anda, Anda menyetujui Syarat & Ketentuan dan Kebijakan Privasi dan berusia 16 atau lebih.
Jarred Walton adalah editor senior di Tom’s Hardware yang berfokus pada segala hal GPU. Dia telah bekerja sebagai jurnalis teknologi sejak 2004, menulis untuk Anandtech, PC maksimum, dan gamer PC. Dari S3 Virge pertama ‘Diselerator 3D’ ke GPU hari ini, Jarred mengikuti semua tren grafis terbaru dan merupakan orang yang ditanyakan tentang kinerja game.