
Ringkasan
-
Deepseek adalah sumber terbuka dan berkinerja serta model AI top, dilatih jauh lebih sedikit
-
Dikembangkan oleh insinyur Cina, dapat memampatkan model kompleks dan berjalan secara lokal pada perangkat keras ujung bawah.
-
Kekhawatiran ada tentang asal -usulnya dan bias potensial.
Internet dipenuhi dengan nama “Deepseek”. Perusahaan AI seperti Openai dan Nvidia melihat harga saham mereka jatuh, dan penggemar AI menggosok tangan mereka bersama dengan gembira di seluruh dunia. Mengapa pendatang baru ini ke dunia AI ini masalah besar?
Deepseek adalah AI open-source dengan klaim besar
Seperti GPT-O1 atau Claude, atau Llama, atau dari AI Darlings saat ini, Deepseek adalah model AI generatif. Nah, lebih akurat untuk mengatakan bahwa ini adalah sekelompok model AI yang merupakan varian yang dirancang untuk aplikasi yang berbeda.
Tidak seperti, misalnya, model GPT Openai, Deepseek adalah open source di bawah lisensi MIT, yang memungkinkan penggunaan komersial. Ini berarti bahwa seluruh pekerjaan internal model terbuka untuk dilihat. Siapa pun dapat menggunakannya tanpa membayar biaya lisensi dalam bentuk apa pun, dan tidak ada yang menghentikan seseorang untuk memodifikasi atau membangun pekerjaan yang sudah dilakukan. Ini adalah salah satu alasan utama Deepseek telah menyebabkan gangguan pasar jangka pendek, yang mungkin berubah menjadi koreksi pasar jangka panjang.
Namun, tidak ada yang benar -benar penting jika Deepseek tidak ada gunanya. Faktor utama lain yang membuat semua orang berbicara tentang model AI ini adalah seberapa baik kinerjanya. Dalam tolok ukur AI, Deepseek melakukan serta GPT-O1 dan model generatif perdana lainnya. Bahkan lebih baik dalam beberapa kasus. Ini, tentu saja, sesuatu yang dapat diverifikasi siapa pun, tetapi klaim yang benar -benar mengejutkan adalah berapa biaya untuk mengembangkan model ini.
Deepseek mengklaim model itu dilatih kurang dari enam juta dolar. Yang kedengarannya seperti banyak uang sampai Anda menganggap bahwa model yang diperdagangkan dengan biaya lebih dari seratus juta dolar untuk dilatih. Tidak hanya itu, tetapi Deepseek dilatih pada perangkat keras yang kurang kuat dari apa yang tersedia bagi perusahaan AS seperti Openai. Tentu saja, ini adalah salah satu klaim yang tidak mudah diverifikasi, dan ada kemungkinan bahwa jumlah yang dikutip jauh lebih sedikit daripada kebenaran. Namun, untuk saat ini tidak ada pistol merokok untuk menunjukkan bahwa biayanya lebih tinggi dari yang diklaim.
“Kesepakatan besar” terakhir yang menurut saya layak disebutkan tentang Deepseek adalah bagaimana itu digunakan untuk “menyaring” model besar, padat, dan mahal secara komputasi seperti Llama menjadi model yang lebih kecil dengan kemampuan penalaran yang sebanding. Pada dasarnya, Deepseek melatih model dari model yang lebih besar lebih kompleks untuk meniru outputnya, tanpa semua intrik kompleks di bawah kap. Ini secara efektif mengompresi model yang lebih besar menjadi model yang lebih kecil dengan (sejauh ini) sedikit kelemahan yang jelas. Ini adalah lompatan besar untuk menjalankan model kompleks secara lokal, menggunakan lebih sedikit daya, dan membutuhkan lebih sedikit perangkat keras.
Deepseek dikembangkan oleh insinyur Cina
Deepseek adalah startup yang dipimpin oleh Liang Wenfeng (39) yang pertama kali melihat kesuksesan sebagai manajer dana lindung nilai. Secara khusus, manajer dana lindung nilai kuantitatif. Ini adalah pendekatan untuk investasi yang menggunakan pembelajaran mesin untuk memprediksi tren pasar sehingga investor dapat mengambil untung darinya. Inilah sebabnya mengapa Wenfeng sudah memiliki akses ke perangkat keras kuat yang diperlukan untuk melatih model seperti itu.
Deepseek tampaknya adalah proyek yang sama, dan tidak ingin menjadikannya usaha nirlaba. Memang, model telah diberikan kepada semua orang, menjadi open source. Ironisnya, embargo AS pada chip AI yang kuat dari perusahaan seperti Nvidia, mungkin menjadi bagian dari alasan pengembang Deepseek dipaksa untuk membuatnya begitu efisien.
Anda dapat mencoba Deepseek sekarang
Jika Anda mengunjungi situs web Deepseek, Anda bisa mendapatkan akses ke aplikasi serta tautan ke model yang sebenarnya untuk diunduh dan digunakan pada perangkat keras Anda sendiri. Cara termudah untuk menjalankan beberapa versi Deepseek pada perangkat keras Anda sendiri adalah dengan menggunakan Ollama.
Tentu saja, Anda tidak akan menjalankan model Deepseek level GPT-O1 di laptop Anda dalam waktu dekat, tetapi untuk beberapa ribu dolar dari GPU dan RAM kelas atas, itu benar-benar mungkin. Tentu saja ada banyak model Deepseek yang lebih kecil yang tidak cukup baik, tetapi akan berjalan dengan baik di komputer yang mungkin Anda miliki sekarang. Heck, bahkan ada versi yang akan berjalan (adil) di raspberry pi.
Ada beberapa kekhawatiran khusus dengan Deepseek
Mempertimbangkan bagaimana bagian -bagian dari kisah Deepseek mungkin tampak terlalu bagus untuk jujur ​​kepada beberapa pakar dalam industri AI, dan itu berasal dari Cina, yang menimbulkan kekhawatiran tentang bias, sensor, dan bahkan keamanan siber, tidak mengherankan bahwa ada beberapa keraguan tentang Deepseek.
Memang, tanyakan versi online yang di -host dari pertanyaan LLM yang peka terhadap pemerintah Cina saat ini, dan mungkin tidak akan datang seperti yang Anda harapkan. Namun, karena kode ini terbuka untuk semua, siapa pun dapat menyesuaikan cara berperilaku jika mereka memiliki pengetahuan. Kekhawatiran ini dapat diatasi secara prinsip.
Ini adalah hari -hari awal bagi Deepseek, dan perlu beberapa waktu untuk melihat bagaimana hal -hal akan bergetar, tetapi satu hal yang saya tidak ragu adalah bahwa industri AI generatif baru saja mengalami pergeseran paradigma besar pertamanya sejak ChatGPT pertama kali diluncurkan ke publik.