استارتاپ چینی DeepSeek بیسروصدا اما با گامی محکم، مدل هوش مصنوعی جدیدی به نام V3-0324 را منتشر کرده است. این مدل که بهعنوان نسخه ارتقایافتهای از مدل قبلی این شرکت محسوب میشود، بهبودهای چشمگیری در زمینههایی مانند کدنویسی و پردازش زبان طبیعی دارد.
بااینحال، برخلاف شرکتهای بزرگی مانند OpenAI و Anthropic که هنگام معرفی مدلهای جدید خود کمپینهای تبلیغاتی گستردهای راهاندازی میکنند، دیپسیک این مدل را بدون هیاهوی رسانهای منتشر کرده است. همین موضوع باعث شده که انتشار این مدل توجه کارشناسان را به خود جلب کند و برخی آن را نشانهای از اعتمادبهنفس بالای این شرکت چینی بدانند.
انتشار بیسروصدای مدل V3-0324: استراتژی یا کمبود تبلیغات
طبق گزارشی که TechRadar منتشر کرده است، مدل DeepSeek-V3-0324 یک بهروزرسانی مهم نسبت به نسخه قبلی محسوب میشود. این مدل 641 گیگابایت حجم دارد و اکنون در Hugging Face بهصورت متنباز و تحت مجوز MIT در دسترس قرار گرفته است.
نکته جالب و عجیب اینجاست که برخلاف مدلهای آمریکایی که انتشارشان با تبلیغات فراوان همراه است، DeepSeek تصمیم گرفته این نسخه را بدون اطلاعیه رسمی منتشر کند. این تصمیم میتواند نشاندهنده اعتماد تیم دیپسیک به تواناییهای مدل جدیدشان باشد یا شاید هم یک استراتژی رقابتی برای جلب توجه کارشناسان و کاربران حرفهای.
عملکرد مدل جدید دیپسیک: تست روی مک استودیو
یکی از محققان هوش مصنوعی مدل DeepSeek-V3-0324 را روی مک استودیو با تراشه M3 Ultra اجرا کرده و به نتایج جالبی رسیده است. این مدل توانسته با سرعت بیش از 20 توکن در ثانیه پردازش کند که عملکردی تحسینبرانگیز به حساب میآید.
البته باید در نظر داشت که مک استودیوی 9500 دلاری یک سیستم بسیار قدرتمند است و ممکن است این آزمایش، نمایانگر عملکرد واقعی مدل روی سختافزارهای عادی نباشد. به همین دلیل، برای ارزیابی دقیقتر، تستهای بیشتری روی سختافزارهای مختلف نیاز است تا مشخص شود این مدل در شرایط عمومی چه عملکردی خواهد داشت.

قدرت رقابت با OpenAI و Anthropic
طبق تستهای اولیه، مدل جدید دیپسیک در برخی زمینهها، بهویژه کدنویسی، پیشرفتهای محسوسی داشته است. البته این ارتقا بهتنهایی شاید یک انقلاب در دنیای هوش مصنوعی محسوب نشود، اما سرعت پیشرفت DeepSeek باعث شگفتی بسیاری از متخصصان شده است.
دیپسیک که در سال 2023 میلادی به شهرت رسید، ابتدا مدل V3 را در دسامبر همان سال منتشر کرد. سپس یک ماه بعد، مدل استدلالگر R1 را معرفی کرد و حالا V3-0324 را عرضه کرده است.
این سرعت توسعه نشان میدهد که این استارتاپ چینی بهسرعت در حال نزدیک شدن به غولهای هوش مصنوعی غربی است. هرچند که ممکن است مدلهای این شرکت در برخی از بنچمارکها هنوز به سطح OpenAI و Anthropic نرسیده باشند، اما یک مزیت رقابتی مهم دارند:
هزینه پایینتر در مقایسه با مدلهای آمریکایی
معماری نوآورانه: ترکیب متخصصان (MoE)
یکی از ویژگیهای متمایز مدل DeepSeek-V3-0324، استفاده از معماری ترکیب متخصصان (Mixture of Experts – MoE) است. این رویکرد باعث میشود که مدل بهجای فعال کردن تمام پارامترها برای هر وظیفه، تنها بخش موردنیاز را به کار بگیرد.
بهطور مشخص، این مدل 685 میلیارد پارامتر دارد، اما در هر وظیفه فقط حدود 37 میلیارد پارامتر فعال میشوند. این رویکرد باعث کاهش مصرف منابع و بهینهسازی عملکرد مدل میشود و میتواند برتریهایی نسبت به مدلهای سنتی داشته باشد که همیشه از تمام پارامترهای خود استفاده میکنند.
آینده DeepSeek و تأثیر آن بر بازار هوش مصنوعی
ورود شرکتهایی مانند DeepSeek به رقابت با غولهای آمریکایی، نشاندهنده گسترش فضای رقابتی در صنعت هوش مصنوعی است. چین در سالهای اخیر سرمایهگذاریهای کلانی روی تحقیق و توسعه مدلهای زبان بزرگ (LLM) و هوش مصنوعی انجام داده و دیپسیک یکی از مهمترین بازیگران این میدان است.
اگر روند توسعه سریع DeepSeek ادامه پیدا کند، این شرکت میتواند در آینده نزدیک به یک رقیب جدی برای OpenAI و Anthropic تبدیل شود. خصوصاً اگر این مدلها با هزینهای کمتر و عملکردی رقابتی عرضه شوند، بسیاری از شرکتها و توسعهدهندگان ممکن است به استفاده از مدلهای DeepSeek روی بیاورند.
