مدل جدید هوش مصنوعی DeepSeek منتشر شد

استارتاپ چینی DeepSeek بی‌سروصدا اما با گامی محکم، مدل هوش مصنوعی جدیدی به نام V3-0324 را منتشر کرده است. این مدل که به‌عنوان نسخه ارتقایافته‌ای از مدل قبلی این شرکت محسوب می‌شود، بهبودهای چشمگیری در زمینه‌هایی مانند کدنویسی و پردازش زبان طبیعی دارد.

بااین‌حال، برخلاف شرکت‌های بزرگی مانند OpenAI و Anthropic که هنگام معرفی مدل‌های جدید خود کمپین‌های تبلیغاتی گسترده‌ای راه‌اندازی می‌کنند، دیپ‌سیک این مدل را بدون هیاهوی رسانه‌ای منتشر کرده است. همین موضوع باعث شده که انتشار این مدل توجه کارشناسان را به خود جلب کند و برخی آن را نشانه‌ای از اعتمادبه‌نفس بالای این شرکت چینی بدانند.

انتشار بی‌سروصدای مدل V3-0324: استراتژی یا کمبود تبلیغات

طبق گزارشی که TechRadar منتشر کرده است، مدل DeepSeek-V3-0324 یک به‌روزرسانی مهم نسبت به نسخه قبلی محسوب می‌شود. این مدل 641 گیگابایت حجم دارد و اکنون در Hugging Face به‌صورت متن‌باز و تحت مجوز MIT در دسترس قرار گرفته است.

نکته جالب و عجیب اینجاست که برخلاف مدل‌های آمریکایی که انتشارشان با تبلیغات فراوان همراه است، DeepSeek تصمیم گرفته این نسخه را بدون اطلاعیه رسمی منتشر کند. این تصمیم می‌تواند نشان‌دهنده اعتماد تیم دیپ‌سیک به توانایی‌های مدل جدیدشان باشد یا شاید هم یک استراتژی رقابتی برای جلب توجه کارشناسان و کاربران حرفه‌ای.

عملکرد مدل جدید دیپ‌سیک: تست روی مک استودیو

یکی از محققان هوش مصنوعی مدل DeepSeek-V3-0324 را روی مک استودیو با تراشه M3 Ultra اجرا کرده و به نتایج جالبی رسیده است. این مدل توانسته با سرعت بیش از 20 توکن در ثانیه پردازش کند که عملکردی تحسین‌برانگیز به حساب می‌آید.

البته باید در نظر داشت که مک استودیوی 9500 دلاری یک سیستم بسیار قدرتمند است و ممکن است این آزمایش، نمایانگر عملکرد واقعی مدل روی سخت‌افزارهای عادی نباشد. به همین دلیل، برای ارزیابی دقیق‌تر، تست‌های بیشتری روی سخت‌افزارهای مختلف نیاز است تا مشخص شود این مدل در شرایط عمومی چه عملکردی خواهد داشت.

انتشار بی‌سروصدای مدل V3-0324: استراتژی یا کمبود تبلیغات

قدرت رقابت با OpenAI و Anthropic

طبق تست‌های اولیه، مدل جدید دیپ‌سیک در برخی زمینه‌ها، به‌ویژه کدنویسی، پیشرفت‌های محسوسی داشته است. البته این ارتقا به‌تنهایی شاید یک انقلاب در دنیای هوش مصنوعی محسوب نشود، اما سرعت پیشرفت DeepSeek باعث شگفتی بسیاری از متخصصان شده است.

دیپ‌سیک که در سال 2023 میلادی به شهرت رسید، ابتدا مدل V3 را در دسامبر همان سال منتشر کرد. سپس یک ماه بعد، مدل استدلال‌گر R1 را معرفی کرد و حالا V3-0324 را عرضه کرده است.

این سرعت توسعه نشان می‌دهد که این استارتاپ چینی به‌سرعت در حال نزدیک شدن به غول‌های هوش مصنوعی غربی است. هرچند که ممکن است مدل‌های این شرکت در برخی از بنچمارک‌ها هنوز به سطح OpenAI و Anthropic نرسیده باشند، اما یک مزیت رقابتی مهم دارند:

هزینه پایین‌تر در مقایسه با مدل‌های آمریکایی

معماری نوآورانه: ترکیب متخصصان (MoE)

یکی از ویژگی‌های متمایز مدل DeepSeek-V3-0324، استفاده از معماری ترکیب متخصصان (Mixture of Experts – MoE) است. این رویکرد باعث می‌شود که مدل به‌جای فعال کردن تمام پارامترها برای هر وظیفه، تنها بخش موردنیاز را به کار بگیرد.

به‌طور مشخص، این مدل 685 میلیارد پارامتر دارد، اما در هر وظیفه فقط حدود 37 میلیارد پارامتر فعال می‌شوند. این رویکرد باعث کاهش مصرف منابع و بهینه‌سازی عملکرد مدل می‌شود و می‌تواند برتری‌هایی نسبت به مدل‌های سنتی داشته باشد که همیشه از تمام پارامترهای خود استفاده می‌کنند.

خرید آی پی ثابت

آینده DeepSeek و تأثیر آن بر بازار هوش مصنوعی

ورود شرکت‌هایی مانند DeepSeek به رقابت با غول‌های آمریکایی، نشان‌دهنده گسترش فضای رقابتی در صنعت هوش مصنوعی است. چین در سال‌های اخیر سرمایه‌گذاری‌های کلانی روی تحقیق و توسعه مدل‌های زبان بزرگ (LLM) و هوش مصنوعی انجام داده و دیپ‌سیک یکی از مهم‌ترین بازیگران این میدان است.

اگر روند توسعه سریع DeepSeek ادامه پیدا کند، این شرکت می‌تواند در آینده نزدیک به یک رقیب جدی برای OpenAI و Anthropic تبدیل شود. خصوصاً اگر این مدل‌ها با هزینه‌ای کمتر و عملکردی رقابتی عرضه شوند، بسیاری از شرکت‌ها و توسعه‌دهندگان ممکن است به استفاده از مدل‌های DeepSeek روی بیاورند.

نظرات کاربران

ثبت نظر

هنوز نظری ثبت نشده است.

نظر خود را ثبت کنید