Google officially declares war

By: rootdata|2026/05/21 22:10:32
0
اشتراک‌گذاری
copy

نویسنده این مقاله: چنگ‌بی شوگونگپشتیبانی داده: داده‌های بزرگ گوگو

کنفرانس توسعه‌دهندگان Google I/O در سال ۲۰۲۶ تنها با دو کلمه توصیف می‌شود: تکبر.

آنها نه تنها به‌طور یکپارچه ایجنت‌های هوش مصنوعی را در تمام نقاط ورود ترافیک اصلی مانند جستجو، مرورگرها، تلفن‌های همراه و عینک‌های هوشمند گنجاندند، بلکه به‌طور مداوم سه نوآوری بزرگ را نیز معرفی کردند: Gemini 3.5 Flash، مدل ویدیویی Omni و دستیار هوش مصنوعی جدید Spark.

پس از نمایش توانمندی‌هایشان، آنها با افتخار اعلام کردند که کاربران فعال ماهانه Gemini از مرز ۹۰۰ میلیون نفر عبور کرده است؛ همچنین رسماً کاهش قابل‌توجه قیمت‌ها را اعلام کردند.

معنای این کار ساده است: من از تو قوی‌ترم و از تو ارزان‌ترم.

آیا این یک اعلام جنگ نیست؟

۰۱

خیره‌کننده‌ترین رونمایی در این کنفرانس بدون شک معرفی Gemini 3.5 Flash بود.

معمولاً «Pro» نشان‌دهنده بدنه اصلی و «Flash» نشان‌دهنده سبکی و سرعت است.

از نظر پارامترهای مدل، 3.5 Flash در واقع کوچک‌تر از 3.1 Pro است، اما در تقریباً تمام تست‌های بنچمارک استنتاج و کدنویسی، عملکرد اولی به‌طور شگفت‌انگیزی بهتر بود:

در تست استدلال ریاضی پیچیده GSM8K، مدل 3.5 Flash امتیاز ۹۵.۸٪ را کسب کرد که از امتیاز ۹۳.۲٪ مدل 3.1 Pro پیشی گرفت؛ در نسخه کامل توانایی تولید کد SWE-bench، مدل 3.5 Flash به نرخ حل ۳۸.۴٪ دست یافت که بسیار فراتر از ۳۲.۱٪ مدل 3.1 Pro است...

چرا؟

طبق «گزارش فنی Gemini 3.5» که توسط DeepMind منتشر شد، دو فناوری اصلی وجود دارند که از همه مهم‌تر هستند.

تقطیر دانش افراطی (Extreme Knowledge Distillation): گوگل صرفاً برای آموزش Flash به انباشت قدرت محاسباتی تکیه نکرد؛ در عوض، آنها از مدل «Gemini 3.5 Ultra» که قبلاً منتشر نشده بود به عنوان مدل معلم برای انجام تقطیر کاهش ابعاد روی Flash استفاده کردند.

طبق تحلیل توییتی از جف دین، دانشمند ارشد DeepMind، نسبت تنظیم دقیق 3.5 Flash بر روی مجموعه‌داده‌های زنجیره منطقی باکیفیت نسبت به نسل قبل ۴۰۰٪ بهبود یافته است.

این بدان معناست که این مدل «مغز منطقی» یک مدل فوق‌بزرگ را به ارث می‌برد، نه یک «پایگاه دانش» طوطی‌وار.

معماری جدید MoE (ترکیب متخصصان): در داخل 3.5 Flash، گوگل از یک شبکه متخصص با دانه‌بندی دقیق‌تر استفاده کرده است.

MoE سنتی ممکن است تنها ۸ یا ۱۶ متخصص داشته باشد که در هر زمان فقط ۱-۲ مورد را فعال می‌کند، که برای پشتیبانی از مدل‌های در مقیاس تریلیون پارامتر کافی است.

طبق تحلیلی در یادداشت سرمایه‌گذاری زیرساخت هوش مصنوعی a16z در سال ۲۰۲۶، مدل 3.5 Flash از ۲۵۶ میکرو-متخصص استفاده می‌کند که در هر استنتاج تا ۴ مورد از کارآمدترین آن‌ها فعال می‌شوند.

این به آن اجازه می‌دهد تا فضای ویژگی چندوجهی بسیار بزرگی را پوشش دهد و در عین حال تعداد پارامترهای فعال را در سطح بسیار پایینی نگه دارد.

از نظر TTFT (زمان تا اولین توکن)، 3.5 Flash قبلاً به زیر ۶۵ میلی‌ثانیه رسیده است.

و یک پلک زدن انسان ۱۰۰-۱۵۰ میلی‌ثانیه طول می‌کشد.

به‌طور خلاصه، وقتی به عنوان یک ایجنت عمل می‌کند، از دیدگاه فیزیولوژیکی انسان، هیچ وقفه قابل‌توجهی وجود ندارد.

برای توسعه‌دهندگانی که نیاز به فراخوانی مکرر ابزارها، انجام چندین دور تفکر و تأخیر بسیار کم دارند، این یک زیربنای عالی برای ایجنت‌های فوق‌هوشمند است.

تنها با چنین بهینه‌سازی مهندسی افراطی می‌توان در یک محیط به‌شدت رقابتی، سلطه بر «استقرار لبه‌ای» را تثبیت کرد.

اولین مورد، مدل چندوجهی بومی Gemini Omni Flash است.

Omni به معنای همه‌توان است که با GPT-4o قبلی مطابقت دارد؛ تنها از روی نام آن می‌توان رقابت شدید را احساس کرد.

حداقل از نظر عملکرد، Gemini Omni Flash بسیار شایسته‌تر از GPT-4o برای استفاده از کاراکتر «o» است.

نسخه‌های اولیه مانند Sora یا Gemini 1.5 اساساً وصله‌پینه بودند که گفتار را به متن و سپس متن را به تصویر تبدیل می‌کردند.

اما Omni که این بار منتشر شد، یک هم‌ترازی چندوجهی بومی سرتاسری واقعی است. این مدل نه تنها می‌تواند به‌طور بومی انسجام زمانی و قوانین فیزیکی در ویدیوها را درک کند، بلکه تأخیر متوسط صنعت را از ۴۰۰-۶۰۰ میلی‌ثانیه به ۱۲۰ میلی‌ثانیه کاهش می‌دهد.

برای مثال، در طول کنفرانس: کاربری که عینکی با دوربین به چشم دارد، آب می‌ریزد و درست قبل از اینکه فنجان سرریز شود، Omni می‌تواند ۰.۵ ثانیه قبل از ریختن آب بگوید «بس کن، بس کن، بس کن!».

این استنتاج بلادرنگ از وضعیت فیزیکی دنیای واقعی ممکن است ساده به نظر برسد، اما بسیار مهم است: هوش مصنوعی رسماً از یک چت‌بات روی صفحه نمایش به یک ابزار کمکی در دنیای واقعی تکامل یافته است.

حتی اگر هنوز در مراحل اولیه باشد.

دومین مورد، دستیار هوشمند Spark است.

طبق گزارش The Verge در مصاحبه با معاون مهندسی اندروید، به Spark کنترل API بومی سیستم اندروید ۱۷ اعطا شده است.

به‌طور خلاصه، فرآیندهای پیچیده‌ای که قبلاً نیاز به باز کردن برنامه‌های زیادی داشتند، اکنون بدون کوچک‌ترین زحمتی قابل انجام هستند؛ فقط به Spark دستور دهید و او می‌تواند همه چیز را برای شما مدیریت کند، حتی ارسال پیام، سازماندهی ایمیل‌ها، خلاصه‌سازی برنامه‌ها، ردیابی تغییرات وب، شناسایی هزینه‌های پنهان در صورت‌حساب‌ها، پردازش دسته‌ای اسناد و غیره...

به عبارت دیگر، با وجود این دستیار هوش مصنوعی، ما تقریباً دیگر نیازی به اپلیکیشن‌ها نخواهیم داشت؛ هر عملیات پیچیده‌ای به یک دستور واحد ساده می‌شود.

سومین مورد، عینک‌های هوشمند است.

چرا دوباره عینک؟

حداقل از دیدگاه گوگل، دسترسی یکپارچه به بینایی و شنوایی، میزبان نهایی برای مدل‌های بزرگ چندوجهی است.

این عینک‌ها ظاهر پر زرق و برقی ندارند و کاملاً بر قابلیت‌های کاربردی تمرکز دارند:

لنزهای موج‌بر تمام‌رنگی Micro-OLED با وزن تنها ۴ گرم و عبور نور تا ۸۵٪؛

مجهز به تراشه لبه‌ای سبک Gemini که توسط خود گوگل توسعه یافته، تأخیر استنتاج محلی ≤۱۲ میلی‌ثانیه، قادر به ترجمه بلادرنگ، تشخیص تصویر و تحلیل صحنه بدون نیاز به اتصال به اینترنت؛

متصل به‌طور بومی به ایجنت Spark، همگام‌سازی داده‌های موبایل و ابری برای ارائه خدمات شخصی‌سازی شده مانند یادآوری برنامه، ترجمه بلادرنگ و هشدارهای محیطی.

به‌طور خلاصه، این عینک‌ها صفحه نمایش گوشی هوشمند را دور می‌زنند و ایجنت را از طریق عینک در دید اول‌شخص انسان ادغام می‌کنند.

محتوا بیش از حد زیاد است؛ به نظر می‌رسد گوگل تمام برگ‌های برنده خود را یک‌جا رو کرده و حقیقتی را به بازار اعلام کرده است:

الگوریتمی که نقطه ورود نداشته باشد، هیچ است.

دوران مانور دادن روی پارامترهای مدل و امتیازات بنچمارک به پایان رسیده است؛ ارائه‌دهندگان مدل‌های خالص دیگر هیچ خندقی (مزیت رقابتی) ندارند. آینده یک نبرد فضایی چهاربعدی از «لبه + ابر + اکوسیستم + سخت‌افزار» است.

گنجاندن هوش مصنوعی در یک بسته خانوادگی در واقع در حال تغییر شکل منطق توزیع ترافیک کل اینترنت است: از «کاربرانی که فعالانه جستجو/کلیک می‌کنند» به «ایجنت‌های هوش مصنوعی که فعالانه خدمات را توزیع می‌کنند».

برای تعداد زیادی از توسعه‌دهندگان و شرکت‌های کوچک و متوسط، این خبر بسیار خوبی است، زیرا قدرت محاسباتی و مدل‌های زیربنایی بسیار ارزان شده‌اند و به همه اجازه می‌دهند بر نوآوری در لایه اپلیکیشن تمرکز کنند.

اما سایر رقبا احتمالاً در این لحظه فقط در حال فحاشی هستند.

۰۲

وقتی آنها به‌طور اتفاقی از روی صحنه اعلام کردند که «کاربران فعال ماهانه Gemini رسماً از ۹۰۰ میلیون نفر فراتر رفته است»، هیاهوی زیادی در میان حضار ایجاد شد.

۹۰۰ میلیون نفر بیش از مجموع کاربران فعال ماهانه (MAU) تمام رقبا در ایالات متحده است.

آنها چگونه به این دست یافتند؟

پاسخ ساده و بی‌رحمانه است: تغذیه اجباری.

گوگل نیازی ندارد مانند شرکت‌های مستقل هوش مصنوعی برای جذب کاربر پول تبلیغات خرج کند؛ فقط کافی است یک آیکون در کنار نوار آدرس مرورگر کروم اضافه کند، یک کلید میانبر در نوار ناوبری پایین ۳ میلیارد گوشی اندرویدی ادغام کند و به‌روزرسانی‌ها را در سراسر Google Workspace اعمال کند...

هزینه جذب مشتری اساساً صفر است.

مهم‌تر از آن، در دوره آینده، نگاه ۹۰۰ میلیون کاربر فعال هنگام استفاده از عینک‌های هوشمند برای مشاهده محصولات، منطق اصلاح‌شده هنگام پردازش وظایف با Spark و تعاملات با مدل بصری Omni، حجم عظیمی از داده‌های بازخورد دنیای واقعی باکیفیت و چندوجهی تولید خواهد کرد که همگی Gemini 4 را تغذیه خواهند کرد.

این یک مانع بسیار مستحکم ایجاد می‌کند: هرچه مدل برای استفاده بهتر باشد -> کاربران بیشتری جذب می‌کند -> داده‌های بیشتری تولید می‌کند -> مدل بهتر می‌شود.

برای تقویت سریع این حلقه بسته، گوگل مستقیماً یک جنگ قیمتی علیه تمام رقبا اعلام کرد: بسته AI Ultra از ۲۴۹.۹۹ دلار در ماه به ۹۹.۹ دلار در ماه کاهش یافت.

قیمت ورودی برای یک میلیون توکن 3.5 Flash به ۰.۰۲ دلار و قیمت خروجی برای یک میلیون توکن به ۰.۰۸ دلار کاهش یافت.

این چه قیمت باورنکردنی است؟

در مقایسه، قیمت‌های متوسط برای مدل‌های هم‌سطح در صنعت حدود ۰.۱۵ تا ۰.۲ دلار برای ورودی و ۰.۶ تا ۱ دلار برای خروجی است.

با خرد کردن اعداد، مشتریان برتر روزانه حدود ۱ تریلیون توکن پردازش می‌کنند. انتقال ۸۰٪ از حجم کاری به Gemini 3.5 Flash برای یک سال می‌تواند بیش از ۱ میلیارد دلار صرفه‌جویی کند.

چرا جرأت می‌کنند هوش مصنوعی را با چنین قیمت پایینی بفروشند؟

بزرگترین تکیه‌گاه این است: زیرساخت قدرت محاسباتی یکپارچه عمودی.

از جمله غول‌هایی مانند OpenAI و Anthropic، ممکن است پر زرق و برق به نظر برسند، اما اساساً آنها هنوز «مستأجران قدرت محاسباتی» هستند که باید قدرت محاسباتی را از مایکروسافت و آمازون بخرند، که آنها نیز به نوبه خود باید به «هوانگ پیر» (جنسن هوانگ) پول بدهند.

گوگل TPU مخصوص خود را دارد و در ترکیب با فعال‌سازی پراکنده MoE بسیار کارآمد 3.5 Flash، هزینه‌های قدرت محاسباتی را به حد افراطی فشرده کرده است.

آنها می‌توانند به‌طور کامل از مزایای دارایی‌های سنگین خود برای شکست دادن شرکت‌های الگوریتمی خالص استفاده کنند.

منطق روشن است.

مدل‌های بزرگ پایه به‌سرعت در حال تبدیل شدن به کالا هستند. درست مانند آب و برق، آیا تا به حال دیده‌اید که یک شرکت آب‌وفاضلاب سودهای کلان غیرمتعارف داشته باشد؟

گوگل نمی‌ترسد که خود مدل‌های بزرگ پول‌ساز نباشند، زیرا می‌تواند آن را از طریق تبلیغات جستجو، خدمات ابری و کمیسیون‌های اکوسیستم اندروید جبران کند.

اما برای شرکت‌هایی مانند OpenAI، Anthropic، Cohere و Mistral که فقط به فروش API مدل‌های بزرگ متکی هستند، این غیرممکن است.

سرمایه‌گذاران احتمالاً اکنون می‌خواهند سر «اولترامن» (سم آلتمن) را فشار دهند و بپرسند: «قیمت API گوگل تنها یک‌دهم قیمت شماست و عملکردش از شما بهتر است. انتظار دارید مدل کسب‌وکار شما چگونه کار کند؟»

چشم‌انداز رقابتی در صنایع مختلف بدین ترتیب وارد یک دوره بازآرایی شتابان خواهد شد.

فروشندگان هوش مصنوعی باید به‌سرعت منابع ارزان‌تری برای قدرت محاسباتی پیدا کنند یا شروع به ساخت تراشه‌های خود کنند.

بعدی اپل است که هنوز در انزوا در حال ساخت‌وساز است.

ترکیب عینک‌های هوشمند + مدل بزرگ ویدیویی Omni + تصاحب بومی سطح سیستم توسط Spark، بدون شک آیفون را تهدید می‌کند.

طبق «گزارش پیش‌بینی روند لوازم الکترونیکی مصرفی» مک‌کواری: در سه سال آینده، انتظار می‌رود نسبت تعاملات بدون صفحه نمایش مبتنی بر بینایی/صدا از ۸٪ فعلی به ۳۵٪ جهش کند.

اگر کاربران به انجام کارها و سرگرمی‌های روزانه با استفاده از عینک و صدا عادت کنند، زمان استفاده از صفحه نمایش‌ها به‌طور اجتناب‌ناپذیری به‌طور قابل‌توجهی کاهش خواهد یافت.

اگر اپل نتواند دستگاه‌های پوشیدنی به‌اندازه کافی چشمگیری برای مقابله تولید کند (Vision Pro بیش از حد سنگین و گران است و محکوم به اسباب‌بازی بودن برای اقلیت است)، انحصار آن بر نقاط ورود در عصر اینترنت موبایل با چالش‌های بی‌سابقه‌ای مواجه خواهد شد.

این تکرار نیست؛ این انقلاب است.

گوگل با سه سلاح فناوری، ترافیک و قیمت، دستکش چالش را به سوی تمام رقبا پرتاب کرده است.

در این لحظه، آیا هنوز کسی هست که آن را به خاطر داشتن بیماری یک شرکت بزرگ مسخره کند؟

قیمت --

--

ممکن است شما نیز علاقه‌مند باشید

Coinbase stuffed USDC into Hyperliquid; who made money from this transaction?

On the surface, it seems like a good deal for Hyperliquid with doubled revenue, but in reality, Coinbase has obtained something more valuable: a global distribution channel for USDC. In a situation where it is besieged domestically and locked out by USDT overseas, embedding stablecoins into the larg...

It is Bankless that needs Ethereum, not Ethereum that needs Bankless

The role of Bankless is being replaced by a more decentralized, specialized, and diverse "narrative network."

a16z invested $356 million to aggressively acquire HYPE, surpassing Paradigm to become the largest external holding institution

Eight months later, the price of HYPE is approaching its previous high, and institutions like a16z, Goldman Sachs, and Grayscale are collectively taking action. What is their intention?

تکامل سرمایه‌گذاری کریپتو: از “هیجان توکن” تا “واقعیت درآمد”

Key Takeaways سرمایه‌گذاری کریپتو در حال تبدیل شدن از دوره‌ی حبابی به سمت تحلیل‌های واقعی درآمد است. بانک…

تحلیل وضعیت فعلی و پیش‌بینی آینده بیت‌کوین

Key Takeaways پیش‌بینی می‌شود که 55000 دلار سطح بحرانی برای بیت‌کوین باشد و شکستن این سطح، تغییرات عمده‌ای…

تغییرات سرمایه‌گذاری بیت‌کوین: آیا نقطه عطف بازار نزدیک است؟

Key Takeaways قیمت بیت‌کوین به طور متوسط ​​8٪ زیر سطح خرید مایکل سیلور قرار دارد. تحلیل‌گران پیش‌بینی می‌کنند…

محتوا

رمزارزهای محبوب

آخرین اخبار رمز ارز

ادامه مطلب
iconiconiconiconiconicon
پشتیبانی مشتری:@weikecs
همکاری تجاری:@weikecs
معاملات کمّی و بازارسازی:bd@weex.com
برنامه VIP:support@weex.com