logo

سرمایه‌گذاری CZ روی یک دانشجوی چینی: جذب ۱۱ میلیون دلار سرمایه برای یک ایجنت آموزشی

By: blockbeats|2026/03/28 20:09:09
0
اشتراک‌گذاری
copy
عنوان اصلی: "ژائو چانگ‌پنگ روی یک دانشجوی چینی سرمایه‌گذاری کرد؛ جذب ۱۱ میلیون دلار سرمایه برای ساخت یک ایجنت آموزشی"
نویسنده اصلی: Founder Park، جامعه‌ای برای کارآفرینان تحت نظر GeekPark

یک دانشجوی چینی، جذب ۱۱ میلیون دلار سرمایه در دور بذری؛ در حال حاضر این محصول بالاترین میزان تأمین مالی را در میان استارتاپ‌های دانشجویی سیلیکون‌ولی دارد.

محصولی به نام VideoTutor، یک ایجنت آموزشی برای مقطع K12 که می‌تواند تنها با یک جمله، ویدیوهای آموزشی/توضیحی شخصی‌سازی‌شده تولید کند، امروز از تکمیل دور جذب سرمایه ۱۱ میلیون دلاری خود خبر داد. این دور از تأمین مالی توسط YZi Labs رهبری شد و با مشارکت Baidu Ventures، Jin Qiu Fund، Amino Capital، BridgeOne Capital و چندین سرمایه‌گذار شناخته‌شده دیگر انجام گرفت.

این همچنین اولین شرکت محصول هوش مصنوعی است که توسط YZi Labs سرمایه‌گذاری شده است.

بنیان‌گذار، کای ژائو، اظهار داشت که VideoTutor موفق به کسب تأیید و حمایت CZ و تیم سرمایه‌گذاری YZi Labs شده و در نهایت این دور از تأمین مالی توسط YZi Labs رهبری شد. آن‌ها بیش از ۱۰ پیشنهاد سرمایه‌گذاری دریافت کردند و در نهایت این چند مورد را انتخاب کردند.

این محصول اولین نسخه خود را در ۱۴ مه (در بازار محصول Founder Park) عرضه کرد، به رسمیت شناخته شد و اعتبار PMF را دریافت کرد و در کمتر از ۵ ماه، این دور از تأمین مالی ۱۱ میلیون دلاری را بست.

از نظر کای، دلیل اصلی موفقیت آن‌ها در جذب این سرمایه این است که با فرض مسیر درست، این "تیم نابغه جوان" از یادگیری بصری برای رفع نقاط درد آزمون SAT آمریکا در حوزه K12 استفاده کردند.

"این حوزه برای کار جوانان مناسب‌تر است، همراه با توانایی عملی مهندسی بسیار خوب، و خود بنیان‌گذار نیز بینش و تجربه بسیار خوبی دارد و با اجرای بسیار سریع عمل می‌کند."

نه فقط آن‌ها، بلکه Cursor، Mercor، Pika، GPTZero و دیگران، دانشجویان دانشگاه‌های سیلیکون‌ولی یکی پس از دیگری رکوردهای جدیدی را در تأمین مالی با محصولات هوش مصنوعی ثبت می‌کنند و درک همه از کارآفرینی هوش مصنوعی را تغییر می‌دهند.

کارآفرینی در عصر هوش مصنوعی واقعاً متفاوت است.

ما با این جوانان در VideoTutor صحبت کردیم تا بفهمیم چرا آن‌ها توانستند این سرمایه بذری را جذب کنند، چه تغییراتی امروز در کارآفرینی سیلیکون‌ولی در حال رخ دادن است و چرا آن‌ها بسیار مشتاق استخدام کارمندان از شرکت‌های بزرگ فناوری چینی هستند.

مهمانان: مدیرعامل کای ژائو، مدیر فنی جیمز ژان

مصاحبه و ویرایش | وان‌هو

در ادامه محتوای مصاحبه آمده است که توسط Founder Park ویرایش و سازماندهی شده است.

سرمایه‌گذاری CZ روی یک دانشجوی چینی: جذب ۱۱ میلیون دلار سرمایه برای یک ایجنت آموزشی

حوزه K12: مسیر واقعی، یادگیری بصری است

Founder Park: با توجه به اینکه مؤسسات زیادی علاقه زیادی به پروژه شما نشان داده‌اند، فکر می‌کنید کدام جنبه کلیدی بیشترین تأثیر را بر آن‌ها گذاشته است؟

کای: من معتقدم اولین جنبه کلیدی، قرار گرفتن در مسیر درست است. حوزه آموزش هوش مصنوعی پتانسیل و چشم‌اندازهای بزرگی دارد و حوزه آموزشی که ما وارد آن شده‌ایم بر آزمون‌های ورودی دانشگاه‌های آمریکا یعنی SAT و AP متمرکز است. با هدف قرار دادن دانش‌آموزان دبیرستانی K12، ما شکاف نسلی بسیار کمی با پایگاه کاربران خود داریم. ما کل چرخه آمادگی آزمون و مطالعه را پشت سر گذاشته‌ایم، می‌دانیم نقاط درد آزمون‌ها و آمادگی کجاست و توانستیم محصولی بسازیم که واقعاً به این نقاط درد پاسخ می‌دهد.

دوم، تیم بسیار بااستعداد است. جیمز از Gemini می‌آید و مهندس اصلی در گوگل بود که در مهندسی هوش مصنوعی و الگوریتم‌ها تخصص داشت. من شخصاً سه تجربه در کارآفرینی آموزشی دارم و سفر کارآفرینی خود را با نرم‌افزارهای آموزشی از سال اول دانشگاه شروع کردم. در سال دوم، در ایجاد پروژه MathGPTPro شرکت کردم که در میان موارد دیگر، برای انجمن نوآوری Qijie انتخاب شد. من تجربه موفقیت‌آمیزی در ساخت محصولات آموزشی دارم.

سوم، در حوزه آموزش هوش مصنوعی که ما در آن هستیم، هسته اصلی در موتور انیمیشن نهفته است و ما توسعه‌دهندگان اصلی VideoTutor هستیم. ما تیمی هستیم که فناوری اصلی را بهتر از همه درک می‌کنیم و می‌توانیم موتور انیمیشن را با دقت بسیار بالا رندر کنیم.

خود تیم ژن بازاریابی بسیار قوی دارد و می‌داند چگونه به طور مؤثر تبلیغ کند.

VideoTutor با اجماع سرمایه‌گذاری رایج در میان VCهای اصلی آمریکایی، معروف به "تیم نابغه جوان"، همسو است. این به این ایده اشاره دارد که این حوزه برای فعالیت جوانان مناسب‌تر است، همراه با توانایی‌های عملی مهندسی بسیار قوی، و همچنین بنیان‌گذاری که بینش و تجربه عالی دارد و توانایی اجرای بسیار سریع دارد. من معتقدم این دلیل اجماعی است که همه سرمایه‌گذاران می‌توانند نسبت به آن خوش‌بین باشند.

VideoTutor زنگ بورس نیویورک را در روز دمو اقامتگاه YZi Labs EASY به صدا در می‌آورد

Founder Park: محصول شما قصد دارد چه مشکل اصلی در صنعت آموزش را حل کند؟

کای: در حال حاضر، محصولات یادگیری در بازار را می‌توان به دو دسته طبقه‌بندی کرد: محصولات یادگیری فعال و محصولات یادگیری غیرفعال. محصولات یادگیری غیرفعال، مانند Gauth بایت‌دنس، Chegg، AnswersAi و غیره، آنچه را که ما سناریوی "کمک به تکالیف" می‌نامیم پوشش می‌دهند، جایی که فرآیند یادگیری بسیار کوتاه است و عمدتاً شامل پرداخت هزینه توسط دانش‌آموزان برای دریافت پاسخ تکالیفشان است.

از سوی دیگر، VideoTutor سناریوی یادگیری فعال را پوشش می‌دهد. در این سناریو، ما نیازی به در نظر گرفتن انگیزه یادگیری دانش‌آموزان نداریم زیرا آن‌ها باید یاد بگیرند و در آزمون‌ها شرکت کنند، مانند آزمون‌های SAT و AP آمریکا. در این سناریو، نیاز زیادی به تجسم وجود دارد، زیرا ۸۰ درصد محتوای آزمون SAT آمریکا شامل دانشی مانند توابع و حساب دیفرانسیل و انتگرال است که نیاز به رندر تصاویر پیچیده دارند. موتور انیمیشن VideoTutor به خوبی برای پاسخگویی به این سناریو مجهز است.


علاوه بر این، میانگین ارزش سفارش در این حوزه بسیار بالا است. در ایالات متحده، حدود ۲.۶ میلیون دانش‌آموز هر ساله در آزمون SAT شرکت می‌کنند که منجر به تقاضای قابل توجهی برای خدمات پولی می‌شود. دوره‌های آفلاین SAT بسیار گران هستند و نه به صورت بسته‌ای، بلکه ساعتی شارژ می‌شوند که از میانگین ۱۵۰ دلار در ساعت شروع شده و در بیشتر موارد تا ۲۳۰ دلار می‌رسد. بسیاری از دانش‌آموزان و والدین مایل به پرداخت هزینه برای این دوره‌ها هستند. با این حال، VideoTutor می‌تواند به طور مؤثر آموزش‌های تحت هدایت معلم را تغییر دهد یا حتی جایگزین کند، زیرا ویدیوهای تولید شده توسط هوش مصنوعی فعلی تقریباً از محتوای تحت هدایت معلم قابل تشخیص نیستند. به این ترتیب، دانش‌آموزان می‌توانند معلم آمادگی آزمون شخصی‌سازی‌شده هوش مصنوعی خود را با حداقل هزینه داشته باشند.

Founder Park: کاتالیزور تصمیم برای توسعه این محصول در آن زمان چه بود؟

کای: در واقع، حتی قبل از ما، تیمی در استنفورد به نام Gatekeep Ai روی مفهوم مشابهی از یادگیری بصری کار می‌کرد. ما قبلاً از تأثیر این جهت آگاه بودیم. در تلاش‌های کارآفرینی قبلی، اکثر محصولات آموزشی اساساً از API جی‌پی‌تی استفاده می‌کردند و شبیه یک محصول ChatGPT Wrapper بودند. با این حال، ما متوجه شدیم که محصولات مبتنی صرفاً بر پرسش و پاسخ متنی محدودیت دارند. واضح است که کسب‌وکارهایی مانند Chegg و Gauth در حال افول هستند و بخش قابل توجهی از سناریوهای آن‌ها توسط ChatGPT جایگزین شده است، زیرا دانش‌آموزان می‌توانند ۲۰ دلار بپردازند و پاسخ سوالات تکالیف خود را از طریق ChatGPT دریافت کنند.

دوران محصولات مبتنی بر API-wrapper با لایه‌های بهینه‌سازی به اوج خود رسیده است.

با این حال، تولید بصری چندوجهی آینده بسیار امیدوارکننده‌ای دارد، به ویژه در زمینه سناریوهای یادگیری بصری مانند SAT آمریکا. متأسفانه، Gatekeep پیشگام بود اما ادامه نداد زیرا کمی زود راه‌اندازی شد، زمانی که توانایی‌های برنامه‌نویسی مدل بنیادی هنوز بالغ نشده بود و جی‌پی‌تی-۴ منتشر نشده بود. علاوه بر این، موتور انیمیشن ریاضی شامل رندر و الگوریتم‌هایی بود که آن‌ها بر آن غلبه نکردند. اما تیم ما بر تمام توسعه اصلی موتور انیمیشن تسلط یافت، این مشکل را حل کرد و رندر ویدیو را بسیار دقیق کرد.

PMF: تمایل قوی کاربران به پرداخت

Founder Park: پس از اینکه محصول شما آنلاین شد، با چندین مدرسه همکاری کردید. به نظر شما، چه زمانی یا کدام ویژگی باعث شد احساس کنید "ما این محصول را درست انجام دادیم، به نقطه درد به درستی ضربه زدیم" و احساس کردید که PMF را پیدا کردید؟

کای: شما می‌توانید از سه بعد به آن نگاه کنید.

اول، از نظر درآمد، VideoTutor تا به امروز درخواست‌های API از ۱۰۰۰ شرکت دریافت کرده است، از جمله تمام مؤسسات آموزشی بزرگ در ایالات متحده و حتی مؤسسات داخلی. علاوه بر این، بسیاری از مدارس می‌خواهند این سرویس را خریداری کنند. مستقیماً از سمت مصرف‌کننده، والدینی هستند که خودشان سرمایه‌گذار هستند. پس از تجربه محصول، آن را به همه اقوام و دوستان داد تا امتحان کنند و همه مایل به پرداخت هستند. سپس، او به نوعی شماره من را از جایی پیدا کرد، به من پیام داد و می‌خواست روی ما سرمایه‌گذاری کند. مصرف‌کنندگان تمایل بسیار قوی به پرداخت دارند.

دوم، از دیدگاه تقاضای کاربر. چرا آموزش معلم خصوصی یک‌به‌یک در ایالات متحده بسیار سفت و سخت است؟ زیرا والدین معتقدند که آموزش یک‌به‌یک مؤثر است و مایل به پرداخت هزینه برای آن هستند. اکنون، فناوری هوش مصنوعی چندوجهی می‌تواند اثر آموزش یک‌به‌یک را انسانی کند و پاسخ‌های شخصی‌سازی‌شده فوری ارائه دهد. علاوه بر این، درس‌های ویدیویی زنده ضبط شده توسط معلمان در آموزش آنلاین یک‌به‌یک در ایالات متحده در واقع هیچ تفاوتی با ویدیوهای تولید شده توسط هوش مصنوعی ندارند. این چیزی است که من آن را "تغییر تقاضا" می‌نامم. دوره‌های گران‌قیمت از پیش ضبط شده خریداری شده توسط دانش‌آموزان هیچ تفاوتی با آنچه هوش مصنوعی من تولید می‌کند ندارند. پس چرا از هوش مصنوعی استفاده نکنیم؟ هزینه‌های کمتر و نتایج آموزشی بهتری دارد.

ما بازخوردهای بسیار مثبتی از دانش‌آموزان دریافت کرده‌ایم و بسیاری از معلمان مایل به تبلیغ این محصول هستند. نرخ تکمیل اولیه و زمان استفاده به ویژه خوب بود. ۲۰۰ کاربر بذری که اکنون انتخاب کرده‌ایم از تجمع اولیه هستند.

سوم، موضوع سلیقه و حس محصول است. وقتی به تکرار ادامه می‌دهید، از پیشرفت کل صنعت آموزش تا نیازهای اصلی دانش‌آموزان و والدین که پرداخت می‌کنند، و سپس به تکامل خود محصول، وقتی به عقب نگاه می‌کنید، کل منطق حلقه بسته است. بنابراین از این سه بعد، می‌توانید ببینید که PMF قبلاً کافی است. مهم‌ترین چیز این است که تمایل بسیار بسیار قوی به پرداخت وجود دارد.

همکاری با FIZZ

Founder Park: بسیاری از کاربران مایل به پرداخت فعالانه هستند و برخی به طور فعال با شما تماس گرفته‌اند تا سرمایه‌گذاری کنند.

کای: درست است. در زمینه SAT و AP، تمایل به پرداخت قبلاً قوی است. میانگین ارزش سفارش در این حوزه از ۱۰۰ تا ۲۰۰ دلار شروع می‌شود و کلاس‌های آفلاین حتی گران‌تر هستند، احتمالاً حدود ۸۰۰ دلار. در ایالات متحده، ۲.۶ میلیون دانش‌آموز در آزمون SAT شرکت می‌کنند و ۳۷ درصد از این دانش‌آموزان مایل به پرداخت فعالانه هستند. این بازاری با تمایل بسیار قوی به پرداخت و تقاضا است. محصول ما می‌تواند این تقاضا را به خوبی برآورده کند.

Founder Park: در مسیر SAT، برای شرکت‌کنندگان در آزمون، آیا آن‌ها به هوش مصنوعی به اندازه یک معلم انسانی اعتماد خواهند کرد؟

کای: در حال حاضر، هوش مصنوعی که به سوالات در سطح آزمون‌هایی مانند SAT و AP آمریکا پاسخ می‌دهد، به ندرت مرتکب خطاهای واقعی می‌شود. در این صورت، چرا از معلم خصوصی آفلاین بهتر است؟ یک، ارزان‌تر است و دو، دانش‌آموزان می‌توانند بدون نگرانی از پرسیدن سوالات احمقانه یا بی‌حوصلگی معلم، به طور مداوم سوال بپرسند. آن‌ها می‌توانند ۲۴/۷ از هر کجا یاد بگیرند.

علاوه بر این، این بازار مقیاس‌پذیر است. پس از تکمیل بازار ایالات متحده، می‌توانیم به کانادا، آزمون‌های A-Level بریتانیا و غیره گسترش یابیم، جایی که تقاضا برای خدمات پولی بسیار بالا است.

Founder Park: در حال حاضر چگونه به جنبه پولی فکر می‌کنید؟

کای: ما اشتراک‌های ماهانه و همچنین مدل پرداخت بر اساس عملکرد ارائه می‌دهیم. من فکر می‌کنم هوش مصنوعی اکنون می‌تواند به پرداخت بر اساس عملکرد دست یابد. ما ممکن است یک بسته معرفی کنیم، برای مثال، شما ۷۹۹ دلار می‌پردازید و ما تضمین می‌کنیم که فرزند شما می‌تواند نمره کامل ریاضی SAT را کسب کند.

Founder Park: اما با پرداخت بر اساس عملکرد، آیا هنوز به ابتکار شخصی دانش‌آموز بستگی ندارد؟

کای: این ممکن است برای آزمون ورودی ملی دانشگاه در چین امکان‌پذیر نباشد زیرا نقاط ارزیابی زیادی وجود دارد، بیش از هزار مورد. با این حال، SAT آمریکا تنها ۶۲ مرکز آزمون دارد، با ۵۰ مرکز معمولی که اکثر دانش‌آموزان مشکلی ندارند و ۱۲ مرکز باقی‌مانده نیز می‌توانند توسط دانش‌آموزان تسلط یابند. مگر اینکه دانش‌آموز مشکل واقعی در استدلال منطقی داشته باشد، اساساً هیچ موقعیتی وجود ندارد که نتوانند یاد بگیرند. علاوه بر این، بهبود کارایی هوش مصنوعی بسیار مشهود است.

در واقع، بسیاری از معلمان آنلاین آمریکایی نیز این خدمات را ارائه می‌دهند. شما ۱۸۰۰ دلار به معلم می‌پردازید و معلم به کودک آموزش می‌دهد، با نرخ موفقیت حدود ۱۰۰ درصد زیرا سایت آزمون SAT ثابت است. تا زمانی که سطح هوش دانش‌آموز عادی باشد، نباید مشکلات زیادی وجود داشته باشد. با این حال، این رویکرد برای گائوکائو (آزمون ورودی ملی دانشگاه چین) کار نمی‌کند زیرا نمی‌توان آن را در مدت کوتاهی به طور قابل توجهی بهبود بخشید. علاوه بر این، گائوکائو نیاز به ایجاد شکاف نمره دارد و ممکن است سوالات دشواری ارائه دهد، در حالی که آزمون‌های ورودی دانشگاه‌های آمریکا سوالات دشوار مطلق ندارند زیرا عمدتاً آزمایش می‌کنند که آیا بر نکات دانش تسلط دارید یا خیر.

پرداخت بر اساس عملکرد نیز مدلی است که معلمان تکمیلی قبلی استفاده کرده‌اند و داشتن این پیش‌شرط ضروری است.

Founder Park: بنابراین، در قیمت‌گذاری شما، آیا هزینه مدل یک نگرانی است؟ آیا درصد بالایی است؟

کای: میانگین ارزش سفارش در حوزه ما بسیار بالا است، از ۶۹ دلار در ماه شروع می‌شود. هزینه مدل در حال حاضر بسیار پایین است، بنابراین مشکلی نیست. صنعت آموزش مانند حوزه کدنویسی نیست، جایی که همه قیمت‌ها را کاهش می‌دهند زیرا کدنویسی نیاز به پشتیبانی از زمینه زیادی دارد.

قیمت --

--

محصول با هدف دانش‌آموزان دبیرستانی، پلتفرم وب کلیدی است

Founder Park: به یاد دارم دفعه قبل اشاره کردید که نمونه اولیه نسخه اول شما تنها کمی بیش از دو ماه طول کشید تا توسعه یابد. در آن زمان چگونه به کل چرخه توسعه فکر کردید، مانند تقسیم کار، تصمیم‌گیری در مورد اینکه کدام ویژگی‌ها گنجانده شود و کدام نه؟

کای: اجماع تیم ما این است که تکرار باید سریع باشد زیرا سرعت برای دریافت سریع بازخورد از کاربران اولیه ضروری است.

پس از اینکه نسخه اول در توییتر منتشر شد، احساسات بزرگی ایجاد کرد و تعداد زیادی کاربر را جذب کرد. با این حال، بسیاری از این کاربران برنامه‌نویس، سرمایه‌گذار یا علاقه‌مندان به فناوری بودند که می‌توانیم به طور جمعی آن‌ها را "پذیرندگان اولیه فناوری" بنامیم. در آن مرحله، بازخوردی که از آن‌ها دریافت کردیم کاملاً پراکنده بود و خیلی ارزشمند نبود. ما هنوز نیاز داشتیم که این کاربران متنوع را غربال کنیم و کاربران بذری واقعاً اصلی، یعنی دانش‌آموزان دبیرستانی با کیفیت بالا را شناسایی کنیم و سپس از طریق مشاوره‌ها بازخورد مفید دریافت کنیم.

بازخورد کلیدی که دریافت کردیم این بود که دقت رندر ویدیو باید به ۱۰۰ درصد برسد، که اولویت اصلی برای بهینه‌سازی بود. ویژگی‌هایی مانند زیبایی‌شناسی رابط کاربری یا پشتیبانی از انتخاب‌های مختلف صدای TTS همگی حذف شدند. بازگشت به هسته محصول: کاری که ما انجام می‌دهیم یادگیری دانش در سناریوهای علمی است، بنابراین دقت رندر گرافیکی بسیار مهم است.

Founder Park: در آن زمان چگونه در مورد مدت زمان تولید تصمیم گرفتید؟

کای: در آن زمان، طولانی‌ترین مدت اوج تقریباً ۶ دقیقه بود. ملاحظه اصلی در آن زمان این بود که توضیح سوالات معمولی و نکات کلیدی نباید از ۶ دقیقه تجاوز کند. با این حال، در بازخورد بعدی، متوجه شدیم که برخی از دانش‌آموزان با توانایی یادگیری پایین‌تر امیدوار بودند که محتوا بتواند کندتر و عمیق‌تر توضیح داده شود. ما متوجه شدیم که مدت زمان نباید محدود شود و بیشتر به توانایی یادگیری کاربر بستگی دارد.

Founder Park: طولانی‌ترین مدت در حال حاضر چقدر است؟

کای: طولانی‌ترین باید در عرض یک ساعت باشد و می‌توانید به کاوش عمیق‌تر ادامه دهید. این تعاملی است و در زمان واقعی تولید می‌شود، اما این ویژگی اخیراً اضافه شده است؛ در نسخه‌های اولیه در دسترس نبود.

Founder Park: آیا ویژگی‌هایی وجود داشت که در ابتدا در نظر گرفتید اما بعداً متوجه شدید که چندان مهم نیستند و تصمیم گرفتید پیاده‌سازی نکنید؟

کای: برای مثال، یک اپلیکیشن. در آن زمان، ما فکر می‌کردیم که آیا باید سریعاً یک اپلیکیشن توسعه دهیم. با این حال، بعداً متوجه شدیم که اکثریت دانش‌آموزان آمریکایی عمدتاً از لپ‌تاپ یا آی‌پد برای مطالعه استفاده می‌کنند. اکثر مدارس K12 در ایالات متحده به دانش‌آموزان لپ‌تاپ‌های کروم‌بوک ارائه می‌دهند که به طور گسترده پذیرفته شده‌اند. تکالیف دانش‌آموزان نیز در رایانه‌هایشان تکمیل می‌شود. در دبیرستان، تقریباً هر دانش‌آموزی یک رایانه دارد و نسبت گوشی‌های هوشمند در محیط یادگیری کمتر از ۵ درصد است، درصد بسیار پایینی است.

Founder Park: بنابراین، اگر محصولی باشد که عمدتاً آموزش یا گروه‌های دانش‌آموزی را هدف قرار می‌دهد، نسخه وب برای توسعه اولویت بیشتری دارد و اپلیکیشن به آن اندازه مهم نیست.

کای: بله، در واقع، ما قبلاً این داده‌ها را می‌دانستیم زیرا من سال‌ها در ایالات متحده تحصیل کردم. بعداً، ما نظرسنجی‌هایی را با صد دانش‌آموز استخراج شده از ده‌ها هزار کاربر اولیه انجام دادیم. از میان این ۱۰۰ دانش‌آموز، بیش از ۹۰ نفر آن‌ها رایانه داشتند، بنابراین ما حتی بیشتر به این نکته متقاعد شدیم.

Founder Park: وقتی نسخه اول را راه‌اندازی کردید، آیا گروه K12 را هم هدف قرار دادید؟

کای: بله، و بعداً، ما به هدف قرار دادن این گروه ادامه دادیم. ما خودمان را رقیب Gauth نمی‌دانیم. ما بیشتر بر سناریوهای آموزش آزمون تمرکز می‌کنیم. تعداد زیادی از دانش‌آموزان دبیرستانی آمریکایی قبلاً آموزش آفلاین یا پلتفرم‌های یادگیری آنلاین را انتخاب می‌کنند و VideoTutor به طور مؤثر این تقاضا را تغییر داد.

Founder Park: آیا K12 حداقل در عرض یک سال گروه کاربری اصلی شما خواهد بود؟

کای: باید یک معیار اصلی در عرض دو سال باشد.

استفاده از مدل‌های بزرگ، اما نه تکیه صرف بر مدل‌های بزرگ

Founder Park: آیا می‌توانید به طور خلاصه پیاده‌سازی فنی فعلی خود را معرفی کنید؟ از نظر تولید دوره‌ها و گرافیک، VideoTutor واقعاً با اختلاف زیادی از سایر مدل‌های تولید ویدیو پیشی گرفته است. حتی زمانی که بسیاری از مدل‌ها برای تولید دقیق متن تلاش می‌کنند، فناوری شما بسیار چشمگیر است.

جیمز: ویدیوهایی که تولید می‌کنیم شامل متن و گرافیک هستند. فرآیند تولید کلی به شرح زیر است: ما از یک مدل زبانی بزرگ برای تولید متن و دستورالعمل‌های انیمیشن مربوطه استفاده می‌کنیم که سپس از طریق موتور انیمیشن ما رندر شده و در نهایت در ویدیو نمایش داده می‌شود.

بخش متن نسبتاً ساده است؛ ما مدل زبانی بزرگ را داریم که متن را تولید می‌کند، که سپس مستقیماً رندر می‌شود. با این حال، برای بخش انیمیشن، ما موتور رندر انیمیشن ریاضی خودمان را داریم. مزیت آن در دقت بالای رندر محتوا مانند محورهای مختصات و اشکال هندسی نهفته است که فناوری اصلی ما است.

در حال حاضر، خروجی مدل زبانی بزرگ فقط متن است. ایجنتی که توسعه داده‌ایم مانند دادن یک تکه کاغذ و یک خودکار به مدل زبانی بزرگ است که به آن اجازه می‌دهد انیمیشن‌های آموزشی مناسبی را که تصور می‌کند ترسیم کند. بخشی که ترسیم می‌شود کاملاً فناوری ما است.

Founder Park: کل فرآیند سنتز ویدیو، شامل صدا و تصویر، چگونه مدیریت می‌شود؟

جیمز: در ابتدا، کاربر یک پرامپت ارائه می‌دهد، مانند "قضیه فیثاغورث چیست؟" اولین قدم این است که مدل زبانی بزرگ را وادار کنیم تا تمام سناریوها را استدلال کند، معمولاً بسته به دشواری سوال، ۳ تا ۵ سناریو تعریف می‌کند. سپس، مدل یک اسکریپت خشن برای هر سناریو تولید می‌کند. متعاقباً، بر اساس اسکریپت برای هر سناریو، دور دوم استدلال انجام می‌شود تا متن، گرافیک مربوطه و متن صوتی برای هر سناریو تولید شود. متن صوتی سپس با استفاده از TTS سنتز می‌شود.

در نهایت، ما تمام سناریوها را به هم متصل می‌کنیم تا یک ویدیوی کامل ایجاد کنیم.

Founder Park: درک من این است که این رویکرد برای نسخه اول بود. اکنون، با افزودن فرآیند تعاملی درخواستی، آیا فرآیند تولید تغییر کرده است؟

جیمز: در واقع، تغییری ایجاد شده است. اکنون، برای اینکه کاربران بتوانند به سرعت محتوا را ببینند، ما ابتدا صحنه اولیه را برای مشاهده آن‌ها تولید می‌کنیم در حالی که صحنه‌های بعدی در پس‌زمینه رندر می‌شوند. وقتی کاربر سوالی می‌پرسد، ما گفتار آن‌ها را به متن تبدیل می‌کنیم و این متن را به همراه محتوای صحنه‌های قبلی به یک مدل زبانی بزرگ برای استدلال و برنامه‌ریزی صحنه آموزشی بعدی ارائه می‌دهیم. فرآیند رندر برای صحنه‌های بعدی سپس طبق قبل ادامه می‌یابد.

Founder Park: اگر کاربر پس از یک دقیقه گوش دادن سوالی داشته باشد، مستقیماً آن را می‌پرسد. پس از دریافت سوال، آیا سوال کاربر را به همراه محتوای قبلاً پوشش داده شده برای پردازش به مدل برمی‌گردانید؟ در طول این فرآیند، پس از اینکه کاربر سوال را می‌پرسد، آیا انیمیشن ادامه می‌یابد یا متوقف می‌شود؟

جیمز: تأخیر فعلی ما از ۲۰ تا ۳۰ ثانیه اولیه به کمتر از ۵ ثانیه کاهش یافته است. از نظر تعامل، ما انتقال‌هایی را پیاده‌سازی می‌کنیم تا اطمینان حاصل کنیم که کاربران بیش از حد بر این ۵ ثانیه تمرکز نمی‌کنند، که باعث می‌شود کل فرآیند یکپارچه باشد. در عرض ۴ تا ۵ ثانیه، کاربر می‌تواند محتوای تازه ارائه شده را بر اساس سوال خود ببیند.

طراحی فعلی شامل معلم هوش مصنوعی است که می‌گوید: "هوم، بگذار در موردش فکر کنم" و سپس تخته سیاه را پاک می‌کند، درست مانند شبیه‌سازی معلم واقعی. اگر فکر می‌کنید مشکلی در آنچه توضیح داده شده وجود دارد، من آن را پاک می‌کنم و دوباره برای شما می‌نویسم. این فرآیند طبیعی‌تر به نظر می‌رسد.

علاوه بر این، ما فقط منفعلانه منتظر سوالات کاربر نیستیم؛ ما همچنین آزمون‌هایی را در میانه راه انجام می‌دهیم. ما بر اساس بازخورد آزمون و سوالات کاربر استدلال می‌کنیم. علاوه بر این، به جای اینکه دائماً باز باشد، ما از کاربران می‌خواهیم که میکروفون را به صورت دستی فعال کنند، با یک اقدام برای باز و بسته کردن آن.

Founder Park: بنابراین، بر اساس این مکانیسم، می‌توانید توضیحی به مدت حداکثر حدود یک ساعت تولید کنید.

جیمز: دقیقاً، هیچ محدودیتی وجود ندارد. اگر کاربر دائماً سوال داشته باشد، می‌تواند به پرسیدن ادامه دهد.

کای: بله، هیچ محدودیت از پیش تعریف شده‌ای وجود ندارد. در واقع، VideoTutor با پیشرفت هوش مصنوعی چندوجهی در این مسیر حرکت می‌کند. ما تقاضا ایجاد نمی‌کنیم بلکه نیازهای موجود را بهتر برآورده می‌کنیم. به آموزش انسانی آفلاین نگاه کنید؛ چرا والدین آمریکایی مایل به پرداخت هزینه‌های بالا هستند؟ زیرا صنعت آموزش و پرورش ایالات متحده عمدتاً بر آموزش یک‌به‌یک متمرکز است که از ۱۰۰ دلار در ساعت شروع می‌شود. زیرا معلمان آفلاین می‌توانند در پرسشگری هدایت‌شده شرکت کنند، مشاهده کنند که کجا عدم درک دارید و سپس با سوالات پیگیری کنند. VideoTutor نیز قصد دارد به این اثر آموزشی معلم واقعی دست یابد و هر کودکی را قادر به تعامل و آموزش در زمان واقعی کند.

Founder Park: در طول کلاس‌های Founder Park، آیا دانش‌آموزان ملزم به روشن کردن دوربین‌های خود هستند؟

کای: نه واقعاً. اینکه آیا دانش‌آموزان دوربین‌های خود را روشن می‌کنند عمدتاً به قوانین حریم خصوصی ایالات متحده بستگی دارد. این محصول با ویژگی اجباری روشن بودن دوربین طراحی نشده است. تصمیم برای روشن کردن دوربین بر عهده دانش‌آموزان است. تعامل اصلی هنوز از طریق پرسش و بازخورد کلامی است.

Founder Park: از نظر فنی، آیا از استراتژی استفاده از مدل‌های کوچک در ترکیب با مدل‌های بزرگ مبتنی بر ابر پیروی می‌کنید، یا چگونه کار می‌کند؟

کای: این یک ترکیب است. ما یک مجموعه داده داخلی با بیش از ۱۰۰,۰۰۰ نقطه داده ویدیویی داریم. بهترین داده‌ها در این مجموعه‌های داده به صورت دستی دو بار حاشیه‌نویسی می‌شوند و سپس برای تنظیم دقیق مدل استفاده می‌شوند. برای مثال، ما بیش از ۸,۰۰۰ نقطه داده آموزشی نمونه SAT داریم. این مدل‌های کوچک تنظیم‌شده در کنار مدل‌های عمومی مبتنی بر ابر مانند Claude و Gemini کار می‌کنند.

Founder Park: آیا استفاده از Claude، Gemini یا GPT بر عملکرد اصلی محصول تأثیر می‌گذارد؟

کای: ما عمدتاً بر حوزه K12 تمرکز می‌کنیم و سطح مدل پایه قبلاً کافی است. با این حال، برای اطمینان از دقت ۱۰۰ درصدی، ما از دو مدل به طور همزمان برای تأیید استفاده می‌کنیم. اگر دو مدل پاسخ یکسانی ارائه دهند، اساساً هیچ خطایی وجود ندارد. در مورد تولید کد، Claude عمدتاً به دلیل توانایی‌های کدنویسی قوی آن استفاده می‌شود.

Founder Park: گلوگاه فنی فعلی محصول کجاست؟ آیا در توانایی‌های مدل است یا در تولید کد؟

کای: توانایی‌های مدل یک جنبه است. جنبه دیگر رندر است که ما موفق شدیم آن را به زیر ۵ ثانیه کاهش دهیم. با استقرار GPU بیشتر، حتی سریع‌تر خواهد شد. ظرفیت حافظه بلندمدت چالش دیگری است. ما باید داده‌های رفتار یادگیری بلندمدت دانش‌آموزان را جمع‌آوری کنیم، بفهمیم کدام مفاهیم را دانش‌آموز درک نمی‌کند و اگر موضوعی را که یک ماه پیش یاد گرفته فراموش کرده است، به آن‌ها یادآوری کنیم.

جیمز: از نظر زمان رندر، ما تلاش‌های زیادی و پیشرفت‌های فنی مداوم انجام داده‌ایم، از ۲ دقیقه اولیه به ۱ دقیقه و اکنون به زیر ۱۰ ثانیه. هدف نهایی ما دستیابی به تأخیر رندر تقریباً صفر است، جایی که به محض اینکه کاربر سوالی می‌پرسد، استدلال تمام می‌شود و نتایج بلافاصله نمایش داده می‌شوند. این یک چالش سخت است که تیم ما در حال حاضر با آن مقابله می‌کند، اما مسیر جدیدی پیدا کرده‌ایم.

تمرکز بر نتایج آزمون، نه نرخ تکمیل

Founder Park: چگونه در حال حاضر معیارهای اصلی محصول خود را اندازه‌گیری می‌کنید؟ چگونه تعیین می‌کنید که آیا یک ویدیو برای کاربران مفید است؟

کای: مهم‌ترین معیار آزمون است. در نسخه جدید، پس از تماشای ویدیو، در پایان یک آزمون وجود خواهد داشت. اگر به درستی پاسخ دهید، ثابت می‌کند که می‌فهمید؛ اگر نه، نشان می‌دهد که مفهوم به وضوح توضیح داده نشده است.

ارزیابی اثربخشی یادگیری نمی‌تواند صرفاً به نرخ تکمیل متکی باشد زیرا برخی از دانش‌آموزان ممکن است محتوا را در نیمه راه درک کنند. وقتی دانش‌آموزی به نقطه خاصی در ویدیو می‌رسد و از طریق یک آزمون درک خود را نشان می‌دهد، می‌تواند بقیه را رد کند. معیار اصلی محصول ما این است که ببینیم چند دانش‌آموز از طریق این رویکرد نمرات خود را بهبود بخشیده‌اند.

Founder Park: با این حال، آزمون نهایی در محیط متفاوتی گرفته می‌شود. چگونه نتایج را به دست می‌آورید تا تعیین کنید که آیا آن‌ها قبول شده‌اند؟

کای: این مربوط به فرهنگ محصول در ایالات متحده است، جایی که کاربرانی که از طریق یک محصول به نتایج مثبت دست می‌یابند، تمایل دارند به طور خودجوش تجربیات خود را به اشتراک بگذارند. بسیاری از دانش‌آموزانی که از VideoTutor برای آمادگی آزمون SAT استفاده می‌کنند، داوطلبانه برای به اشتراک گذاشتن تجربیات و نمرات خود پیش می‌آیند. ما همچنین آن‌ها را به عنوان سفیران پردیس برای انتشار بیشتر به کار می‌گیریم.

ما تیمی متشکل از ۲۰ دانش‌آموز دبیرستانی داریم که به عنوان سفیران پردیس خدمت می‌کنند. اگر به موفقیت اولیه Mercor نگاه کنید، آن‌ها عمدتاً از مدل "داستان موفقیت کاربر" استفاده کردند. Mercor در ابتدا به بسیاری از برنامه‌نویسان هندی کمک کرد تا در ایالات متحده شغل پیدا کنند. متعاقباً، آن‌ها با این کاربران تماس می‌گرفتند، یک داستان کاربر ایجاد می‌کردند و به اشتراک می‌گذاشتند که چگونه از Mercor برای یافتن شغل استفاده کردند. این تبلیغات دهان به دهان عالی ایجاد کرد. همین امر در مورد VideoTutor صدق می‌کند؛ ما قصد داریم دانش‌آموزان بیشتری با استفاده از محصول به نتایج قابل توجهی دست یابند و سپس تجربیات خود را از طریق داستان‌های کاربر به اشتراک بگذارند.

Founder Park: دانش‌آموزان عمدتاً تجربیات خود را کجا به اشتراک می‌گذارند؟

کای: دانش‌آموزان عمدتاً در تیک‌تاک به اشتراک می‌گذارند، در حالی که والدین در گروه‌های فیس‌بوک فعالیت می‌کنند.

Founder Park: با نگاه به یک بازه زمانی شش ماهه یا یک ساله، رویکرد برنامه‌ریزی شده شما برای رشد محصول چیست؟

کای: اساساً، VideoTutor یک محصول B2C است که در آن تبلیغات دهان به دهان بسیار مهم است. بسیاری از برنامه‌های هوش مصنوعی موفق در ابتدا به تبلیغات دهان به دهان از پذیرندگان اولیه متکی بودند؛ برای مثال، وقتی یک طراح متوجه شد که یک محصول مفید است، این خبر را پخش کرد. برای ما، معیار اصلی این است که چند شرکت‌کننده در آزمون SAT نمرات خود را با استفاده از محصول ما بهبود بخشیدند و سپس این موفقیت را با سایر دانش‌آموزان و والدین به اشتراک گذاشتند. والدین عمدتاً از فیس‌بوک و اینستاگرام استفاده می‌کنند، در حالی که دانش‌آموزان تیک‌تاک را ترجیح می‌دهند، بنابراین ما از این پلتفرم‌ها برای انتشار استفاده می‌کنیم. هنگامی که اجماع در مورد کیفیت محصول ما از طریق تبلیغات دهان به دهان ایجاد شد، معلمان در مدارس به طور طبیعی متوجه می‌شوند. دلیل اینکه بسیاری از مدارس خیلی زود از ما آگاه شدند این است که معلمان زیادی از محصول استفاده کردند، آن را مفید یافتند و به مسئولان تدارکات مدرسه توصیه کردند. بنابراین، تمرکز اصلی بر تبلیغات دهان به دهان B2C باقی می‌ماند و معیار کلیدی این است که چند دانش‌آموز پس از استفاده از محصول نمرات خود را بهبود بخشیدند.

Founder Park: وضعیت کلی و زمان انتشار مورد انتظار نسخه جدید Founder Park چیست؟

کای: ما امیدواریم که آن را در عرض دو ماه در زودترین زمان به طور رسمی منتشر کنیم. تا آن زمان، دانش‌آموزان قادر خواهند بود پاسخ‌ها را با تأخیر بسیار کم دریافت کنند و رندر گرافیکی در سناریوهای STEM ۱۰۰ درصد دقیق خواهد بود. البته، ما فعلاً سناریوهای رقابتی یا موضوعات پیچیده دانشگاهی مانند جبر خطی را پوشش نخواهیم داد. تمرکز ما بیشتر بر حوزه K12 خواهد بود.

Founder Park: موانع یا خندق‌های فعلی برای VideoTutor چیست؟

کای: فکر می‌کنم چند نکته وجود دارد. اول، فلای‌ویل داده. پشت هر ویدیو کد است و داده‌های ویدیویی تولید شده توسط کاربر خوب، پس از حاشیه‌نویسی ثانویه، می‌تواند برای بازآموزی و تنظیم دقیق مدل‌ها استفاده شود. هرچه داده‌ها بیشتر باشد، کیفیت ویدیو بهتر است. علاوه بر این، داده‌های رفتار یادگیری وجود دارد. دانستن اینکه کدام موضوعات برای دانش‌آموزان مختلف ضعیف است به ما امکان می‌دهد یک فلای‌ویل داده ایجاد کنیم؛ هرچه افراد بیشتری از آن استفاده کنند، محصول دانش‌آموزان را بهتر درک می‌کند. دوم، ما یک مزیت تکنولوژیکی پیشرو داریم، مانند الگوریتم موتور انیمیشن. اگرچه خود الگوریتم مزیت اصلی نیست، با تکرارهای سریع و افزایش داده‌های ما، مزیت آشکارتر خواهد شد.

نکته سوم برند است. VideoTutor قبلاً به یک برند پیشرو در حوزه آموزش هوش مصنوعی در محافل والدین آمریکای شمالی تبدیل شده است و اعتماد والدین نیز یک خندق نامشهود است.

Founder Park: در سه تا پنج سال آینده، انتظار دارید VideoTutor در نهایت به چه محصولی تبدیل شود؟

کای: در آینده، امیدواریم VideoTutor بتواند به یک معلم هوش مصنوعی برای همه برای یادگیری دانش STEM تبدیل شود. ما فقط بر STEM تمرکز می‌کنیم. معتقدم از Duolingo پیشی خواهد گرفت. Duolingo یک محصول یادگیری زبان در سطح جهانی است، اما در حوزه STEM، هنوز محصولی در سطح جهانی وجود نداشته است زیرا STEM نیاز به رندر گرافیکی گسترده دارد. اکنون که فناوری مدل بنیادی آماده است، معتقدم حوزه STEM "Duolingo" بعدی را به دنیا خواهد آورد.

ما در حال استخدام هستیم، به ویژه به دنبال استعداد از شرکت‌های بزرگ فناوری داخلی هستیم.

Founder Park: شما قبلاً چندین تجربه کارآفرینی داشته‌اید. آن‌ها عمدتاً در مورد چه بودند؟

کای: من در حال حاضر سال سوم هستم. وقتی سال اول بودم، کسب‌وکاری را با جیمز شروع کردم تا یک محصول آموزشی ایجاد کنیم و ۲۰۰,۰۰۰ دلار سرمایه فرشته دریافت کردیم. اگرچه آن سرمایه‌گذاری شکست خورد، اما تجربه ارزشمندی به دست آوردم: شما نمی‌توانید در رقابت همگن گیر کنید. در آن زمان، ما یک اپلیکیشن توسعه دادیم، اما محصولات مشابه زیادی در بازار وجود داشت، بنابراین ما در جنگ قیمت زود بودیم و شارژ برای خدمات چالش‌برانگیز بود.

در طول دومین تلاش کارآفرینی خود، به تیم دیگری، MathGPTPro، به عنوان هم‌بنیان‌گذار پیوستم و چند ماه ماندم. در آن مرحله، یاد گرفتم چگونه معیارهای محصول را تحلیل کنم، چگونه محصول بسازم و چگونه به رشد کاربر دست یابم. همچنین در آن زمان بود که به این نتیجه رسیدم: محصولات آموزشی مبتنی بر پاسخ متنی به حد خود رسیده بودند. این به این دلیل بود که آن‌ها تفاوت چندانی با ChatGPT نداشتند و بانک‌های سوال دانش ساختاریافته مانند آنچه پلتفرم‌هایی مانند Homework Help سرمایه‌گذاری سنگینی روی آن کرده بودند نیز توسط قابلیت‌های ویرایش مدل‌های بزرگ جایگزین می‌شدند. بنابراین، برای سومین سفر کارآفرینی خود، می‌دانستم که تجسم یک روند اجتناب‌ناپذیر است.

عکس ژائو کای در حال ارائه در دانشگاه هاروارد با سم آلتمن

Founder Park: علاوه بر درک محدودیت‌های محصولات مبتنی بر متن از طریق تجربیات گذشته خود، آن تجربیات از نظر تیم یا جنبه‌های دیگر چگونه به شما در کاری که اکنون با VideoTutor انجام می‌دهید کمک کرد؟

کای: بسیار مفید بود.

اول، به من کمک کرد تا جهت و پتانسیل آینده محصول را بهتر ارزیابی کنم. من تکامل کلی محصول را با نگاه کردن به ترافیک وب‌سایت رقیب و درآمد ارزیابی می‌کردم.

دوم، از نظر توسعه محصول، به من کمک کرد تا سرعت توسعه محصول، از جمله طراحی محصول، یکپارچه‌سازی فرانت‌اند-بک‌اند و اینکه به کدام معیارها نگاه کنم را بهتر بسنجم.

سوم، از نظر مدیریت تیم و فرهنگ سازمانی، توانایی من را افزایش داد. من یک سیستم مدیریتی کامل‌تر ایجاد کردم، از جمله تعریف مسئولیت‌های هر عضو تیم، پاداش‌ها و توزیع سهام. علاوه بر این، یاد گرفتم چگونه بودجه جمع‌آوری کنم. ما این دور تأمین مالی ۱۰ میلیون دلاری را در کمتر از ۲۰ روز تکمیل کردیم.

Founder Park: در حال حاضر چند نفر در تیم شما هستند؟

کای: ۶ نفر، و همه با هم زندگی می‌کنند.

Founder Park: تیم در ابتدا چگونه شکل گرفت؟

کای: جیمز و من قبلاً دو کسب‌وکار با هم شروع کرده بودیم. ما هر دو از یک مدرسه فارغ‌التحصیل شدیم و در سال اول خود با هم یک اپلیکیشن توسعه دادیم. تا سال دوم، من کسب‌وکار دیگری را با دو نفر دیگر شروع کردم و همه با هم آشنا شدیم. وقتی متوجه چشم‌انداز محصول قابل توجهی شدیم که این فناوری می‌توانست به ارمغان بیاورد، با یکدیگر تماس گرفتیم تا تیمی تشکیل دهیم تا روی این محصول کار کنیم. همه فارغ‌التحصیل بودند و شریک دیگر تیم ما، نیک، هم‌اتاقی دانشگاه من نیز بود.

Founder Park: شما اکنون همچنین قصد دارید تیم خود را گسترش دهید. به دنبال استخدام چه نوع افرادی هستید؟

کای: ما عمدتاً به دنبال نقش‌هایی در بک‌اند، فرانت‌اند، مدل‌های زبانی بزرگ و UI/UX هستیم، ترجیحاً با تجربه. از آنجایی که اکنون مرحله آزمون و خطا را پشت سر گذاشته‌ایم و وارد مرحله ساخت سریع محصول شده‌ایم، به افراد با تجربه نیاز داریم تا به ما در رشد کمک کنند.

Founder Park: شما به مهندسان، مدیران محصول و مدیران رشد با تجربه نیاز دارید تا محصول را از ۱ به ۱۰، یا حتی از ۱۰ به ۱۰۰ برسانید.

کای: دقیقاً، این مرحله‌ای است که در آن هستیم. ما پیش‌بینی می‌کنیم تیم را به ۹ تا ۱۰ نفر گسترش دهیم، با تمرکز بر استخدام مهندسان.

این دور استخدام ممکن است در داخل کشور باشد، بنابراین ترکیبی از مصاحبه‌های حضوری و از راه دور خواهد بود.

Founder Park: امیدوارید این فرد چه نوع شخصی باشد؟

کای: ما کسی را ترجیح می‌دهیم که تجربه در شرکت‌های بزرگ فناوری داشته باشد، مانند بایت‌دنس یا میتوان. بایت‌دنس فرهنگ سازمانی سریع و پویایی دارد که برای استعدادهای جوان ارزش قائل است. افرادی که در بایت‌دنس آموزش دیده‌اند معمولاً متدولوژی‌ها و توانایی‌های خوبی دارند و پس از پیوستن به ما، می‌توانند این تجربیات موفق را به ارمغان بیاورند و در یادگیری ترکیبی شرکت کنند.

ما به دنبال افرادی هستیم که با چالش‌هایی در شرکت‌های برتر فناوری چینی مواجه شده‌اند، تجربه تکرار سریع دارند و از مرحله کارآفرینی دانشجویی فراتر رفته‌اند. ما به دنبال استخدام مبتدیان نیستیم؛ ما به افراد با تجربه نیاز داریم که کهنه‌کاران صنعت سنتی نیستند. کهنه‌کاران صنعت ممکن است مسئولیت‌های خانوادگی داشته باشند که مانع از غوطه‌ور شدن کامل آن‌ها در کار شود. بنابراین، ما به دنبال افرادی در سطح متوسط هستیم—جوان، پرانرژی و مایل به تعهد.

ما مایل به ارائه گزینه‌های سهام قابل توجه به استعدادهای برجسته هستیم. اگرچه ما ۱۱ میلیون دلار سرمایه جذب کرده‌ایم، چرا مهندسان را در ایالات متحده استخدام نمی‌کنیم؟ به این دلیل است که معتقدیم مهارت محصول و توانایی‌های مهندسی در چین واقعاً عالی است. این موج قطعاً شاهد تیمی خواهد بود که توسط کارآفرینان چینی اداره می‌شود و محصولات عالی تولید می‌کند که بین‌المللی خواهند شد. بسیاری از برنامه‌های هوش مصنوعی امروزه توسط افراد چینی ساخته می‌شوند که توانایی‌های مهندسی مهیب در چین را به نمایش می‌گذارند. این مزیت ما است و ما قصد داریم از نقاط قوت بین ایالات متحده و چین استفاده کنیم.

دانشجویان دانشگاه‌های سیلیکون‌ولی همگی در حال کارآفرینی در هوش مصنوعی هستند

Founder Park: به ویژه در سیلیکون‌ولی اکنون، روند کارآفرینی دانشجویان دانشگاه به ویژه برجسته است. چه نوع وضعیتی می‌بینید؟

کای: بیایید به واقعیتی در مورد این دور از شرکت‌هایی که ده‌ها میلیارد دلار ارزش دارند نگاه کنیم: Mercor، شرکتی که بر استخدام هوش مصنوعی متمرکز است، بیش از ۳ میلیارد دلار سرمایه جدید جذب کرده و به ارزش ده‌ها میلیارد دلار رسیده است؛ در همین حال، Cursor قبلاً به ارزش جامد ۱۰ میلیارد دلار رسیده است. موارد دیگری مانند GPTZero، Pika و غیره نیز وجود دارند. این‌ها همگی پروژه‌های استارتاپی دانشجویی هستند، به ویژه بنیان‌گذاران Cursor و Mercor دانشجویان انصرافی در سال سوم خود هستند.

این موج کارآفرینی جوانان ویژگی مشترکی دارد که رقابت بسیار متمایز است. آن‌ها بر یک حوزه بسیار باریک تمرکز می‌کنند و روی چیزهای عمومی کار نمی‌کنند. برای مثال، Mercor بر استخدام هوش مصنوعی تمرکز دارد و در ابتدا فقط برنامه‌نویسان هندی را استخدام می‌کرد.

نکته دوم محیط است. محیط سرمایه کل سیلیکون‌ولی و نوآوری مردمی، مانند استنفورد، YC، صندوق پیتر تیل، همگی از کارآفرینی دانشجویان دانشگاه در اولین مرحله حمایت می‌کنند، صرف نظر از اینکه ایده بالغی دارید یا نه، و مایل به حمایت از شما هستند، شبکه قدرتمندی از ارتباطات را فراهم می‌کنند.

نکته سوم، فکر می‌کنم کیفیت این دانشجویان دانشگاه است. چه ما باشیم و چه کسانی که از سیلیکون‌ولی بیرون می‌آیند، همگی روحیه ماجراجویی بسیار شجاعانه و توانایی یادگیری قوی داریم. این روحیه ماجراجویانه، که جرات کاوش دارد، ممکن است توسط بسیاری از دانشجویان در چین وجود نداشته باشد. زیرا در سیلیکون‌ولی، شما با دیدن افراد هم‌سن خود که موفق می‌شوند، از بسیاری از موارد موفق اطراف خود الهام می‌گیرید و محیط سرمایه نیز مایل به باور به جوانان است.

برای من، من همچنین هزینه‌ها و مزایا را در آن زمان مقایسه کردم. اگر انتخاب می‌کردم دانشگاه را تمام کنم و سپس شغلی پیدا کنم، ممکن بود نتوانم هزینه تحصیل در خارج از کشورم را بازپرداخت کنم و ممکن بود بازگشت سرمایه عالی نداشته باشم. اما اگر انتخاب می‌کردم کسب‌وکاری را شروع کنم، می‌توانستم در سن بسیار پایین دیوانه‌وار یاد بگیرم و زندگی من احتمالات بی‌نهایت داشت. من همیشه از وقتی جوان بودم می‌خواستم شرکت بزرگی بسازم.

Founder Park: چرا نسل امروز دانشجویان دانشگاه می‌توانند شرکت‌هایی به ارزش ده‌ها میلیارد دلار راه‌اندازی کنند، در حالی که در گذشته، فروش یک شرکت به قیمت یک یا دو میلیون دلار بسیار قابل توجه تلقی می‌شد؟ آیا عامل تبلیغات و حباب هوش مصنوعی در این وجود دارد؟

کای: فکر نمی‌کنم کاملاً حباب باشد. Cursor ۴.۵ میلیارد دلار درآمد واقعی دارد که بسیار قابل اعتماد است. پشت این، متدولوژی و بینش شناختی این نسل جوان از تیم‌ها بسیار مهم است. به این تیم‌ها نگاه کنید؛ پیشینه آن‌ها کاملاً برجسته است و توانایی یادگیری بسیار خوبی دارند.

Cursor در ابتدا به برنامه‌نویسان دانشجوی دانشگاه متکی بود و این افراد پذیرش بالایی از هوش مصنوعی دارند و بازخورد قوی ارائه می‌دهند. خود بنیان‌گذار یک مهندس نابغه کوچک است که می‌تواند کاربران را عمیقاً درک کند، با توانایی‌های تکرار مهندسی قوی. در ابتدا، چهار نفر از آن‌ها محصول را راه‌اندازی کردند. هنگامی که محصول را به خوبی تکرار کردند، شهرت خوبی نزد کاربران ایجاد کردند، درآمد کسب کردند و سرمایه‌گذاران از از دست دادن مارک زاکربرگ بعدی ترسیدند، بنابراین سرمایه برای حمایت از آن‌ها آمد.

در بنیادی‌ترین سطح، شرط کلیدی این است که بسیاری از فناوری‌ها در این موج هوش مصنوعی جدید هستند و جوانان سریع یاد می‌گیرند، عملی، قابل اعتماد و جسور هستند، که امکان درک شدید کاربر و سرعت تکرار فوق‌العاده سریع برای پیشی گرفتن از محصولات سنتی را فراهم می‌کند. برای مثال، قبل از Cursor، گیت‌هاب کوپایلوت نیز عملکرد بسیار خوبی داشت، اما چرا موفق نشد؟ به دلیل تجربه کاربری و سرعت اجرا بود.

Founder Park: آیا می‌توانیم بگوییم که چون هوش مصنوعی یک فناوری جدید است، بسیاری از محصولات نیز باید از دیدگاه جدیدی دیده شوند؟

کای: بله، این نسل جوان‌تر بینش‌های شناختی عمیق‌تری نسبت به نسل قبلی کارآفرینان دارد و می‌تواند به کاربران نزدیک‌تر باشد. کاربران اصلی هوش مصنوعی اکنون متولدین پس از ۲۰۰۰ هستند و سرعت یادگیری، سرعت تکرار بازخورد و تحمل آن‌ها همگی سریع‌تر از نسل قبلی کارآفرینان است.

بنابراین، سرعت تکرار شناختی کلیدی است. در عصر اینترنت موبایل، تکرار فناوری بر اساس سال‌ها یا فصل‌ها بود، اما در عصر هوش مصنوعی، تکرار فناوری می‌تواند بر اساس روزها باشد. به عنوان یک بنیان‌گذار، باید سریع یاد بگیرید و جوانان می‌توانند تا دیروقت بیدار بمانند و رقابتی‌تر هستند.

Founder Park: برخی رسانه‌ها گفتند که بسیاری از بنیان‌گذاران سیلیکون‌ولی نیز شروع به کار ۹۹۶ کرده‌اند، نظر شما چیست؟

کای: برخی از دوستان کارآفرین سفیدپوست من، که پول زیادی جمع کرده‌اند، نیز ۹۹۶ کار می‌کنند. آن‌ها مانند ما هستند، یک خانه بزرگ اجاره می‌کنند، جایی که همه با هم زندگی و کار می‌کنند. فکر می‌کنم ۹۹۶ بیشتر یک محیط اجباری است. امروزه، سیلیکون‌ولی کمی شبیه تب طلا است و هیچ‌کس نمی‌خواهد عقب بماند، بنابراین تنها راه تکرار سریع محصولات است و باید برای تکرار سریع شب‌های دیروقت کار کرد. این نوعی محیط است که مردم را مجبور به انجام این کار می‌کند.

Founder Park: آیا این کارآفرینان دانشجوی دانشگاه در سیلیکون‌ولی روندی در انتخاب مسیر خود دارند؟

کای: فکر می‌کنم چه آموزش ما باشد و چه دیگران، همه روندی دارند که شروع کسب‌وکار در منطقه راحتی خود است. منطقه راحتی به درک کافی شما از حوزه و کاربران اشاره دارد. بنیان‌گذار Cursor درک عمیقی از کدنویسی دارد و ما نیز آموزش انجام می‌دهیم زیرا درک خوبی از این گروه از افراد داریم. امروزه، جوانان بیشتر احتمال دارد کسب‌وکاری را در منطقه راحتی شناختی موجود خود شروع کنند، نه اینکه با عجله به یک حوزه ناآشنا بپرند. زیرا به این ترتیب، بازخورد کاربر را به اندازه کافی سریع و دقیق دریافت خواهید کرد.

انباشت شناختی نیز وجود دارد. ما سه بار آموزش انجام داده‌ایم و درک من به طور مداوم در حال انباشت است. این دانشجویان دانشگاه احتمالاً به طور عجولانه کاری را که قبلاً هرگز انجام نداده‌اند انجام نمی‌دهند بلکه بر چگونگی انجام بهتر آن تمرکز می‌کنند. آن‌ها طرز فکر نسل جدیدی دارند، به طور مداوم در دایره شناختی خود تکرار می‌کنند و در ایجاد فرصت‌ها شجاع هستند.

نکته دیگر روحیه کاوش جسورانه است، نه اینکه به راحتی تحت تأثیر منفی‌گرایی دیگران قرار بگیرند، با نگرش "برایم مهم نیست در مورد من چه فکر می‌کنید"، بسیار خودباور. پشت این فرهنگ "آزمایش سریع" است، جایی که می‌دانم محصولم هنوز آماده نیست، اما برایم مهم نیست، سریع راه‌اندازی می‌کنم، سریع تکرار می‌کنم، سریع بازخورد دریافت می‌کنم.

Founder Park: این روند چه زمانی شروع شد؟

کای: فکر می‌کنم این یک موفقیت مبتنی بر اجماع است. وقتی همه پروژه‌هایی مانند GPTZero را می‌بینند که از اتاق‌های خوابگاه رشد می‌کنند، به طور مداوم تکرار می‌شوند و سپس حمایت سرمایه و به رسمیت شناختن کاربر را دریافت می‌کنند، با بسیاری از چنین موارد موفق تکرار و خطای سریع و رشد سریع، اجماع شکل می‌گیرد.

در یک جمله، "انجام شده بهتر از کامل است"، تکمیل مهم‌تر از کمال است. علاوه بر این، مردم خیلی نگران رقابت نیستند؛ بسیاری از بنیان‌گذاران در سیلیکون‌ولی مایل به اشتراک‌گذاری مفاهیم محصول خود هستند، از کپی شدن نمی‌ترسند، تا زمانی که سریع تکرار کنند. فکر می‌کنم این موج جوانان توانایی خوبی در داستان‌سرایی نیز دارد. این داستان‌سرایی حرف‌های توخالی نیست بلکه مبتنی بر عملی بودن و حقیقت‌جویی است، همراه با چشم‌انداز آن‌ها به آینده.

Founder Park: اول خودتان را بازاریابی کنید.

کای: بله. فکر می‌کنم مفهوم اساسی روحیه ماجراجویی و اعتماد به نفس شدید است. با هدایت این، آن‌ها دائماً جرات اشتباه کردن دارند و از اشتباه صحبت کردن نمی‌ترسند. جسورانه مفاهیم محصول خود را بیان می‌کنند، جسورانه اجرا می‌کنند و اگر اشتباه کنند، همیشه می‌توانند آن را اصلاح کنند. این فرهنگ نترسیدن از اشتباه کردن منجر به موج فعلی کارآفرینی دانشجویان دانشگاه و موفقیت شده است.

VCها در ایالات متحده نیز به پروژه‌های دانشجویان دانشگاه نگاه می‌کنند و وای کامبینیتور در هر دسته روی چند پروژه دانشجوی دانشگاه سرمایه‌گذاری می‌کند.

جمع‌آوری بودجه آخرین چیزی است که VideoTutor اکنون باید نگران آن باشد

Founder Park: اگر می‌توانستید به زمانی که برای اولین بار VideoTutor را شروع کردید برگردید، چه توصیه‌ای به خودتان می‌کردید؟ چه زمینه‌هایی می‌توانست بهبود یابد؟

کای: فکر می‌کنم باید سریع‌تر حرکت می‌کردم. همچنین، ترکیب تیم. تیم VideoTutor دوره‌های زیادی از آبدیدگی را پشت سر گذاشته است. اگر زودتر می‌دانستم، تیم را بهتر بر اساس مهارت‌های مورد نیاز برای محصول جمع می‌کردم. معتقدم در پایان روز، توانایی سازمانی برای کارآفرینی بسیار مهم است. من زمان بیشتری را صرف توانایی سازمانی می‌کردم: انتخاب افراد، تشخیص استعدادها و استفاده مؤثر از افراد.

تیم فعلی برای رشد از ۰ به ۱ مناسب است، اما برای مقیاس‌بندی بیشتر VideoTutor، لازم است افراد با تجربه‌تری را وارد کنیم که بتوانند تخصص و مهارت‌های عالی خود را به تیم کمک کنند و به کل تیم کمک کنند تا با هم رشد کنند.

Founder Park: در شش ماه آینده، فکر می‌کنید VideoTutor ممکن است با چه نوع چالش‌های محصولی یا فنی مواجه شود؟

کای: فکر می‌کنم یک چالش رندر است، با هدف دستیابی به تأخیر صفر واقعی، که نیاز به یک پیشرفت مهندسی دارد. نکته دوم مربوط به رشد است. فکر می‌کنم حول سلیقه محصول می‌چرخد، که شامل جنبه‌های بسیاری مانند اینکه آیا طراحی رابط کاربری و تعامل صاف و بی‌نقص است، اگر ویژگی‌ها بدون باگ هستند و اگر طرح‌بندی بصری جذاب است، در میان دیگران. همه این‌ها آزمون‌هایی برای ما هستند.

جیمز: در ابتدا، موقعیت ما برای VideoTutor کمک‌های آموزشی بصری برای همه موضوعات بود، اما بعداً، ما بسیار عمودی شدیم، فقط بر حوزه ریاضیات تمرکز کردیم زیرا جایی است که در آن برتری داریم. موتور رندر ریاضی ما درجه یک است. پیشرفت کلیدی بعدی که باید انجام دهیم ممکن است در گسترش افقی نهفته باشد. برای مثال، چگونه می‌توانیم مزیت تجسم را به سناریوهایی در علوم انسانی بیاوریم. برای مثال، توضیح "شخم زدن در ظهر، عرق زیر گندم روی خاک می‌ریزد." این یک ملاحظه فنی برای ما در حرکت به جلو است.

Founder Park: آیا فکر می‌کنید پیشینه بنیان‌گذاران ممکن است چالش‌هایی برای گسترش‌های آینده ایجاد کند؟

کای: نه واقعاً. در واقع، بسیاری از VCهای بزرگ به ما نزدیک شده‌اند، مانند a16z، که خیلی زود سرمایه‌گذاری نمی‌کنند بلکه زمانی که تیم نشانه‌هایی از موفقیت را نشان داده است، بنابراین آن‌ها می‌دانند سرمایه‌گذاری شکست نخواهد خورد. ما روابط بسیار خوبی با بسیاری از VCهای برتر حفظ کرده‌ایم.

بودجه کمترین نگرانی VideoTutor است؛ مهم‌ترین حوزه‌های تمرکز اکوسیستم کاربر و محصول هستند.

لینک مقاله اصلی

ممکن است شما نیز علاقه‌مند باشید

جهش توکن Aster پس از افشای سرمایه‌گذاری ۲.۵ میلیون دلاری CZ

توکن Aster پس از آنکه CZ، هم‌بنیان‌گذار بایننس، فاش کرد بیش از ۲ میلیون توکن در اختیار دارد، بیش از ۳۰٪ جهش کرد. فرصت‌های بازار ارز دیجیتال را در WEEX ببینید.

قیمت بیت‌کوین در آستانه اوج ۱۱۱ هزار دلاری نوامبر؛ نگرانی‌ها از بازار نزولی همچنان پابرجاست

بیت‌کوین در صرافی Bitstamp به اوج جدید ۱۱۱,۱۲۹ دلاری در ماه نوامبر رسید و خوش‌بینی کوتاه‌مدتی ایجاد کرد. عوامل کلیدی تأثیرگذار بر قیمت بیت‌کوین را بشناسید.

الیزابت وارن تهدید شکایت چانگ‌پنگ ژائو را رد کرد: بررسی جنجال‌های نظارتی ارز دیجیتال

تیم حقوقی الیزابت وارن اتهام افترا از سوی چانگ‌پنگ ژائو را رد کرد و تأکید کرد که اظهارات وی در مورد انطباق صرافی بر اساس واقعیت بوده است. تأثیر این رویداد بر نظارت بر صنعت ارز دیجیتال را بررسی کنید.

آینده ایجنت‌های هوش مصنوعی در ارز دیجیتال: رمزگشایی از تب «AI Hunger Games»

با نزدیک شدن به موج جدید ایجنت‌های هوش مصنوعی، حوزه ارز دیجیتال دستخوش تحولات عمیقی شده است. با WEEX ارزش اصلی ایجنت‌های هوش مصنوعی را بشناسید.

ارز دیجیتال واقعی مدت‌هاست مرده است: نگاهی به ماهیت بازار

ارز دیجیتال زمانی نماد آزادی و امید بود. با WEEX همراه شوید تا نگاهی به مسیر تحول آن از آرمان‌های اولیه تا واقعیت امروز داشته باشیم.

به‌روزرسانی لحظه‌ای | نکات کلیدی کنفرانس فین‌تک هنگ‌کنگ ۲۰۲۵ چیست؟

از ۳ تا ۷ نوامبر، هفته فین‌تک ۲۰۲۵ در مرکز همایش‌ها و نمایشگاه‌های هنگ‌کنگ برگزار شد.

رمزارزهای محبوب

آخرین اخبار رمز ارز

ادامه مطلب