Мистериозен AI модел разбуни духовете: Тества ли DeepSeek новата си система?

Мощен модел с изкуствен интелект (AI), който се появи анонимно в платформа за разработчици миналата седмица, предизвика спекулации, че китайският стартъп DeepSeek може би тихомълком тества системата си от следващо поколение преди официалното ѝ пускане на пазара.

Безплатният модел, наречен Hunter Alpha, се появи в платформата OpenRouter на 11 март без да бъде посочен неговият разработчик, а по-късно беше описан от платформата като „скрит модел“.

При тестове, проведени от Reuters, чатботът Hunter Alpha се описва като „китайски модел с изкуствен интелект, обучен предимно на китайски език“, а данните за обучението му са валидни до май 2025 г. - същата гранична точка на знания, докладвана от чатбота на DeepSeek.

При зададен въпрос за нейния създател обаче системата е отказала да разкрие разработчика си. Чатботът казва:

„Знам само името си, мащаба на параметрите си и дължината на контекстния си прозорец“.

DeepSeek и OpenRouter не са идентифицирали създателя на модела и не са отговорили на запитванията за коментар.

Meta придоби популярна социална мрежа за изкуствен интелект

Какво се знае за модела?

Профилната страница на Hunter Alpha го описва като модел с 1 трилион параметри, което означава, че е обучен с помощта на приблизително един трилион регулируеми стойности, които определят как системата обработва езика и генерира отговори.

Моделите с повече параметри обикновено изискват значително повече изчислителна мощност, за да работят.

Системата също така рекламира контекстен прозорец с до един милион токена - мярка за това колко текст може да обработи или запомни един модел с изкуствен интелект по време на едно взаимодействие. Токенът съответства приблизително на кратък фрагмент от текст, например част от дума.

„Комбинацията, която се откроява, беше контекстът от 1 милион токена на Hunter Alpha, съчетан с възможност за разсъждение и безплатен достъп“, заявява пред Reuters Набил Хауам - инженер, който изгражда системи за агенти с изкуствен интелект.

„Повечето гранични модели с този контекстен прозорец идват с реални разходи в голям мащаб“.

Тези спецификации наподобяват очакванията в местните медии за следващото поколение модел V4 на DeepSeek, за който китайските издания съобщават, че може да бъде пуснат на пазара още през април.

DeepSeek, подобно на много от китайските си конкуренти, е добре финансирана, въпреки че има необичайна структура, като се има предвид, че компанията майка е хеджфонд, а не технологичен конгломерат.

Въпреки че припокриването не установява пряка връзка, то засили спекулациите сред разработчиците, че анонимната система може да е ранна тестова версия на предстоящия нов модел на DeepSeek.

„Моделът на мисловната верига е може би най-силният сигнал“, казва Даниел Дюхърст, инженер по изкуствен интелект, който анализира модела след неговото пускане, визирайки как моделът на изкуствения интелект разсъждава.

„Стилът на разсъждение е труден за прикриване и обикновено отразява как е бил обучен моделът.“

Мащабът и капацитетът на паметта на Hunter Alpha също съответстват на спецификациите, които се разпространяват за DeepSeek V4 от началото на тази година, каза той.

Въпреки това някои разработчици предупреждават, че доказателствата, свързващи модела с DeepSeek, са неубедителни.

„Моят анализ показва, че Hunter Alpha вероятно не е DeepSeek V4“, казва Умур Йозкул, който провежда независими тестове за сравнителен анализ на изкуствения интелект, позовавайки се на разлики в поведението, свързано с токените, и архитектурните модели, в сравнение със съществуващите системи на DeepSeek.

Той каза, че спекулациите, свързващи модела с DeepSeek, са разбираеми, предвид рекламираните срокове и възможности.

Тестове от страна на разработчици

Пусканията на анонимни модели не са необичайни, тъй като платформи, като OpenRouter, позволяват на разработчиците да изпращат заявки до десетки модели с изкуствен интелект чрез един интерфейс, което ги прави популярна тестова площадка за нови системи.

Анонимен модел, наречен Pony Alpha, се появи в OpenRouter през февруари, преди китайската компания Zhipu AI да потвърди, че е част от системата им GLM-5 пет дни по-късно.

В съобщение на профилната страница на Hunter Alpha се казва, че всички подкани и завършени задачи за модела „се регистрират от доставчика и могат да бъдат използвани за подобряване на модела“, подчертавайки широко разпространената в индустрията практика за използване на скрити пускания на модели с цел получаване на безпристрастна обратна връзка.

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !