#5: Новите версии на чатботовете: Кой е по-добър?
Информация относно последните версии на Gemini, Grok, Claude и ChatGPT
Добре дошли в информационния бюлетин на AI Safety Bulgaria. Тук ще намерите информация за новостите в областта на изкуствения интелект и неговата безопасност.
Присъединете се към предстоящия хакатон по хардуерна сигурност, организиран от AI Safety Bulgaria в партньорство с Resonator и Apart Research! Участниците ще имат възможност да разработят иновативни методи за проверка и защита на хардуера, използван за трениране и експлоатация на AI модели, като работят с най-съвременно оборудване и експерти в областта. Събитието ще се проведе в Resonator, София от 14 март, 18:00 ч. до 17 март, 5:00 ч., а наградният фонд е $2000.
Gemini 2.0 /release date: 5 февруари/
В началото на февруари Google пусна поредната нова версия на Gemini 2.0, която включва букет от модели:
Gemini 2.0 Pro: Предлага баланс между възможности и ефективност, подходящ за широк спектър от задачи.
Gemini 2.0 Flash: Оптимизиран за бързина и ефективност, идеален за приложения, изискващи бързи отговори.
Gemini 2.0 Flash-Lite: Още по-оптимизиран за по-малки разходи.
Gemini 2.0 Pro Experimental: фокус върху програмиране.
Част от тези версиите са безплатни, други са включени в платената версия на Gemini. Gemini е достъпен, както като апликация, така и разполага с уеб базирана версия.
Gemini 2.0 Flash Thinking e усъвършенстван модел за разсъждение, способен да показва своите мисли, за да подобри производителността и обяснимостта. Тестовете демострират подобрени способности в математиката, науката и многомодалното разсъждение.
Още информация четете на:
Grok 3 /release date: 17 февруари/
Най-новият модел на платформата Х на Илон Мъск е трениран с 10х (десет пъти) повече изчислителни мощности, в сравнение с предишната версия Grok 2.
В показаните по-време на презентацията резултати от тестове, се вижда, че Grok 3 се справя по-добре от своите конкуренти DeepSeek-V3, Claude 3.5 Sonnet, Gemini-2 Pro, както и GPT-4o.
С изключено разсъждение, Grok 3 предоставя незабавни, висококачествени отговори. Grok 3 постига най-съвременни резултати в различни академични показатели сред модели без разсъждение, включително: знания по наука на ниво висше образование (GPQA), общи знания (MMLU-Pro), задачи от математически състезания (AIME). Grok 3 също така се отличава в разбирането на изображения (MMMU) и видеоразбиране (EgoSchema) задачи.
Grok 3 е достъпен безплатно директно на страницата x.com или като приложение за телефон Grok.
Още информация четете на:
Claude 3.7 Sonnet /release date: 24 февруари/
Anthropic описват модела като "мислещ" - потребителите могат да активират възможността на модела да разсъждава. Това води до вкарване на време за "мислене" , през което даденият отговор се подобрява.
Тази версия изпъква със своите възможности в програмирането - побеждава своите конкуренти Grok 3 и о3-mini-high.
За разлика от преди, когато Anthropic бяха по-консервативни при публикуването на своите нови модели, сега работят в темпото на своите конкуренти, опитвайки се да бъдат лидер.
Версия 3.7 е достъпна безплатно за всички, само възможността за "мислене" е част от платената версия на чатбота.
Още информация четете на:
Gpt-4.5-orion /release date: 27 февруари/
Най-новият модел на OpenAI бива описван като модел със "задълбочени знания за света" , както и с "по-висока емоционална интелигентност". Обещанията от OpenAI са, че този модел ще е с по-малко "халюцинации" и тонът на разговорите с него ще е много по-близък до нормален човешки разговор. Алгоритмите са оптимизирани за разбиране на нюанси при провеждане на разговори, за да може да се създаде усещането за по-естествен диалог.
Достъпен е за ChatGPT Pro абонатите. Ситуацията е такава, защото по думите на Сам Алтман, в момента OpenAI страда от "липса на видеокарти". Обещанията са, че това ще се промени в най-скоро време и масовият потребител също ще получи достъп до най-новия модел.
Емоционалната интелигентност на GPT-4.5 в действие:
AI Safety Резултати на компаниите
Пренебрегват ли водещите компании Safety Testing-a на своите модели в желанието си да бъдат първи? Преценете сами - за финал Ви припомняме Safety Index-а за 2024 година, за който стана на въпрос в предишния ни брой:

Благодарим за отделеното време и до скоро!






