Maks OperlejnMachine Learning Engineer / deepsense.aiJestem absolwentem Informatyki i Uczenia Maszynowego na Politechnice Gdańskiej, obecnie pracuję jako Machine Learning Engineer w firmie deepsense.ai. Zawodowo i prywatnie skupiam się głównie na dużych modelach językowych i ich szerokim zastosowaniu. Zajmuję się wdrażaniem spersonalizowanych systemów RAG (wykorzystując zarówno modele komercyjne, jak i open-source), a także opracowywaniem i testowaniem agentów programujących. Współpracowałem także z twórcami biblioteki LangChain, skupiając się na kwestiach związanych z prywatnością danych wejściowych dla modeli językowych. Poza pracą odczuwam ciągłą potrzebę poznawania nowych kultur - przejawia się to głównie w podróżach i nauce języków obcych. Dodatkowo, kompulsywnie kupuję książki, na których czytanie często brakuje mi czasu 📚.
"LLM 101 - wprowadzenie do świata modeli językowych"
Nieustający hype na wielkie modele językowe (LLM) i ich niewątpliwa użyteczność sprawiły, że dla wielu ludzi korzystanie z nich stało się codziennością. Studenci z pomocą ChataGPT piszą swoje prace magisterskie, amatorzy kuchni uczą się piec chleb (co, szczerze mówiąc, niezbyt polecam), a ja sam upewniam się, że nie popełniłem głupich błędów stylistycznych w tym opisie. W świecie programistów, modele od OpenAI i konkurencji są użyteczne do rozwiązywania prostych zadań - Stack Overflow nie ma już monopolu w tym zakresie. Co więcej, Dolina Krzemowa i nie tylko, pełne są startupów, które - z większym lub mniejszym sukcesem - zalewają rynek produktami z "AI" w nazwie.
Mimo powszechnej obecności LLM w naszym otoczeniu (a szczególnie na LinkedIn, ugh 🙄), niewielki odsetek ludzi faktycznie wie, co kryje się za ich działaniem. Spróbuję zatem zarysować ten temat i odpowiedzieć na kilka kluczowych pytań:
• Jak działa architektura uczenia głębokiego będąca podstawą każdego LLMa (Transformery, multi-head attention)
• Dlaczego LLM tak dobrze wchodzi w interakcję z użytkownikiem, formatując odpowiedzi odpowiednio do potrzeb, a jednocześnie potrafi unikać pytań natury… mało etycznej? (RLHF)
• Czy możemy wytrenować własny LLM do naszych celów? (modele open-source, fine-tuning)
• Jak LLM może korzystać ze źródeł zewnętrznych (np. z internetu lub firmowego Confluence), nie mając do nich dostępu w czasie treningu? (bardzo krótko o RAG)
Postaram się przedstawić ten temat w sposób jasny, intuicyjny i bez wchodzenia w złożoną matmę - zapraszam!