agentarium.pl

Multimodalność

Aktualizacja: · zob. też: model multimodalny, multimodal

Klasyczny model językowy pracuje na tekście. Model multimodalny rozumie i łączy wiele typów danych: zobaczy obraz, „usłyszy” nagranie, przeczyta dokument.

Przykłady zastosowań:

  • Opis i analiza zdjęć lub zrzutów ekranu.
  • Odczytywanie tabel i wykresów.
  • Rozmowa głosowa zamiast pisania.

Multimodalność rozszerza zakres zadań, jakie potrafią wykonywać czaty i agenci AI.