Multimodalność
Aktualizacja: · zob. też: model multimodalny, multimodal
Klasyczny model językowy pracuje na tekście. Model multimodalny rozumie i łączy wiele typów danych: zobaczy obraz, „usłyszy” nagranie, przeczyta dokument.
Przykłady zastosowań:
- Opis i analiza zdjęć lub zrzutów ekranu.
- Odczytywanie tabel i wykresów.
- Rozmowa głosowa zamiast pisania.
Multimodalność rozszerza zakres zadań, jakie potrafią wykonywać czaty i agenci AI.