LMMとは?
Large Multimodal Model(大規模マルチモーダルモデル)の略のこと。
※LLMと1文字違いで、ややこしい
LMMは、テキストに加えて画像や音声なども理解・生成できるようにしたもの。
※一方、LLMは、テキストだけ扱うよ。
例えば、東京タワーの写真と一緒に「これは何?」と質問すると、「これは東京タワーです」という感じで、テキスト以外も(これだと画像も)扱えるAIなんだなーくらいに理解してもらえたらOK。
LLMに同じことをしても、画像を理解できないので正しい回答が返ってこない、という感じ。
※初心者向けに、かなーり分かりやすく嚙み砕いて書いています。
大幅な間違いはご指摘ください。多少の言葉の揺らぎはご愛嬌。