くつしたblog

AI

LMMとは？

kutsushitakun 2025年6月4日

LMMとは？

Large　Multimodal　Model（大規模マルチモーダルモデル）の略のこと。
※LLMと1文字違いで、ややこしい

LMMは、テキストに加えて画像や音声なども理解・生成できるようにしたもの。
※一方、LLMは、テキストだけ扱うよ。

例えば、東京タワーの写真と一緒に「これは何？」と質問すると、「これは東京タワーです」という感じで、テキスト以外も（これだと画像も）扱えるAIなんだなーくらいに理解してもらえたらOK。

LLMに同じことをしても、画像を理解できないので正しい回答が返ってこない、という感じ。

※初心者向けに、かなーり分かりやすく嚙み砕いて書いています。
大幅な間違いはご指摘ください。多少の言葉の揺らぎはご愛嬌。

COMMENT コメントをキャンセル

LLMとは？

RAGとは？