AI

LMMとは?

LMMとは?

Large Multimodal Model(大規模マルチモーダルモデル)の略のこと。
※LLMと1文字違いで、ややこしい

LMMは、テキストに加えて画像や音声なども理解・生成できるようにしたもの。
※一方、LLMは、テキストだけ扱うよ。

例えば、東京タワーの写真と一緒に「これは何?」と質問すると、「これは東京タワーです」という感じで、テキスト以外も(これだと画像も)扱えるAIなんだなーくらいに理解してもらえたらOK。

LLMに同じことをしても、画像を理解できないので正しい回答が返ってこない、という感じ。

 

※初心者向けに、かなーり分かりやすく嚙み砕いて書いています。
大幅な間違いはご指摘ください。多少の言葉の揺らぎはご愛嬌。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA