【話題】NTTがAIに「視覚読解」の能力を付与、文書画像から質問に回答する技術を確立

■大規模言語モデル「tsuzumi」で実現、オフィスワークや日常生活を支援

 近年、AI技術は目覚ましい発展を遂げているが、従来のAIはテキスト情報しか理解できないという課題があった。NTT(日本電信電話)<9432>(東証プライム)は4月12日、大規模言語モデル「tsuzumi」を用いて、文書画像に含まれる視覚情報も理解できる「視覚読解技術」を開発したと発表。同技術により、AIは文書画像を提示されただけで、あらゆる質問に回答することが可能となる。

 私たちが扱う文書は、テキスト情報だけでなく、図表や写真などの視覚情報も含まれている。しかし、従来のAIはテキスト情報しか理解できず、視覚情報を取り込んだ文書を理解することは困難だった。そこでNTTは、視覚情報も理解できるAIの実現を目指し、研究開発を進めてきた。

 大規模言語モデル「tsuzumi」を用いて、視覚情報も理解できる「視覚読解技術」を開発。文書画像をLLMの表現に変換するアダプタ技術と、多様な視覚読解タスクを対象とした指示遂行データセットの構築によって実現した。AIは文書画像を提示されただけで、あらゆる質問に回答することが可能となる。例えば、請求書から必要な情報を抽出したり、専門文献から特定の情報を見つけたりすることができる。

 NTTは、この技術を基に、視覚表現された文書を基に質問応答を行う技術やWeb検索など、産業上重要なサービスの発展に貢献していく予定。また、作業自動化をはじめ、ヒトと協働し、価値を生み出すAIの実現に向けて技術確立をめざしていく。同成果は、2023年度における東北大学データ駆動科学・AI教育研究センターの鈴木潤教授との共同研究の成果となる。(情報提供:日本インタビュ新聞社・Media-IR 株式投資情報編集部)

関連記事


手軽に読めるアナリストレポート
手軽に読めるアナリストレポート

最新記事

カテゴリー別記事情報

ピックアップ記事

  1. ■「ちきゅう」を投入、令和8年1月から2月にかけて実証  内閣府戦略的イノベーション創造プログラム…
  2. ■人工知能基本計画が始動、利活用から開発への循環促進、世界最先端のAI国家を標榜  政府は12月2…
  3. ■222社分析で売上2兆円台復帰、利益は1,435億580万円へ倍増  東京商工リサーチ(TSR)…
2026年2月
 1
2345678
9101112131415
16171819202122
232425262728  

ピックアップ記事

  1. ■上方修正を重ねる銘柄群が相場の主役に  同コラムは今週、ダブルセット銘柄、トリプルセット銘柄、フ…
  2. ■政治安定を好感、全面高期待が再燃  超短期決戦だった衆議院議員選挙が、昨8日に投票され即日開票さ…
  3. ■総選挙後に本番、米・卵関連株など食料品銘柄に再評価期待  消費税減税をめぐる関連株の動向が、過去…
  4. ■円安・円高が日替わり、内外市場で一波乱二波乱の可能性  内外のマーケットが激動含みである。これが…
  5. ■地方銀行:収益改善、昨年11月の業績上方修正が寄与  昨年来高値更新銘柄の1割超を占める銀行株は…
  6. ■超短期決戦の総選挙で市場動向が政治判断に影響  いよいよ衆議院議員選挙だ。みょう27日に公示され…

アーカイブ

「日本インタビュ新聞社」が提供する株式投資情報は投資の勧誘を目的としたものではなく、投資の参考となる情報の提供を目的としたものです。投資に関する最終的な決定はご自身の判断でなさいますようお願いいたします。
また、当社が提供する情報の正確性については万全を期しておりますが、その内容を保証するものではありません。また、予告なく削除・変更する場合があります。これらの情報に基づいて被ったいかなる損害についても、一切責任を負いかねます。
ページ上部へ戻る