大学、大学院での研究テーマ

私の研究テーマは、**マルチモーダル処理を目指した自然言語処理モデルの潜在変数構造の解明**です。 近年、Transformerアーキテクチャを基盤としたBERTやGPT-2といった大規模な自然言語処理モデルが飛躍的な進化を遂げ、ChatGPTのような驚異的な性能を持つAIが登場しました。 しかし、これらのモデルは、その出力結果がどのようにして導かれるのか、内部のメカニズムが「ブラックボックス」として残されています。

私は、このブラックボックス化されたモデルが入力から生成する**潜在変数**に焦点を当て、その構造を解明することを目指しています。 潜在変数の構造を理解することで、モデルの再学習、出力結果の根拠の特定、さらにはモデルの**説明可能性(Explainable AI: XAI)**の向上に貢献できると考えています。 また、潜在変数を操作することで、異なるドメイン(例えば、テキストと画像)間での情報変換や統合を実現し、より高度な**マルチモーダル処理AI**の発展を目指しています。

具体的には、**BERT**や**GPT-2**などの代表的な自然言語処理モデルが生成する潜在変数について、深く研究を行っています。 文章は離散的な性質を持つため、単に数字の羅列である潜在変数だけを見てその意味を解釈することは困難です。 そこで、私は文章情報を連続的な画像に変換する**画像生成モデル**を開発し、その画像変化を分析することで、潜在変数空間の構造を視覚的に解明する独自の手法を採用しています。 このアプローチにより、言葉の持つ意味が潜在空間内でどのように表現され、相互に関連しているのかを直感的に捉えることが可能になります。

私の研究は、自然言語処理モデルの**透明性の向上**、**マルチモーダル処理の実現**、そして**説明可能なAI**の実現に貢献することを目指しており、より信頼性と応用性の高いAIシステムの開発に繋がるものと信じています。

関連研究分野

会社での研究テーマ

現在、会社では**RAG (Retrieval-Augmented Generation)**に関する研究に注力しています。RAGは、大規模言語モデル (LLM) が外部の知識源から情報を取得し、その情報を基に回答を生成するフレームワークです。これにより、LLMが学習データにない最新情報や専門知識を参照できるようになり、幻覚(Hallucination)の抑制や回答の信頼性向上に繋がります。

主な研究テーマは以下の通りです。

  • **Naive RAG**: 最も基本的なRAGの形態で、シンプルな検索と生成のパイプラインを実装。
  • **Light RAG**: 検索や生成プロセスを最適化し、軽量化・高速化を目指したRAGの発展形。
  • **マルチモーダルRAG**: テキストだけでなく、画像や音声などの複数のモダリティ(形式)に対応したRAG。
  • **Agentic RAG**: LLMが自律的に外部ツールを使いこなし、複雑なタスクを解決することを目指したRAG。エージェント技術をRAGに応用することで、より高度で自律的な応答生成を目指します。