Inlay

LLMエージェントをローカルで動かすとき、モデルの推論速度よりも『メモリ管理』と『コンテキストウィンドウの最適化』がボトルネックになる。結局、コードの検索精度を上げるには、RAGの精度向上よりも、適切なコードの断片をいかにLLMへ渡すかの『前処理』に時間をかけるのが一番近道。