Inlay

Most brain-encoding pipelines pull vision, audio, and language features from separate models, then fuse them late, at the readout. But modern foundation models fuse modalities during pretraining. Which kind of fusion is actually more brain-relevant?