[1]

“Establishing robust benchmarks for evaluating contextual reasoning in large language models”, JRPS, vol. 16, no. 1, pp. 215–228, Mar. 2025, doi: 10.36676/jrps.v16.i1.43.