“Establishing robust benchmarks for evaluating contextual reasoning in large language models” (2025) International Journal for Research Publication and Seminar, 16(1), pp. 215–228. doi:10.36676/jrps.v16.i1.43.