Evaluating Bias in Retrieval-Augmented Medical Question-Answering Systems

Abstract

Medical QA systems powered by Retrieval-Augmented Generation (RAG) modelssupport clinical decision-making but may introduce biases related to race,gender, and social determinants of health. We systematically evaluate biases inRAG-based LLM by examining demographic-sensitive queries and measuringretrieval discrepancies. Using datasets like MMLU and MedMCQA, we analyzeretrieval overlap and correctness disparities. Our findings reveal substantialdemographic disparities within RAG pipelines, emphasizing the critical need forretrieval methods that explicitly account for fairness to ensure equitableclinical decision-making.