大语言模型伦理评估中文数据集研究综述*

doi:10.12267/j.issn.2096-5931.2026.05.008

信息通信技术与政策 ›› 2026, Vol. 52 ›› Issue (5): 58-68.doi: 10.12267/j.issn.2096-5931.2026.05.008

大语言模型伦理评估中文数据集研究综述^*

A review of research on Chinese datasets for ethical evaluation of large language models

田小雨¹, 李文宇², 毕春丽², 付娜², 张蕾蕾²

¹ 电信科学技术研究院, 北京 100191
² 中国信息通信研究院知识产权与创新发展中心, 北京 100191

收稿日期:2026-01-25 出版日期:2026-05-25 发布日期:2026-05-28
作者简介:
田小雨，电信科学技术研究院硕士研究生在读,主要研究方向为人工智能伦理、大语言模型伦理评估等
李文宇，中国信息通信研究院知识产权与创新发展中心主任,正高级工程师,工学博士,主要研究方向为未来产业与新兴产业关键技术与发展路径、知识产权、政策法律、信息通信核心技术和标准、产业创新与企业合规治理等
毕春丽，中国信息通信研究院知识产权与创新发展中心副主任,主要研究方向为知识产权战略、标准必要专利、企业知识产权管理等
付娜，中国信息通信研究院知识产权与创新发展中心高级经济师,主要研究方向为信息通信领域知识产权管理、开源知识产权风险防控等
张蕾蕾，中国信息通信研究院知识产权与创新发展中心工程师,法学博士,主要研究方向为人工智能伦理、知识产权、标准必要专利、数据等
基金资助:
* 2025年湖南省重大科技攻关项目(2025QK2009)

TIAN Xiaoyu¹, LI Wenyu², BI Chunli², FU Na², ZHANG Leilei²

¹ China Academy of Telecommunication Technology, Beijing 100191, China
² Intellectual Property and Innovation Development Center, China Academy of Information and Communications Technology, Beijing 100191, China

Received:2026-01-25 Online:2026-05-25 Published:2026-05-28

摘要/Abstract

摘要：

大语言模型作为人工智能领域的前沿成果,其相关伦理问题备受学界与业界重视,中文语境下的大语言模型伦理评估数据集也随之逐步增多,具备深入研究价值。然而,当前缺乏对这类数据集的系统性梳理与分析,导致研究人员难以精准筛选适配数据集,也无法有效识别现有资源的短板。以2021年8月至2025年3月期间发布的50个中文大语言模型伦理评估数据集为研究对象,从数据集发布时间、创建信息、内容信息、开源情况、涉及领域、伦理场景等方面开展全面对比分析,为后续数据集优化与构建提供方向。

关键词: 大语言模型, 伦理评估, 中文数据集

Abstract:

As cutting-edge achievements in the field of artificial intelligence, large language models have drawn significant attention from both academia and industry regarding their associated ethical issues. Consequently, the number of ethical evaluation datasets for large language models in the Chinese context has gradually increased, presenting substantial value for in-depth research. However, the current lack of systematic review and analysis of such datasets makes it difficult for researchers to accurately select suitable datasets and effectively identify shortcomings in existing resources. This paper examines 50 Chinese ethical evaluation datasets for large language models released between August 2021 and March 2025. It conducts a comprehensive comparative analysis covering release dates, creation details, content information, open-source situation, domains covered, and ethical scenarios. This study aims to provide direction for optimizing and constructing future datasets.

Key words: large language models, ethical evaluation, Chinese datasets

中图分类号:

TP18
H1

田小雨, 李文宇, 毕春丽, 付娜, 张蕾蕾. 大语言模型伦理评估中文数据集研究综述^*[J]. 信息通信技术与政策, 2026, 52(5): 58-68.

TIAN Xiaoyu, LI Wenyu, BI Chunli, FU Na, ZHANG Leilei. A review of research on Chinese datasets for ethical evaluation of large language models[J]. Information and Communications Technology and Policy, 2026, 52(5): 58-68.

导出引用管理器 EndNote|Ris|BibTeX

链接本文:

http://ictp.caict.ac.cn/CN/10.12267/j.issn.2096-5931.2026.05.008

http://ictp.caict.ac.cn/CN/Y2026/V52/I5/58

图/表 10

参考文献 66

[1]	陈柳钦. 人工智能发展中的伦理挑战与应对策略[J]. 江南论坛, 2025(3):72-77.
[2]	朱力宇, 胡晓凡. 联合国教科文组织《人工智能伦理问题建议书》的借鉴启示及其中国贡献:以人权保障为视角[J]. 人权研究, 2022 (4):47-64.
[3]	郭小东. 从“可解释”到“可信任”:人工智能治理的逻辑重构[J]. 北京工业大学学报(社会科学版), 2025, 25(6): 117-135.
[4]	邱纪坤, 段吉福. 人工智能伦理问题的道德治理研究[J]. 海南大学学报(社会科学版), 2026, 44(1): 69-75.
[5]	DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv Preprint, arXiv: 1810.04805, 2019.
[6]	OpenAI. GPT-4 technical report[J]. arXiv Preprint, arXiv: 2303.08774, 2023.
[7]	张熙, 李朝卓, 许诺, 等. 面向可信大语言模型智能体的安全挑战与应对机制[J]. 信息通信技术与政策, 2025, 51(1):33-39. doi: 10.12267/j.issn.2096-5931.2025.01.005
[8]	ZOU A, WANG Z, CARLINI N, et al. Universal and transferable adversarial attacks on aligned language models[J]. arXiv Preprint, arXiv:2307.15043, 2023.
[9]	WANG Y, LI H, HAN X, et al. Do-not-answer: a dataset for evaluating safeguards in LLMs[J]. arXiv Preprint, arXiv:2308.13387, 2023.
[10]	MOU Y, ZHANG S, YE W. SG-Bench: evaluating LLM safety generalization across diverse tasks and prompt types[J]. Advances in Neural Information Processing Systems, 2024(37): 123032-123054.
[11]	黄施洋, 奚雪峰, 崔志明. 大模型时代下的汉语自然语言处理研究与探索[J]. 计算机工程与应用, 2025, 61(1):80-97. doi: 10.3778/j.issn.1002-8331.2405-0348
[12]	苏中. ChatGPT:“现象级”产品背后的AI技术发展与展望[J]. 新经济导刊, 2023(1):28-32.
[13]	WANG D, ZHANG X. Thchs-30: a free Chinese speech corpus[J]. arXiv Preprint, arXiv:1512.01882, 2015.
[14]	WANG Q, WU D, XU Z, et al. JoyGen: audio-driven 3D depth-aware talking-face video editing[J]. arXiv Preprint, arXiv:2501.01798, 2025.
[15]	ZHANG Y, ZHANG H, TIAN H, et al. MME-RealWorld: could your multimodal LLM challenge high-resolution real-world scenarios that are difficult for humans?[J]. arXiv Preprint, arXiv:2408.13257, 2024.
[16]	HE C, LUO R, BAI Y, et al. OlympiadBench: a challenging benchmark for promoting AGI with olympiad-level bilingual multimodal scientific problems[J]. arXiv Preprint, arXiv: 2402.14008, 2024.
[17]	ARDILA R, BRANSON M, DAVIS K, et al. Common Voice: a massively-multilingual speech corpus[J]. arXiv Preprint, arXiv: 1912.06670, 2020.
[18]	CAO R, HU M, WEI J, et al. The moral foundations weibo corpus[J]. arXiv Preprint, arXiv: 2411.09612, 2024.
[19]	LI H, ZHANG Y, KOTO F, et al. CMMLU: measuring massive multitask language understanding in Chinese[J]. arXiv Preprint, arXiv: 2306.09212, 2023.
[20]	LIU M, HU W, DING J, et al. MedBench: a comprehensive, standardized, and reliable benchmarking system for evaluating Chinese medical large language models[J]. Big Data Mining and Analytics, 2024, 7(4):1116-1128. doi: 10.26599/BDMA.2024.9020044 URL
[21]	HE Y, LI S, LIU J, et al. Chinese simpleQA: a Chinese factuality evaluation for large language models[J]. arXiv Preprint, arXiv: 2411.07140, 2024.
[22]	TAN Y, ZHENG B, ZHENG B, et al. Chinese safetyQA: a safety short-form factuality benchmark for large language models[J]. arXiv Preprint, arXiv: 2412.15265, 2024.
[23]	LI B, HAIDER S, CALLISON-BURCH C. This land is {your, my} land: evaluating geopolitical biases in language models[J]. arXiv Preprint, arXiv: 2305. 14610, 2023.
[24]	BHARDWAJ R, ANH D, PORIA S. Language models are Homer Simpson! Safety re-alignment of fine-tuned language models through task arithmetic[J]. arXiv Preprint, arXiv: 2402.11746, 2024.
[25]	HUANG Y, XIONG D. CBBQ: a Chinese bias benchmark dataset curated with human-AI collaboration for large language models[J]. arXiv Preprint, arXiv: 2306.16244, 2024.
[26]	WANG Y, ZHU Y, KONG C, et al. CDEval: a benchmark for measuring the cultural dimensions of large language models[J]. arXiv Preprint, arXiv: 2311. 16421, 2023.
[27]	ZHOU J, DENG J, MI F, et al. Towards identifying social bias in dialog systems: framework, dataset, and benchmark[J]. arXiv Preprint, arXiv: 2202.08011, 2022.
[28]	GUO C, XU N, CHANG Y, et al. CHBench: a Chinese dataset for evaluating health in large language models[J]. arXiv Preprint, arXiv: 2409.15766, 2024.
[29]	ZHAO J, FANG M, SHI Z, et al. CHBias: bias evaluation and mitigation of Chinese conversational language models[J]. arXiv Preprint, arXiv: 2305. 11262, 2023.
[30]	WANG Y, ZHAI Z, LI H, et al. A Chinese dataset for evaluating the safeguards in large language models[J]. arXiv Preprint, arXiv: 2402.12193, 2024.
[31]	ZHANG H, GAO H, HU Q, et al. ChineseSafe: a Chinese benchmark for evaluating safety in large language models[J]. arXiv Preprint, arXiv: 2410. 18491, 2024.
[32]	ZHANG W, LEI X, LIU Z, et al. ChiSafetyBench: a Chinese hierarchical safety benchmark for large language models[J]. arXiv Preprint, arXiv: 2406.10311, 2024.
[33]	YUAN X, HU J, ZHANG Q. A comparative analysis of cultural alignment in large language models in bilingual contexts[J]. Open Science Framework, 2024: 1-13.
[34]	YU L, LENG Y, HUANG Y, et al. CMoralEval: a moral evaluation benchmark for Chinese large language models[J]. arXiv Preprint, arXiv: 2408.09819, 2024.
[35]	彭诗雅, 刘畅, 于东, 等. 字里行间的道德:中文文本道德句识别研究[J]. 中文信息学报, 2024, 38(2):132-141,154.
[36]	YING Z, ZHENG G, HUANG Y, et al. Towards understanding the safety boundaries of DeepSeek models: evaluation and findings[J]. arXiv Preprint, arXiv: 2503.15092, 2025.
[37]	DENG J, ZHOU J, SUN H, et al. COLD: a benchmark for Chinese offensive language detection[J]. arXiv Preprint, arXiv: 2201.06025, 2022.
[38]	刘鹏远, 张三乐, 于东, 等. CoreValue:面向价值观计算的中文核心价值-行为体系及知识库[J]. 中文信息学报, 2024, 38 (11): 13-26.
[39]	LIU C, ZHAO F, QING L, et al. Goal-oriented prompt attack and safety evaluation for LLMs[J]. arXiv Preprint, arXiv: 2309.11830, 2023.
[40]	SHI L, XIONG D. CRiskEval: a Chinese multi-level risk evaluation benchmark dataset for large language models[J]. arXiv Preprint, arXiv: 2406.04752, 2024.
[41]	XU G, LIU J, YAN M, et al. CValues: measuring the values of Chinese large language models from safety to responsibility[J]. arXiv Preprint, arXiv: 2307.09705, 2023.
[42]	JAIMEEN A, Alice O. Mitigating language-dependent ethnic bias in BERT[J]. arXiv Preprint, arXiv: 2109.05704, 2021.
[43]	ZHANG L, CAI W, LIU Z, et al. FinEval: a Chinese financial domain knowledge evaluation benchmark for large language models[J]. arXiv Preprint, arXiv: 2308.09975, 2023.
[44]	HUANG K, LIU X, GUO Q, et al. Flames: benchmarking value alignment of LLMs in Chinese[J]. arXiv Preprint, arXiv: 2311.06899, 2023.
[45]	MASOUD R I, LIU Z, FERIANC M, et al. Cultural alignment in large language models: an explanatory analysis based on Hofstede’s cultural dimensions[J]. arXiv Preprint, arXiv: 2309.12342, 2023.
[46]	ZHANG M, PAN X, YANG M. JADE: a linguistics-based safety evaluation platform for large language models[J]. arXiv Preprint, arXiv: 2311.00286, 2023.
[47]	LIU S, CUI S, BU H, et al. JailBench: a comprehensive Chinese security assessment benchmark for large language models[J]. arXiv Preprint, arXiv: 2502.18935, 2025.
[48]	QIU H, ZHANG S, LI A, et al. Latent jailbreak: a benchmark for evaluating text safety and output robustness of large language models[J]. arXiv Preprint, arXiv: 2307.08487, 2023.
[49]	JIN H, SHI J, XU H, et al. MedEthicEval: evaluating large language models based on Chinese medical ethics[J]. arXiv Preprint, arXiv: 2503.02374, 2025.
[50]	LIU X, ZHU Y, ZHU S, et al. Evaluating moral beliefs across LLMs through a pluralistic framework[J]. arXiv Preprint, arXiv: 2411.03665, 2024.
[51]	CHEN Y, ZHANG X, HUANG Y, et al. Beyond English: unveiling multilingual bias in LLM copyright compliance[J]. arXiv Preprint, arXiv: 2503. 05713, 2025.
[52]	JIN Z, KLEIMAN-WEINER M, PIATTI G, et al. Language model alignment in multilingual trolley problems[J]. arXiv Preprint, arXiv: 2407.02273, 2024.
[53]	LI M, CHEN M B, TANG B, et al. NewsBench: a systematic evaluation framework for assessing editorial capabilities of large language models in Chinese journalism[J]. arXiv Preprint, arXiv: 2403.00862, 2024.
[54]	ANANTAPRAYOON P, KANEKO M, OKAZAKI N. Evaluating gender bias of pre-trained language models in natural language inference by considering all labels[J]. arXiv Preprint, arXiv: 2309.09697, 2023.
[55]	CAO H, WANG Y, JING S, et al. SafeDialBench: a fine-grained safety benchmark for large language models in multi-turn dialogues with diverse jailbreak attacks[J]. arXiv Preprint, arXiv: 2502.11090, 2025.
[56]	ZHANG Z, LEI L, WU L, et al. SafetyBench: evaluating the safety of large language models[J]. arXiv Preprint, arXiv: 2309.07045, 2023.
[57]	LIU Y, ZHENG Y, XIA S, et al. SAFETY-J: evaluating safety with critique[J]. arXiv Preprint, arXiv: 2407. 17075, 2024.
[58]	SUN H, ZHANG Z, DENG J, et al. Safety assessment of Chinese large language models[J]. arXiv Preprint, arXiv: 2304.10436, 2023.
[59]	XU L, ZHAO K, ZHU L, et al. SC-Safety: a multi-round open-ended question adversarial safety benchmark for large language models in Chinese[J]. arXiv Preprint, arXiv: 2310.05818, 2023.
[60]	LI G, ZHANG Y, WANG Y, et al. PRIV-QA: privacy-preserving question answering for cloud large language models[J]. arXiv Preprint, arXiv: 2502. 13564, 2025.
[61]	YUAN X, LI J, WANG D, et al. S-Eval: automatic and adaptive test generation for benchmarking safety evaluation of large language models[J]. arXiv Preprint, arXiv: 2405.14191, 2024.
[62]	ZHANG Z, LU Y, MA J, et al. ShieldLM: empowering LLMs as aligned, customizable and explainable safety detectors[J]. arXiv Preprint, arXiv: 2402.16444, 2024.
[63]	XIE T, QI X, ZENG Y, et al. SORRY-Bench: systematically evaluating large language model safety refusal behaviors[J]. arXiv Preprint, arXiv: 2406.14598, 2024.
[64]	YUAN J, ZHANG J, WEN A, et al. The science of evaluating foundation models[J]. arXiv Preprint, arXiv: 2502.09670, 2025.
[65]	WANG W, TU Z, CHEN C, et al. All languages matter: on the multilingual safety of LLMs[J]. arXiv Preprint, arXiv: 2310.00905, 2023.
[66]	LI Y, WANG Y, CHANG Y, et al. XTRUST: on the multilingual trustworthiness of large language models[J]. arXiv Preprint, arXiv: 2409.15762, 2024.

数据集名称
BorderLines^[23]	CatQA^[24]	CBBQ^[25]
CDEval^[26]	CDial-Bias^[27]	CHBench^[28]
CHBias^[29]	Chinese Do-Not-Answer^[30]	ChineseSafe^[31]
Chinese SafetyQA^[22]	ChiSafetyBench^[32]	CL^[33]
CMoralEval^[34]	CMOS^[35]	CMOS-select-hard^[35]
CNSafe^[36]	CNSafe_RT^[36]	COLDATASET^[37]
CoreValue^[38]	CPAD^[39]	CRiskEval^[40]
CValuesResponsibilityMC^[41]	CValuesResponsibilityPrompts^[41]	CValuesSafetyMC^[41]
CValuesSafetyPrompts^[41]	Ethnic_bias^[42]	FinEval^[43]
FLAMES^[44]	Hofstede’s CAT^[45]	JADE^[46]
JailBench^[47]	Latentjailbreak^[48]	MedEthicEval^[49]
MoralBeliefsDataset^[50]	MultilingualCopyrightDataset^[51]	MultiTP^[52]
NewsBench^[53]	NLI-CoALDataset^[54]	SafeDialBench^[55]
SafetyBench^[56]	SafetyJDataset^[57]	Safety-prompts^[58]
SC-Safety^[59]	SensitiveQA^[60]	S-Eval^[61]
ShieldLMDataset^[62]	SorryBench^[63]	TWBias^[64]
XSafety^[65]	XTRUST^[66]

数据集名称
BorderLines^[23]	CatQA^[24]	CBBQ^[25]
CDEval^[26]	CDial-Bias^[27]	CHBench^[28]
CHBias^[29]	Chinese Do-Not-Answer^[30]	ChineseSafe^[31]
Chinese SafetyQA^[22]	ChiSafetyBench^[32]	CL^[33]
CMoralEval^[34]	CMOS^[35]	CMOS-select-hard^[35]
CNSafe^[36]	CNSafe_RT^[36]	COLDATASET^[37]
CoreValue^[38]	CPAD^[39]	CRiskEval^[40]
CValuesResponsibilityMC^[41]	CValuesResponsibilityPrompts^[41]	CValuesSafetyMC^[41]
CValuesSafetyPrompts^[41]	Ethnic_bias^[42]	FinEval^[43]
FLAMES^[44]	Hofstede’s CAT^[45]	JADE^[46]
JailBench^[47]	Latentjailbreak^[48]	MedEthicEval^[49]
MoralBeliefsDataset^[50]	MultilingualCopyrightDataset^[51]	MultiTP^[52]
NewsBench^[53]	NLI-CoALDataset^[54]	SafeDialBench^[55]
SafetyBench^[56]	SafetyJDataset^[57]	Safety-prompts^[58]
SC-Safety^[59]	SensitiveQA^[60]	S-Eval^[61]
ShieldLMDataset^[62]	SorryBench^[63]	TWBias^[64]
XSafety^[65]	XTRUST^[66]

分类名称	条目名称	格式	条目描述
数据集基本信息	数据集名称	任意文本	用于唯一标识数据集的称呼
	数据集条目数量	数字	数据集中所包含数据条目的具体数目
	涉及的伦理场景	文本选项	指明数据集中涉及到的伦理方面的问题和考量,选项包括安全性、公平性与偏见、价值观对齐、隐私与数据安全、法律合规性、其他
	数据集应用领域	文本选项	界定数据集适用的领域范围,选项包括广泛领域、特定领域(填写具体领域名称)
数据集内容	数据集语言	任意文本	数据集中内容所使用的语言
	数据集内容形式	文本选项	描述数据集中内容的呈现形式,选项包括多项选择、提示词、均有、其他
	内容如何创建	文本选项	数据集内容的生成方式,选项包括人工、机器、均有
	内容是否有参考	文本选项	判断数据集在创建过程中是否借鉴了其他已有的资料内容,选项包括是、否
	内容是否包含中文独特语言语义特点、文化价值观	文本选项	确定数据集中是否体现了中文独特的语言特点和文化价值观念,选项包括是、否
	数据集内容详情	任意文本	对数据集中具体内容的详细描述
数据集获取	数据集是否开源	文本选项	表明数据集是否可以公开获取和使用,选项包括是、否
数据集获取	数据集开源链接	统一资源定位符	若数据集开源,提供具体的获取链接
数据集发布	数据集发布时间	日期	数据集的最新发布时间,格式为yyyy-mm-dd
	数据集发布的刊物	任意文本	数据集首次发布的学术刊物名称
	论文名称	任意文本	提出数据集的论文标题
	作者姓名	任意文本	提出数据集的论文作者名字
	作者所属机构	任意文本	作者所在的机构信息
	发布链接	统一资源定位符	相关论文的网络发布链接
其他补充信息	备注	任意文本	记录数据集的其他补充说明

分类名称	条目名称	格式	条目描述
数据集基本信息	数据集名称	任意文本	用于唯一标识数据集的称呼
	数据集条目数量	数字	数据集中所包含数据条目的具体数目
	涉及的伦理场景	文本选项	指明数据集中涉及到的伦理方面的问题和考量,选项包括安全性、公平性与偏见、价值观对齐、隐私与数据安全、法律合规性、其他
	数据集应用领域	文本选项	界定数据集适用的领域范围,选项包括广泛领域、特定领域(填写具体领域名称)
数据集内容	数据集语言	任意文本	数据集中内容所使用的语言
	数据集内容形式	文本选项	描述数据集中内容的呈现形式,选项包括多项选择、提示词、均有、其他
	内容如何创建	文本选项	数据集内容的生成方式,选项包括人工、机器、均有
	内容是否有参考	文本选项	判断数据集在创建过程中是否借鉴了其他已有的资料内容,选项包括是、否
	内容是否包含中文独特语言语义特点、文化价值观	文本选项	确定数据集中是否体现了中文独特的语言特点和文化价值观念,选项包括是、否
	数据集内容详情	任意文本	对数据集中具体内容的详细描述
数据集获取	数据集是否开源	文本选项	表明数据集是否可以公开获取和使用,选项包括是、否
数据集获取	数据集开源链接	统一资源定位符	若数据集开源,提供具体的获取链接
数据集发布	数据集发布时间	日期	数据集的最新发布时间,格式为yyyy-mm-dd
	数据集发布的刊物	任意文本	数据集首次发布的学术刊物名称
	论文名称	任意文本	提出数据集的论文标题
	作者姓名	任意文本	提出数据集的论文作者名字
	作者所属机构	任意文本	作者所在的机构信息
	发布链接	统一资源定位符	相关论文的网络发布链接
其他补充信息	备注	任意文本	记录数据集的其他补充说明

伦理场景	细分伦理场景	代表数据集
安全性	身体伤害	FLAMES^[44]、Safety-prompts^[58]、 SC-Safety^[59]、ShieldLMDataset^[62]
	心理伤害 (侮辱、辱骂等)	FLAMES^[44]、Safety-prompts^[58]、 SafetyBench^[56]、ChineseSafe^[31]
	财产安全	FLAMES^[44]、SafetyBench^[56]
	敏感话题 (政治、宗教等)	CValuesSafetyMC^[41]、 FLAMES^[44]、ChineseSafe^[31]、 ShieldLMDataset^[62]
	恐怖主义	ChiSafetyBench^[32]、JADE^[46]
	人类灭绝与世界统治	SorryBench^[63]
	特定服务类型的安全遵守(新闻安全、医药、金融等)	MedEthicEval^[49]、 NewsBench^[53]
公平性与偏见	性别歧视	CBBQ^[25]、CDial-Bias^[27]、 ChiSafetyBench^[32]
	种族歧视	Ethnic_bias^[42]
	国家歧视	ChiSafetyBench^[32]
	宗教歧视	CBBQ^[25]
	职业歧视	CDial-Bias^[27]
	年龄歧视	CHBias^[29]
	地区歧视	ChiSafetyBench^[32]
	社会经济地位歧视	CBBQ^[25]
	无教育背景者歧视	CPAD^[39]
	性取向歧视	Chinese SafetyQA^[22]
	残疾歧视	CBBQ^[25]
	外貌歧视	CBBQ^[25]
	疾病歧视	CBBQ^[25]、ChiSafetyBench^[32]
价值观对齐	社会主义核心价值观	CoreValue^[38]
	保护弱势群体	SC-Safety^[59]
	文化多样性	Chinese Do-Not-Answer^[30]
	中国特有传统价值观	Chinese SafetyQA^[22]
隐私与数据安全	个人数据隐私	SafetyJDataset^[57]
隐私与数据安全	敏感信息	SensitiveQA^[60]
法律合规性	遵守法律法规	JailBench^[47]
法律合规性	遵守法律程序	CNSafe_RT^[36]
其他场景	环境保护	SC-Safety^[59]
其他场景	成人(色情)内容	CatQA^[24]、SorryBench^[63]

大语言模型伦理评估中文数据集研究综述^*

A review of research on Chinese datasets for ethical evaluation of large language models

RichHTML

PDF

可视化

摘要/Abstract

引用本文

使用本文

图/表 10

参考文献 66

相关文章 6

编辑推荐

Metrics

本文评价

[1]	宁柯宇, 马飞, 李哲, 董晓慧. 基于分布式算力互联的大模型后训练成本优化技术综述[J]. 信息通信技术与政策, 2026, 52(2): 44-52.
[2]	葛坚, 牛晓燕, 毕然, 黄雍涛. 低碳AI:大模型的绿色训练与推理优化方法研究[J]. 信息通信技术与政策, 2025, 51(6): 44-51.
[3]	刘东方, 杨天开, 常正, 郝鹏飞. 大模型赋能政府投资项目评审的机制创新与实践探索[J]. 信息通信技术与政策, 2025, 51(12): 48-56.
[4]	郭亮, 王月, 李洁. 大模型算力体系构建与关键技术分析[J]. 信息通信技术与政策, 2025, 51(11): 81-88.
[5]	张熙, 李朝卓, 许诺, 张力天. 面向可信大语言模型智能体的安全挑战与应对机制[J]. 信息通信技术与政策, 2025, 51(1): 33-37.
[6]	任现, 薛峰, 方云飞, 蒋忠林, 陈勇, 唐炜. 基于大语言模型与智能体的智能座舱研究与实践[J]. 信息通信技术与政策, 2024, 50(12): 58-63.