备案号:辽ICP备19007957号-1
聆听您的声音:feedback@highmark.com.cn企业热线:400-111-0321
Copyright ©2015- 海马课堂网络科技(大连)有限公司办公地址:辽宁省大连市高新技术产业园区火炬路32A号创业大厦A座18层1801室
英硕毕业论文可以用Kaggle上的数据集做定量分析吗?Ethical表上问“是否征得作者同意”该怎么填?老师可以简单介绍一下吗?
对于很多英国硕士(Master Dissertation)同学来说,最头疼的问题之一并不是数据分析,而是数据从哪里来。
尤其是商科、金融、市场营销、数据分析、商业分析等专业的学生,经常会遇到这样的情况:
“我准备用Kaggle上的公开数据集做定量分析,但是学校的Ethical Form上问我有没有征得数据作者同意。这个作者根本联系不上,我能直接选已经征得同意吗?”
事实上,这也是英国大学毕业论文(Dissertation)中非常常见的问题。
那么,英硕毕业论文到底能不能使用Kaggle数据集?Ethical Review应该如何填写?会不会影响论文通过?本文一次讲清。
答案是:
绝大多数情况下可以。
Kaggle本身就是全球最大的公开数据分析平台之一。
大量研究人员、企业和数据科学从业者会将数据集上传到Kaggle,供其他用户:
数据分析;
机器学习训练;
学术研究;
毕业论文写作;
科研项目开发。
因此,对于绝大多数英国大学而言:
使用Kaggle公开数据完成定量分析(Quantitative Analysis)本身并不违规。
实际上很多学生的论文都会使用:
Kaggle Dataset
World Bank Database
OECD Database
Statista
IMF Data
Yahoo Finance
Google Dataset Search
这些二手数据(Secondary Data)完成研究。
很多同学第一次填写伦理审批表(Ethical Form)时都会疑惑:
既然是公开数据,为什么学校还要问我有没有获得作者授权?
原因在于:
伦理审批表的设计需要覆盖所有研究类型。
例如:
问卷调查
访谈研究
实验研究
医疗数据研究
企业内部数据研究
二手公开数据研究
学校无法针对每种情况单独设计表格。
因此很多问题实际上属于统一模板。
对于使用公开数据的学生来说:
这类问题更多是在确认:
数据是否合法获取;
数据是否涉及隐私;
是否存在版权限制;
是否符合学术研究规范。
并不意味着每个公开数据都必须联系作者取得额外授权。
这是最常见的情况。
很多Kaggle数据集上传时间已经超过数年。
上传者可能:
不再活跃;
已停止维护账号;
没有公开联系方式;
仅提供用户名。
这种情况下:
不要为了通过伦理审批而勾选“已获得作者同意(Obtained)”。
因为严格来说:
你并没有实际取得授权。
更稳妥的做法是:
选择:
Not Obtained(未获得)
然后在补充说明(Additional Information)中进行解释。
例如:
The dataset is publicly available on Kaggle and has been made available for public access and academic research purposes. The dataset source and URL will be appropriately cited in the dissertation.
中文意思:
该数据集为Kaggle平台公开发布的数据资源,可供公众访问及学术研究使用。论文中将按照学术规范注明数据来源及链接。
这种写法通常更符合事实,也更符合英国大学对于学术诚信(Academic Integrity)的要求。
从实际情况来看:
很多时候可以作为重要依据。
当上传者发布数据集时,通常需要选择相应的数据使用许可(License)。
常见包括:
CC0 Public Domain
CC BY 4.0
CC BY-SA
Open Data Commons
GPL License
Apache License
这些开放许可协议本身就代表:
作者已经提前授权他人在特定条件下使用数据。
因此在伦理审批中,可以说明:
The dataset is distributed under an open license selected by the original author on Kaggle.
也就是说:
虽然你没有直接联系作者获得单独授权,
但作者在上传数据时已经通过License声明了允许使用的范围。
这与未经授权私自获取数据是完全不同的概念。
不要看到数据集就直接下载。
首先需要查看:
Dataset Description
License
Terms of Use
确认:
是否允许学术研究;
是否允许二次分析;
是否要求引用来源;
是否限制商业用途。
无论是否要求引用,都建议在论文中明确说明:
数据集名称;
作者名称;
Kaggle链接;
下载日期。
例如:
Data Source: XYZ Dataset, Kaggle, uploaded by XXX, accessed on XX/XX/2026.
即使数据来自Kaggle,如果涉及:
身份信息;
医疗信息;
生物特征信息;
未匿名化数据;
仍然可能触发更严格的伦理审核。
因此需要重点查看:
数据是否已经完成匿名处理(Anonymized Data)。
很多同学担心:
填写“未获得作者同意”会不会被拒?
事实上:
英国大学更在意真实性。
如果学校后续要求补充说明,你完全可以提供:
Kaggle链接;
License截图;
数据公开页面;
作为证明材料。
但如果填写“已获得授权”,却无法提供证据,反而可能带来不必要的风险。
通常不会。
导师更关注的是:
Research Question是否合理;
数据是否可靠;
方法是否正确;
模型是否有效;
分析是否具有学术价值。
实际上很多高分Dissertation同样使用公开数据。
决定成绩高低的关键并不在于数据是否来自Kaggle,而在于:
你是否能够通过统计分析、回归模型、机器学习模型或实证研究得出有价值的研究结论。
可以。
大多数英国大学允许学生使用Kaggle公开数据完成定量研究(Quantitative Research)和实证分析(Empirical Analysis),但需要按照学术规范注明数据来源。
如果没有实际联系并获得授权,建议如实选择“Not Obtained(未获得)”,并在补充说明中解释数据属于公开发布的数据资源。
在多数情况下可以作为重要依据。
因为作者上传数据时已经选择了开放许可协议(License),该协议明确规定了其他用户的使用权限范围。
不会。
只要按照学校要求规范引用数据来源,并遵守License规定,使用公开数据属于正常学术研究行为。
很多留学生在写Dissertation时都会遇到研究设计、数据来源、伦理审批(Ethical Review)、定量分析模型选择等问题。海马课堂拥有500+博士导师团队,覆盖英国、美国、澳洲、加拿大等1100+院校专业,可针对毕业论文研究框架、数据分析方法、SPSS/Stata/R/Python建模及Ethical Form填写提供专业指导,帮助学生更高效地完成毕业论文研究。
阅读原文:https://www.highmarktutor.com/qa/31434_57.html
版权作品,未经海马课堂 highmarktutor.com 书面授权,严禁转载,违者将被追究法律责任。
备案号:辽ICP备19007957号-1
聆听您的声音:feedback@highmark.com.cn企业热线:400-111-0321
Copyright ©2015- 海马课堂网络科技(大连)有限公司办公地址:辽宁省大连市高新技术产业园区火炬路32A号创业大厦A座18层1801室
hmkt088