new_pullreq_dataset/README.md

7.4 KiB
Raw Blame History

PR合并质量与效率评估行为开放数据集

Pull-based开发模式作为群体化软件开发模式的代表是开源社群群智激发汇聚行为的集中体现。 其中PR审阅质量以及PR审阅效率的评估是被广泛关注的领域涌现出了大量关于影响PR审阅质量和效率的相关因素研究涉及的因素涵盖了从PR创建到PR审阅再到PR最终合并的整个生命周期包括了PR创建者、PR审阅者、PR合并者等多方利益相关者。本项目聚焦大规模开源社群基于PR的开放协作构建了相关研究领域规模最大、覆盖因素最全的PR合并质量与效率评估数据集。该数据集涵盖6种开发语言1万+项目3百万+ Pull Request90+相关因素。

各字段含义如下

每一行对应一条pull request记录

  • project_idGHTorrent projects表的id
  • github_idGitHub中项目的第X个pull request
  • pull_request_idGHTorrent pull_requests表的id
  • ownername项目创建者login
  • reponame项目名称
  • merged_or_notPR被合并还是拒绝了
  • lifetime_minutesPR open的时间
  • mergetime_minutesPR被合并花费的时间
  • num_commitsPR关闭时包含的commit数量
  • src_churnPR关闭时修改的源代码行数
  • test_churnPR关闭时修改的测试代码行数
  • filed_addedPR关闭时添加的文件数量
  • files_deletedPR关闭时删除的文件数量
  • files_modifiedPR关闭时修改的文件数量
  • files_changedPR关闭时变更的文件数量
  • src_filesPR关闭时修改的源代码文件数量
  • doc_filesPR关闭时修改的文档数量
  • other_filesPR关闭时修改的其他文件数量
  • num_commits_comments代码行评论数量
  • num_issue_comments页面中PR描述下的评论数量
  • num_comments评论数量
  • num_participants参与评论者数量
  • sloc提交PR时项目中源代码行数
  • team_size提交PR时项目核心开发者数量
  • perc_external_contribs提交PR时项目外围贡献者占比
  • commits_on_files_touched提交PR时修改的热门文件数量
  • test_lines_per_kloc提交PR时项目中包含的测试代码数量
  • test_cases_per_kloc提交PR时项目中包含的测试用例数量
  • asserts_per_kloc提交PR时项目中包含的断言语句数量
  • watchers提交PR时项目的star数量
  • prev_pullreqs贡献者之前在项目中提交的PR数量
  • requester_succ_rate贡献者PR合并成功率
  • followers贡献者被关注的人数
  • churn_addition提交PR时添加的代码行数
  • churn_deletion提交PR时删除的代码行数
  • pr_comment_numreview形式提交的评论数量
  • perc_neg_emotion评论中消极情绪占比
  • perc_pos_emotion评论中积极情绪占比
  • perc_neu_emotion评论中中立情绪占比
  • part_num_issue参与PR描述下评论的人数
  • part_num_commit参与代码行评论的人数
  • part_num_pr参与review评论的人数
  • part_num_code参与代码级别评论的人数commit/pr评论参与人数总和
  • comment_conflictPR是否包含"conflict"关键词评论
  • hash_tagPR是否包含"#"
  • at_tagPR是否包含"@"
  • test_inclusionPR是否包含测试代码
  • description_lengthPR描述长度
  • bug_fixPR是否修复了bug
  • ci_existsPR是否使用了CI工具
  • ci_latencyCI构建延迟(s)
  • ci_build_numCI构建次数
  • ci_test_passedCI是否通过了测试
  • ci_failed_percCI构建失败次数
  • ci_first_build_statusCI首次构建结果
  • ci_last_build_statusCI最后一次构建结果
  • language项目使用的主要编程语言
  • fork_num提交PR时项目被fork数量
  • project_age提交PR时项目年龄
  • open_issue_num提交PR时项目中处于open状态的issue数量
  • pr_succ_rate项目PR合并成功率
  • open_pr_num提交PR时项目中处于open状态的PR数量
  • first_response_timePR首次被回复的时间间隔
  • pushed_delta距离上次PR提交的时间间隔
  • acc_commit_num贡献者被合并的commit数量
  • first_pr是否是贡献者的首个PR
  • account_creation_days贡献者账号首次创建时间
  • core_member贡献者是否为核心开发者
  • contrib_gender贡献者性别
  • contrib_country贡献者所属国家
  • contrib_affiliation贡献者所属机构
  • contrib_open/cons/extra/agree/neur贡献者五人格得分
  • perc_contrib_neg_emo贡献者评论中消极情绪占比
  • perc_contrib_pos_emo贡献者评论中积极情绪占比
  • perc_contrib_neu_emo贡献者评论中中立情绪占比
  • contrib_first_emo贡献者首次评论的情绪
  • prior_review_num贡献者之前审查的PR数量
  • inte_country合并者所属国家
  • inte_affiliation合并者所属组织
  • inte_open/cons/extra/agree/neur合并者五人格得分
  • perc_inte_neg_emo合并者评论中消极情绪占比
  • perc_inte_pos_emo合并者评论中积极情绪占比
  • perc_inte_neu_emo合并者评论中中立情绪占比
  • inte_first_emo合并者首次评论的情绪
  • contrib_follow_integrator贡献者是否关注了审查者
  • prior_interaction贡献者与项目之前的交互情况
  • social_strength贡献者与项目的社交相关性
  • same_country贡献者与合并者是否来自同一个国家
  • same_affiliation贡献者与合并者是否来自同一个组织
  • open/cons/extra/agree/neur_diff贡献者与合并者无人格差异
  • has_commentsPR是否包含评论信息
  • has_participantsPR是否有评论者
  • has_exchangePR中是否有贡献者与审查者的交流
  • contrib_commentPR中是否包含贡献者的评论
  • inte_commentPR中是否包含合并者的评论
  • reviewer_commentPR中是否包含审查者的评论
  • other_commentPR中是否包含除了贡献者和审查者之外的人的评论
  • num_comments_conPR中贡献者评论数量
  • num_code_commentsPR中代码相关评论数量
  • num_code_comments_conPR中贡献者对代码评论的数量
  • integrator_availability活跃的贡献者多久之后有时间审阅
  • friday_effectPR是否是周五提交的
  • contrib_rate_authorPR贡献者项目中代码贡献占比
  • reopen_or_notPR是否重启过
  • first_close_minutesPR首次被关闭的时间间隔
  • reopen_numPR重启次数
  • last_close_timePR最后一次被关闭的时间
  • creator_idPR创建者的id对应GHTorrent users表的id
  • first_closer_idPR首次关闭者的id对应GHTorrent users表的id
  • last_closer_idPR最后一次关闭者的id对应GHTorrent users表的id
  • num_commits_open提交PR时包含的commit数量
  • same_user贡献者与合并者是否为同一个人
  • files_added_open提交PR时添加的文件数量
  • files_deleted_open提交PR时删除的文件数量
  • files_modified_open提交PR时修改的文件数量
  • files_changed_open提交PR时修改的文件数量
  • src_files_open提交PR时修改的源代码文件数量
  • doc_files_open提交PR时修改的文档文件数量
  • other_files_open提交PR时修改的其他文件数量
  • src_churn_open提交PR时修改的源代码行数
  • test_churn_open提交PR时修改的测试代码行数
  • code_churn_open提交PR时修改的代码行数
  • churn_addition_open提交PR时增加的行数
  • churn_deletion_open提交PR时删除的行数
  • code_chunk_num_open提交PR时修改的代码块数量
  • commits_on_files_touched_closePR关闭时修改的热门文件数量
  • test_inclusion_open提交PR时是否包含测试代码