基于spaCy库训练NER模型

2024-01-12 14:13:51 +08:00 · 2024-01-12 14:13:51 +08:00 · 444178debe
commit 444178debe
20 changed files with 1351319 additions and 0 deletions
--- a/ner/code/config.cfg
+++ b/ner/code/config.cfg
@ -0,0 +1,149 @@
+[paths]
+train = null
+dev = null
+vectors = null
+init_tok2vec = null
+
+[system]
+gpu_allocator = "pytorch"
+seed = 0
+
+[nlp]
+lang = "en"
+pipeline = ["transformer","ner"]
+batch_size = 128
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
+
+[components]
+
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
+moves = null
+scorer = {"@scorers":"spacy.ner_scorer.v1"}
+update_with_oracle_cut_size = 100
+
+[components.ner.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = false
+nO = null
+
+[components.ner.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v3"
+# name = "roberta-base"
+# 若HuggingFace连接失败，则把模型文件下载到本地，并修改name
+name = "../cache/roberta_base" 
+mixed_precision = false
+
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+
+[components.transformer.model.grad_scaler_config]
+
+[components.transformer.model.tokenizer_config]
+use_fast = true
+
+[components.transformer.model.transformer_config]
+
+[corpora]
+
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+annotating_components = []
+before_to_disk = null
+before_update = null
+
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+get_length = null
+
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
+
+[training.score_weights]
+ents_f = 1.0
+ents_p = 0.0
+ents_r = 0.0
+ents_per_type = null
+
+[pretraining]
+
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+
+[initialize.components]
+
+[initialize.tokenizer]
--- a/ner/code/gene_config.sh
+++ b/ner/code/gene_config.sh
@ -0,0 +1,6 @@
+python -m spacy init config ./config.cfg \
+    --lang en \
+    --pipeline ner \
+    --optimize accuracy \
+    --gpu \
+    --force
--- a/ner/code/gene_ner_ds.ipynb
+++ b/ner/code/gene_ner_ds.ipynb
@ -0,0 +1,382 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/huaian/mambaforge/envs/mytrans/lib/python3.9/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     ]
+    }
+   ],
+   "source": [
+    "import json\n",
+    "import random\n",
+    "import spacy\n",
+    "from tqdm import tqdm\n",
+    "from pathlib import Path\n",
+    "from spacy.tokens import DocBin\n",
+    "\n",
+    "random.seed(42)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def generate_ner_ds(file_path: Path, save_dir: Path):\n",
+    "    \"\"\"创建符合spacy2.x库格式要求的NER数据集\"\"\"\n",
+    "    with open(file_path, \"r\") as reader:\n",
+    "        all_lines = reader.readlines()\n",
+    "\n",
+    "    dataset = []\n",
+    "    token_ls, anno_ls = [], []\n",
+    "    for line in tqdm(all_lines):\n",
+    "        # 保存同一个句子的token和annotation到列表中\n",
+    "        line = line.strip()\n",
+    "        if line != \"\":\n",
+    "            token, annotation = line.split(\"\\t\")[0:2]\n",
+    "            token_ls.append(token)\n",
+    "            anno_ls.append(annotation)\n",
+    "\n",
+    "        # 拼接成一个句子，并记录annotation的位置\n",
+    "        elif len(token_ls) != 0:\n",
+    "            # 舍弃\"CODE_BLOCK\"开头的句子\n",
+    "            if token_ls[0] != \"CODE_BLOCK\":\n",
+    "                sentence = \"\"\n",
+    "                anno_span_ls = []  # 记录所有annotation的位置\n",
+    "                for tok, anno in zip(token_ls, anno_ls):\n",
+    "                    sentence += tok\n",
+    "                    if anno != \"O\":\n",
+    "                        anno_span = (\n",
+    "                            len(sentence) - len(tok),\n",
+    "                            len(sentence),\n",
+    "                            \"CODE_ENT\",\n",
+    "                        )\n",
+    "                        anno_span_ls.append(anno_span)\n",
+    "                    sentence += \" \"\n",
+    "                if len(anno_span_ls) != 0:\n",
+    "                    dataset.append((sentence.strip(), {\"entities\": anno_span_ls}))\n",
+    "            token_ls, anno_ls = [], []\n",
+    "\n",
+    "    print(\"NER dataset[0:5]\")\n",
+    "    for item in dataset[0:5]:\n",
+    "        print(f\"\\t{item}\")\n",
+    "\n",
+    "    # # save_dir = Path(\"../../data/ner_dataset\")\n",
+    "\n",
+    "    save_dir.mkdir(parents=True, exist_ok=True)\n",
+    "    save_path = save_dir / (file_path.stem + \".json\")\n",
+    "    with open(save_path, \"w\") as f:\n",
+    "        json.dump(dataset, f, ensure_ascii=False, indent=2)\n",
+    "    print(f\"File {save_path.name} saved!\")\n",
+    "    print(\"=\" * 20)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "100%|██████████| 86911/86911 [00:00<00:00, 1733163.86it/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "NER dataset[0:5]\n",
+      "\t('@petergoldstein Thanks for submitting this PR !', {'entities': [(0, 15, 'CODE_ENT')]})\n",
+      "\t(\"I 'm closing in favor of #13 and other changes already in master that support ActiveRecord 4+ .\", {'entities': [(78, 90, 'CODE_ENT'), (91, 93, 'CODE_ENT')]})\n",
+      "\t('Currently everything works OK if only one scope is present , however the setup() method has no way of discriminating devices by serial number , and we automatically select the first scope we find .', {'entities': [(73, 80, 'CODE_ENT')]})\n",
+      "\t('R.I.Pineear has a nice blog post ( partially ) about this .', {'entities': [(0, 11, 'CODE_ENT')]})\n",
+      "\t('I like the idea of repository and build metadata embedded in the image .', {'entities': [(65, 70, 'CODE_ENT')]})\n",
+      "File GH_test_set.json saved!\n",
+      "====================\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "100%|██████████| 180996/180996 [00:00<00:00, 1418604.94it/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "NER dataset[0:5]\n",
+      "\t('If I would have 2 tables', {'entities': [(18, 24, 'CODE_ENT')]})\n",
+      "\t('SQLFIDDLE : http://sqlfiddle.com/#!9/11093', {'entities': [(0, 9, 'CODE_ENT')]})\n",
+      "\t('Just add a where clause :', {'entities': [(11, 16, 'CODE_ENT')]})\n",
+      "\t('A more traditional approach uses NOT EXISTS :', {'entities': [(33, 36, 'CODE_ENT'), (37, 43, 'CODE_ENT')]})\n",
+      "\t('Here is a SQL Fiddle illustrating that the first works .', {'entities': [(10, 13, 'CODE_ENT'), (14, 20, 'CODE_ENT')]})\n",
+      "File train.json saved!\n",
+      "====================\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "100%|██████████| 57023/57023 [00:00<00:00, 1870912.15it/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "NER dataset[0:5]\n",
+      "\t('In Java + = operator has an implicit cast to the left hand type .', {'entities': [(3, 7, 'CODE_ENT'), (8, 9, 'CODE_ENT'), (10, 11, 'CODE_ENT')]})\n",
+      "\t('As everyone already stated , the + = has an implicit cast .', {'entities': [(33, 34, 'CODE_ENT'), (35, 36, 'CODE_ENT')]})\n",
+      "\t('And a table of their meanings :', {'entities': [(6, 11, 'CODE_ENT')]})\n",
+      "\t(\"So let 's take a look at the bytecode from some simple Java code :\", {'entities': [(55, 59, 'CODE_ENT')]})\n",
+      "\t('My comments will have a // in front .', {'entities': [(24, 26, 'CODE_ENT')]})\n",
+      "File dev.json saved!\n",
+      "====================\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "100%|██████████| 60745/60745 [00:00<00:00, 1902288.40it/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "NER dataset[0:5]\n",
+      "\t('I am using custom adapter which I use for my ListView .', {'entities': [(18, 25, 'CODE_ENT'), (45, 53, 'CODE_ENT')]})\n",
+      "\t('After creating ArrayList', {'entities': [(15, 24, 'CODE_ENT')]})\n",
+      "\t('However , when I try to click on the checkbox , nothing happens .', {'entities': [(37, 45, 'CODE_ENT')]})\n",
+      "\t('So I have to manage toggling checkbox state manually .', {'entities': [(29, 37, 'CODE_ENT')]})\n",
+      "\t('( before that I have to remove setChoiceMode method call )', {'entities': [(31, 44, 'CODE_ENT')]})\n",
+      "File test.json saved!\n",
+      "====================\n"
+     ]
+    }
+   ],
+   "source": [
+    "data_dir = Path(\"../../data/annotated_ner_data\")\n",
+    "dataset_dir = Path(\"../../data/ner_dataset\")\n",
+    "file_names = [\n",
+    "    \"GitHub/GH_test_set.txt\",\n",
+    "    \"StackOverflow/train.txt\",\n",
+    "    \"StackOverflow/dev.txt\",\n",
+    "    \"StackOverflow/test.txt\",\n",
+    "]\n",
+    "\n",
+    "for file_name in file_names:\n",
+    "    file_path = data_dir / file_name\n",
+    "    generate_ner_ds(file_path, dataset_dir)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def split_train_test_ds(dataset_dir: Path, split_rate=0.9):\n",
+    "    \"\"\"分割训练集和测试集\"\"\"\n",
+    "    ner_ds = []  # 保存所有NER样本的数据集\n",
+    "\n",
+    "    for file_path in dataset_dir.iterdir():\n",
+    "        with open(file_path, \"r\") as f:\n",
+    "            lines = json.load(f)\n",
+    "            print(f\"File {file_path.name} #samples: {len(lines)}\")\n",
+    "            ner_ds.extend(lines)\n",
+    "\n",
+    "    print(f\"NER dataset #sample: {len(ner_ds)}\")\n",
+    "    with open(dataset_dir / \"ner_ds.json\", \"w\") as f:\n",
+    "        json.dump(ner_ds, f, ensure_ascii=False, indent=2)\n",
+    "\n",
+    "    # 生成随机索引\n",
+    "    idx = list(range(len(ner_ds)))\n",
+    "    random.shuffle(idx)\n",
+    "\n",
+    "    # 划分训练集、测试集并保存\n",
+    "    split_idx = int(split_rate * len(ner_ds))\n",
+    "    ner_train_ds = [ner_ds[i] for i in idx[:split_idx]]\n",
+    "    print(f\"NER train dataset #sample: {len(ner_train_ds)}\")\n",
+    "    with open(dataset_dir / \"ner_train_ds.json\", \"w\") as f:\n",
+    "        json.dump(ner_train_ds, f, ensure_ascii=False, indent=2)\n",
+    "\n",
+    "    ner_test_ds = [ner_ds[i] for i in idx[split_idx:]]\n",
+    "    print(f\"NER test dataset #sample: {len(ner_test_ds)}\")\n",
+    "    with open(dataset_dir / \"ner_test_ds.json\", \"w\") as f:\n",
+    "        json.dump(ner_test_ds, f, ensure_ascii=False, indent=2)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "File test.json #samples: 1982\n",
+      "File train.json #samples: 5868\n",
+      "File dev.json #samples: 1857\n",
+      "File GH_test_set.json #samples: 3219\n",
+      "NER dataset #sample: 12926\n",
+      "NER train dataset #sample: 11633\n",
+      "NER test dataset #sample: 1293\n"
+     ]
+    }
+   ],
+   "source": [
+    "split_train_test_ds(dataset_dir)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def convert_ner_ds_format(file_path: Path, save_dir: Path):\n",
+    "    \"\"\"将spacy2.x库所需格式的NER数据集转换为3.x库所需的格式\"\"\"\n",
+    "    with open(file_path, \"r\") as f:\n",
+    "        dataset = json.load(f)\n",
+    "\n",
+    "    nlp = spacy.blank(\"en\")  # load a new spacy model\n",
+    "    db = DocBin()  # create a DocBin object\n",
+    "\n",
+    "    for text, anno in tqdm(dataset):  # data in previous format\n",
+    "        doc = nlp.make_doc(text)  # create doc object from text\n",
+    "        ents = []\n",
+    "        for start, end, label in anno[\"entities\"]:\n",
+    "            span = doc.char_span(start, end, label=label, alignment_mode=\"contract\")\n",
+    "            if span is None:\n",
+    "                print(\"Skipping entity\")\n",
+    "            else:\n",
+    "                ents.append(span)\n",
+    "        doc.ents = ents\n",
+    "        db.add(doc)\n",
+    "    save_path = save_dir / (file_path.stem + \".spacy\")\n",
+    "    db.to_disk(save_path)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "100%|██████████| 11633/11633 [00:01<00:00, 7864.58it/s]\n",
+      "100%|██████████| 1293/1293 [00:00<00:00, 6090.11it/s]\n"
+     ]
+    }
+   ],
+   "source": [
+    "convert_ner_ds_format(dataset_dir / \"ner_train_ds.json\", dataset_dir)\n",
+    "convert_ner_ds_format(dataset_dir / \"ner_test_ds.json\", dataset_dir)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "foo_idx = list(range(10))\n",
+    "print(foo_idx)\n",
+    "random.shuffle(foo_idx)\n",
+    "print(foo_idx)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(foo_idx[(1, 3, 5)])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "foo_path = Path(\"../../data/ner_dataset\")\n",
+    "for item in foo_path.iterdir():\n",
+    "    print(item)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(foo_path)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(foo_path.is_dir())"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "tld",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.18"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
--- a/ner/code/ner_test.ipynb
+++ b/ner/code/ner_test.ipynb
@ -0,0 +1,84 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/huaian/mambaforge/envs/mytrans/lib/python3.9/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     ]
+    }
+   ],
+   "source": [
+    "import spacy"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<span class=\"tex2jax_ignore\"><div class=\"entities\" style=\"line-height: 2.5; direction: ltr\">Then use \n",
+       "<mark class=\"entity\" style=\"background: #ddd; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;\">\n",
+       "    AJAX\n",
+       "    <span style=\"font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem\">CODE_ENT</span>\n",
+       "</mark>\n",
+       " to submit the \n",
+       "<mark class=\"entity\" style=\"background: #ddd; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;\">\n",
+       "    form\n",
+       "    <span style=\"font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem\">CODE_ENT</span>\n",
+       "</mark>\n",
+       " and show results in the \n",
+       "<mark class=\"entity\" style=\"background: #ddd; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;\">\n",
+       "    #results\n",
+       "    <span style=\"font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem\">CODE_ENT</span>\n",
+       "</mark>\n",
+       " -container</div></span>"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "nlp = spacy.load(\"../model/model-best/\")\n",
+    "text = \"Then use AJAX to submit the form and show results in the #results -container\"\n",
+    "doc = nlp(text)\n",
+    "\n",
+    "spacy.displacy.render(doc, style=\"ent\", jupyter=True)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "mytrans",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.18"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
--- a/ner/code/train_spacy_ner.sh
+++ b/ner/code/train_spacy_ner.sh
@ -0,0 +1,6 @@
+python -m spacy train ./config.cfg \
+    --output ../model \
+    --gpu-id 0 \
+    --paths.train ../data/ner_dataset/ner_train_ds.spacy \
+    --paths.dev ../data/ner_dataset/ner_test_ds.spacy \
+    --system.seed 42
--- a/ner/data/annotated_ner_data/GitHub/GH_test_set.txt
+++ b/ner/data/annotated_ner_data/GitHub/GH_test_set.txt
--- a/ner/data/annotated_ner_data/Readme.md
+++ b/ner/data/annotated_ner_data/Readme.md
@ -0,0 +1,11 @@
+# Data format:
+
+In  datasets are represented in the Conll format. In this format each line of the is in the following format:
+
+			<word>+"\t"+<NE>"\t"+<word>+"\t"<markdown>
+
+The end of sentence is marked with an empty line.
+
+In each line `NE` represented the human annotated named entity and `<markdown>` represented the code tags provided by the users who wrote the posts.
+
+
--- a/ner/data/annotated_ner_data/StackOverflow/dev.txt
+++ b/ner/data/annotated_ner_data/StackOverflow/dev.txt
--- a/ner/data/annotated_ner_data/StackOverflow/test.txt
+++ b/ner/data/annotated_ner_data/StackOverflow/test.txt
--- a/ner/data/annotated_ner_data/StackOverflow/train.txt
+++ b/ner/data/annotated_ner_data/StackOverflow/train.txt
--- a/ner/data/annotated_ner_data/StackOverflow/train_merged_labels.txt
+++ b/ner/data/annotated_ner_data/StackOverflow/train_merged_labels.txt
--- a/ner/data/ner_dataset/GH_test_set.json
+++ b/ner/data/ner_dataset/GH_test_set.json
--- a/ner/data/ner_dataset/dev.json
+++ b/ner/data/ner_dataset/dev.json
--- a/ner/data/ner_dataset/ner_ds.json
+++ b/ner/data/ner_dataset/ner_ds.json
--- a/ner/data/ner_dataset/ner_test_ds.json
+++ b/ner/data/ner_dataset/ner_test_ds.json
--- a/ner/data/ner_dataset/ner_test_ds.spacy
+++ b/ner/data/ner_dataset/ner_test_ds.spacy
--- a/ner/data/ner_dataset/ner_train_ds.json
+++ b/ner/data/ner_dataset/ner_train_ds.json
--- a/ner/data/ner_dataset/ner_train_ds.spacy
+++ b/ner/data/ner_dataset/ner_train_ds.spacy
--- a/ner/data/ner_dataset/test.json
+++ b/ner/data/ner_dataset/test.json
--- a/ner/data/ner_dataset/train.json
+++ b/ner/data/ner_dataset/train.json