【最新汇总】市面上的医学大模型和他们的问题：不是各位卷死在下，就是在下卷死各位

guduadmin454月前

市面上的医学大模型

CMB - 医学大模型测评榜
医学 LLM 汇总与概览
PubMedGPT 2022-12-15
ChatDoctor 2023-03-24
DoctorGLM 2023-04-03
MedicalGPT-zh 2023-04-08
Chinese-Vicuna-Medical 2023-04-11
华佗(HuaTuo)
OpenBioMed 2023-04-17
ChatMed 2023-04-19
扁鹊(BianQue) 2023-04-22
PMC-LLaMA 2023-04-27
NHS-LLM 2023-05-11
启真医学大模型 2023-05-23
MedicalGPT 2023-06-05
CareGPT (关怀GPT)
商汤大医
医联 MedGPT
数坤 ShuKunGPT
百川 baichuan
这些医学 LLM 都有一个共同问题
ChatDoctor 详解

CMB - 医学大模型测评榜

CMB 链接：https://cmedbenchmark.llmzoo.com/

【最新汇总】市面上的医学大模型和他们的问题：不是各位卷死在下，就是在下卷死各位,第1张

目前第一梯队是：ShuKunGPT、GPT4、Baichuan2-53B、ChatGLM2-6B、Baichuan2-13B

Baichuan2-13B、ChatGLM2-6B 都可以本地部署。

此外，除了 CMB，还有 CBLUE。

医学 LLM 汇总与概览

PubMedGPT 2022-12-15

Blog: https://crfm.stanford.edu/2022/12/15/biomedlm.html

Code: https://github.com/stanford-crfm/BioMedLM

基座模型：GPT-2 2.7B

ChatDoctor 2023-03-24

Paper: https://arxiv.org/abs/2303.14070

Code: https://github.com/Kent0n-Li/ChatDoctor

基座模型：LLaMA-7B

数据：

HealthCareMagic-100k
icliniq-10k
GenMedGPT-5k
disease database
算力：6 x NVIDIA A100 GPUs, 18h, batch size 192, 3 epochs

DoctorGLM 2023-04-03

Paper: https://arxiv.org/abs/2304.01097

Code: https://github.com/xionghonglin/DoctorGLM

基座模型: THUDM/chatglm-6b

数据：
- CMD
- Surgical (116K)
- Obstetrics and Gynecology (229K)
- Pediatrics (117K)
- Internal Medicine (307K)
- Andriatria (113K)
- MedDialog (3.4M)
- ChatDoctor (5.4K)
- HealthCareMagic (200K)
  算力：1 x NVIDIA A100 GPU 80GB, 13h
  
  MedicalGPT-zh 2023-04-08
  
  Code: https://github.com/MediaBrain-SJTU/MedicalGPT-zh
  
  基座模型: ChatGLM-6B
  
  数据：
  - 28科室的中文医疗共识与临床指南文本
  - 情景对话 (52K)
  - 知识问答 (130K)
    算力：4 x NVIDIA 3090 GPUs
    
    Chinese-Vicuna-Medical 2023-04-11
    
    Code: https://github.com/Facico/Chinese-Vicuna/blob/master/docs/performance-medical.md
    
    基座模型：Chinese-Vicuna-7B
    
    数据：cMedQA2
    
    算力：70w of data, 3 epochs, a 2080Ti about 200h
    
    华佗(HuaTuo)
    
    Paper: https://arxiv.org/abs/2304.06975
    
    Code: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
    
    基座模型：LLaMA-7B, Chinese-LLaMA-Alpaca, ChatGLM-6B
    
    数据：
    - 公开和自建的中文医学知识库，主要参考了cMeKG
    - 2023年关于肝癌疾病的中文医学文献，利用GPT3.5接口围绕医学文献多轮问答数据
      算力：A100-SXM-80GB，10 epochs, 2h17m, batch_size=128
      
      OpenBioMed 2023-04-17
      
      Paper: https://arxiv.org/abs/2305.01523 (2023-04-17)
      
      Paper: https://arxiv.org/abs/2306.04371 (2023-06-07)
      
      Code: https://github.com/BioFM/OpenBioMed
      
      模型：BioMedGPT-1.6B
      
      数据：DeepDTA
      
      ChatMed 2023-04-19
      
      Code: https://github.com/michael-wzhu/ChatMed
      
      基座模型：LLaMA-7B + Chinese-LLaMA-Alpaca
      
      数据：
      - 中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集
      - 中医药指令数据集ChatMed_TCM_Dataset
      - 中医药知识图谱
      - ChatGPT得到11w+的围绕中医药的指令数据
        算力：4 x NVIDIA 3090 GPUS
        
        扁鹊(BianQue) 2023-04-22
        
        Code: https://github.com/scutcyr/BianQue
        
        基座模型：
        
        v1: 元语智能
        v2: ChatGLM-6B
        数据：
        
        中文医疗问答指令与多轮问询对话混合数据集包含了超过900万条样本
        扁鹊健康大数据BianQueCorpus
        扩充了药品说明书指令
        医学百科知识指令
        ChatGPT蒸馏指令等数据
        MedDialog-CN
        IMCS-V2
        CHIP-MDCFNPC
        MedDG
        cMedQA2
        Chinese-medical-dialogue-data
        算力：8张 NVIDIA RTX 4090显卡上微调了1个epoch，大约16天
        
        PMC-LLaMA 2023-04-27
        
        Paper: https://arxiv.org/abs/2304.14454
        
        Code: https://github.com/chaoyi-wu/PMC-LLaMA
        
        基座模型: LLaMA-13B
        
        数据：PubmedCentral papers (4.8M)
        
        NHS-LLM 2023-05-11
        
        Blog: https://aiforhealthcare.substack.com/p/a-large-language-model-for-healthcare
        
        Code: https://github.com/CogStack/opengpt
        
        基座模型：LLaMA-13B
        
        数据：
        
        NHS UK Q/A, 24,665 问答对
        NHS UK Conversations, 2,354 unique conversations
        Medical Task/Solution, 4,688 pairs generated via OpenGPT using GPT-4
        
        启真医学大模型 2023-05-23
        
        Code: https://github.com/CMKRG/QiZhenGPT
        
        License: GPL-3.0
        
        基座模型：ChatGLM-6B, CaMA-13B, Chinese-LLaMA-Plus-7B
        
        数据：
        
        启真医学知识库
        真实医患知识问答数据
        在启真医学知识库的药品文本知识基础上，通过对半结构化数据设置特定的问题模板构造的指令数据
        药品适应症评测数据集
        算力：7 x NVDIA A800 GPU 80GB
        
        MedicalGPT 2023-06-05
        
        Code: https://github.com/shibing624/MedicalGPT
        
        基座模型：Ziya-LLaMA-13B-v1 等
        
        医疗数据：
        
        240万条中文医疗数据集(包括预训练、指令微调和奖励数据集)：shibing624/medical
        22万条中文医疗对话数据集(华佗项目)：FreedomIntelligence/HuatuoGPT-sft-data-v1
        通用数据：
        
        50万条中文ChatGPT指令Belle数据集：BelleGroup/train_0.5M_CN
        100万条中文ChatGPT指令Belle数据集：BelleGroup/train_1M_CN
        5万条英文ChatGPT指令Alpaca数据集：50k English Stanford Alpaca dataset
        2万条中文ChatGPT指令Alpaca数据集：shibing624/alpaca-zh
        69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条)：Chinese-Vicuna/guanaco_belle_merge_v1.0
        5万条英文ChatGPT多轮对话数据集：RyokoAI/ShareGPT52K
        80万条中文ChatGPT多轮对话数据集：BelleGroup/multiturn_chat_0.8M
        116万条中文ChatGPT多轮对话数据集：fnlp/moss-002-sft-data
        奖励数据：
        
        原版的oasst1数据集：OpenAssistant/oasst1
        2万条多语言oasst1的reward数据集：tasksource/oasst1_pairwise_rlhf_reward
        11万条英文hh-rlhf的reward数据集：Dahoas/full-hh-rlhf
        9万条英文reward数据集(来自Anthropic’s Helpful Harmless dataset)：Dahoas/static-hh
        7万条英文reward数据集（来源同上）：Dahoas/rm-static
        7万条繁体中文的reward数据集（翻译自rm-static）liswei/rm-static-m2m100-zh
        7万条英文Reward数据集：yitingxie/rlhf-reward-datasets
        3千条中文知乎问答偏好数据集：liyucheng/zhihu_rlhf_3k
        
        CareGPT (关怀GPT)
        
        链接：https://github.com/WangRongsheng/CareGPT
        
        商汤大医
        
        注册链接：https://chat.sensetime.com/wb/login?redirect_uri=https://sensecare-chat.sensetime.com/main
        
        申请一下，大概 3 天过。
        
        医联 MedGPT
        
        使用链接：https://medgpt.co/
        
        注册邮箱即可，这个邮箱是不验的，可以乱填。
        
        数坤 ShuKunGPT
        
        官网：https://www.shukun.net/
        
        百川 baichuan
        
        官网：https://www.baichuan-ai.com/home
        
        通用大模型，但也经过医学微调，Baichuan2 的 CMB测评分数也不错。
        
        Baichuan3 就更强了，医疗数据集Token数超千亿，医疗能力逼近GPT-4。
        
        为了给Baichuan3注入丰富的医疗知识，百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集，包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。
        
        数据集涵盖了从理论到实际操作，从基础理论到临床应用等各个方面的医学知识。
        
        这些医学 LLM 都有一个共同问题
        
        医学大模型的局限性 + 改进思路
        
        ChatDoctor 详解
        
        110K真实医患对话样本＋5KChatGPT生成数据进行指令微调，底座使用 llama。
        
        论文：https://arxiv.org/ftp/arxiv/papers/2303/2303.14070.pdf
        
        地址：https://github.com/Kent0n-Li/ChatDoctor
        
        【训练数据】
        ＞通用数据集（掌握对话能力）和医患对话数据集（保障领域质量）组成。
        ＞通用数据集：Stanford Alpaca， 52K instruction-following的数据。
        ＞医患对话数据集：InstructorDoctor-205k数据集，包含5000个生成的医患对话和20万个真实的医患对话
        ＞5000次医患对话，包括700多种疾病及其相应的症状、所需的医学检查和推荐的药物。
        ＞为了提高数据和模型质量，疾病数据库中的元组（疾病的名称、相应的症状等等）将被输入到ChatGPTAPl
        中以自动生成指令和对话数据，即生成患者和医生之间的对话。
        ＞20万个真实的医患对话
        ＞从在线医疗问答网站＂Health Care Magic.＂中收集了约20万份真实的医患对话
        ＞会删除医生和患者的名字，并使用语言工具来纠正回答中的语法错误等操作
        
        【训练成本】
        ＞分步骤训练，先基于Stanford Alpaca，后进行nstructorDoctor-205k训练
        ＞使用6个A100训练18小时
        ＞batch size为192， learning rate为2×10-5，训练3个epoch
        ＞最大长度为512个token，warmup为0.03，没有weight decay
        
        为了提高医学领域内大型语言模型（LLMs）的准确性和实用性，ChatDoctor的研究围绕着 — 如何有效地增强这些模型在处理医学咨询方面的能力展开。
        
        子问题：通用的LLMs缺乏针对医学领域的专业知识。
        
        子解法1： ChatDoctor通过在真实世界的患者-医生对话数据上进行微调，提高模型对医学领域知识的理解和应用能力。
        微调后效果更好，真实的医患对话能够提供丰富的医学术语、情景以及专业知识，这有助于模型学习如何在具体医学情景下做出准确回应。
        
        子问题： LLMs在回答医学问题时，无法访问最新的在线或离线医学知识，可能导致提供的信息过时或不准确。
        
        子解法2： ChatDoctor 整合一个自主信息检索机制，允许模型能够访问和利用来自在线来源（如Wikipedia）和经过策划的离线医学数据库的实时信息。
        实时获取最新医学知识和研究成果对于提供准确的医学建议至关重要，尤其是对于新出现的疾病和治疗方法。
        
        不使用解法前：如果LLM被问到关于一个新兴疾病的问题，比如Mpox，它可能会基于在训练数据中的信息（可能已经过时）来生成回答，从而可能提供了不准确或陈旧的治疗建议。
        
        使用解法后：当ChatDoctor被问及同样的问题时，它会使用其自主信息检索机制来从最新的医学数据库和在线资源中获取关于Mpox的最新治疗信息，从而提供更准确、基于最新医疗研究的建议。
        
        子问题：现有的LLMs在进行医学咨询时容易产生错误和幻觉（不准确的生成内容）。
        
        子解法3： ChatDoctor 开发一个能够检索在线和离线医学领域知识的自主ChatDoctor模型，以回答有关最新医学术语和疾病的问题。
        通过提供对最新医学信息的访问，模型可以减少错误和提高回答的准确性和可靠性。
        ChatDoctor使用的离线疾病数据库的样本。
        
        数据库包含了关于各种疾病的详细条目，列出了症状、可能需要进行的额外诊断测试和潜在的治疗选项。
        
        例如，它概述了阑尾炎是什么，它的症状，诊断测试，以及治疗协议。
        
        数据库作为ChatDoctor模型的参考，以确保它提供的医疗建议基于可靠的医学信息。
        
        不使用解法前：一个患者可能询问关于罕见病症的治疗方法，传统的LLM可能因为缺乏准确的最新医学信息而生成一个错误的或者不完全的回答。
        
        使用解法后： ChatDoctor模型会自动从其知识库中检索与这个罕见病症相关的最新治疗方法，确保提供的回答基于最新的医学研究和实践。
        
        当询问关于医疗状况的问题，例如Mpox时，ChatDoctor使用一个自主知识检索过程来咨询一个外部知识库，该知识库包括一个策划的疾病数据库和Wikipedia。
        
        然后，它整合信息以提供最终答案。，确保ChatDoctor的回应准确无误，并且是基于最新的医学知识。
        
        就是根据用户输入，找到相关信息（Related Knowledge），再给大模型用更专业和精准的词汇表达（专业名词），看起来更加有用；同时判断哪些比较准确和重要。
        
        这是 GPT 做不到的：
        GPT说：对这个名词（Mpox）不熟悉，需要更多的背景信息，或者回答也不专业。
        
        ChatDoctor 模型的工作流程：
        起始于从在线医疗咨询网站HealthcareMagic收集患者-医生对话。
        
        这些对话用于微调 LLaMA 提供的语言模型。
        
        微调后，模型使用来自另一个医疗咨询网站iCliniq的额外对话进行测试，以评估ChatDoctor模型的性能。
        
        它是数据收集、模型训练和评估过程的高层次描述。

db标签

网友评论

搜索: Search

最新文章

热门文章

【最新汇总】市面上的医学大模型和他们的问题：不是各位卷死在下，就是在下卷死各位

市面上的医学大模型

CMB - 医学大模型测评榜

医学 LLM 汇总 与 概览

PubMedGPT 2022-12-15

ChatDoctor 2023-03-24

DoctorGLM 2023-04-03

MedicalGPT-zh 2023-04-08

Chinese-Vicuna-Medical 2023-04-11

华佗(HuaTuo)

OpenBioMed 2023-04-17

ChatMed 2023-04-19

扁鹊(BianQue) 2023-04-22

PMC-LLaMA 2023-04-27

NHS-LLM 2023-05-11

启真医学大模型 2023-05-23

MedicalGPT 2023-06-05

CareGPT (关怀GPT)

商汤 大医

医联 MedGPT

数坤 ShuKunGPT

百川 baichuan

这些医学 LLM 都有一个共同问题

ChatDoctor 详解

猜你喜欢

网友评论

医学 LLM 汇总与概览

商汤大医