• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wolfzz
V2EX  ›  程序员

怎么从一句文字描述做分类?求机器学习的兄弟指点方案

  •  
  •   wolfzz · Aug 20, 2020 · 2329 views
    This topic created in 2123 days ago, the information mentioned may be changed or developed.

    要解决一个分类问题,通过计算机从受伤情况的文字描述来判断受伤等级;

    如 输入: 某某左手食指粉碎性骨折 输出: 六级

    输入文字可能存在近义词,比如食指可以也写成第二指; 目前有一个规则集,定义了各个级别伤害指标,如六级伤害的指标,手部受伤情况,头部,腿部等等。 还有几万的案例数据。

    问下这个用什么方案识别率要好呢?

    我的思路是做一个专用词汇表,先做分词 然后做同义词词汇表,规范化输入 然后查规则集,但是不知道怎么做匹配? 或者用案例数据训练,用什么技术方案? tensorflow 可以支持类似的用词组做识别吗?

    8 replies    2020-08-25 17:17:26 +08:00
    TimePPT
        1
    TimePPT  
    PRO
       Aug 20, 2020   ❤️ 1
    典型的多分类问题,规则的话精度有保障,但召回成问题。
    如果有标签数据,可以试试 fasttext 这种开箱即用的库。
    yzc27
        2
    yzc27  
       Aug 20, 2020 via iPhone
    用 fasttext 这种低成本、开箱即用的库试试先呗
    staticor
        3
    staticor  
       Aug 20, 2020
    感觉还蛮有难度的 目前就像这个描述 也存在不同医师给出不同的定级结果。

    http://www.fyxzz.cn/fileup/HTML/FYXZZ201603012.html
    Escapist367
        4
    Escapist367  
       Aug 24, 2020
    这就是文本分类问题啊
    几万的案例数据量也够

    有标签的话可以:
    1 、先拿个 fasttext 看看效果怎么样
    2 、有显卡的话可以深度学习,比如用 bert 跑,效果肯定比 fasttext 好

    没标签的话:
    1 、几万条也不多,找几个人一起标
    2 、老老实实写规则吧
    wolfzz
        5
    wolfzz  
    OP
       Aug 25, 2020
    wolfzz
        6
    wolfzz  
    OP
       Aug 25, 2020
    @staticor 是的 这是个问题
    wolfzz
        7
    wolfzz  
    OP
       Aug 25, 2020
    @Escapist367 问下 写规则 有没有好的办法来表示规则?
    Escapist367
        8
    Escapist367  
       Aug 25, 2020
    @wolfzz

    没有吧,规则肯定会越写越复杂,然后规则的极致就是各种机器学习= =
    所以可能人工标注后去跑模型是最好的选择
    把写规则死掉的脑细胞用掉的时间拿去学模型和标数据,问题已经解决了 [血的教训]
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2413 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 00:48 · PVG 08:48 · LAX 17:48 · JFK 20:48
    ♥ Do have faith in what you're doing.