lwswanson
V2EX  ›  问与答

求中文人名提取算法

  •  
  •   lwswanson · May 20, 2014 via iPhone · 3386 views
    This topic created in 4397 days ago, the information mentioned may be changed or developed.
    有V友研究过:基于海量数据的中文人名算法或者学习或参与过类似的开源项目呢?不胜感激!
    1 replies    2014-05-21 00:10:27 +08:00
    Sunyanzi
        1
    Sunyanzi  
       May 21, 2014
    刚好做过 ... 不过是自己摸索出来的完全不专业 ... 大概简单说下我当时的设计吧 ...

    中文人名以百家姓开头 ... 那些不以姓氏开头的昵称一律无视 ... 不在百家姓内的姓氏无视 ...

    中文人名最长三个字 ... 所以少数民族的朋友无视 ... 四个字的名字或者冠夫姓的名字无视 ...

    中文人名很少用到某些字 ... 比如的地得 ... 我你他 ... 包含这些字的名字无视 ...

    有了这三个原则 ... 接下来就是全文扫描了 ...

    名字默认都是三个字 ... 第三个字在某个范围内的话视为两个字的名字这样 ...
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5352 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 07:39 · PVG 15:39 · LAX 00:39 · JFK 03:39
    ♥ Do have faith in what you're doing.