“21世纪学科前沿”系列讲座之——“微博文本挖掘介绍” 专题学术讲座

分类:学术交流 发布于 2014-04-09 12:06 作者:王亚珅

        2014年4月9日,应北京市海量信息与云计算应用工程技术研究中心邀请,新浪微博自然语言处理资深研究员白栓虎在北京理工大学研究生院410教室,为中心师生作了题为《微博文本挖掘介绍》的学术报告。报告会由史树敏老师主持,中心部分师生出席报告会。

        白栓虎研究员于1992年硕士毕业于清华大学计算机科学与技术系。1992年加入电子工业部计算机与微电子发展研究中心(CCID);1995年到新加坡加入苹果电脑研发中心,完成苹果第一个中文连续语音识别系统的语言模型并应用到其中文语音识别产品中;在1999年到2002年先后加入爱立信网络应用研究所和Nuance Communication。2010年回到国内加入新浪微博,目前是新浪微博资深研究员,主要在自然语言处理、数据挖掘和推荐技术等相关领域开展技术研发。目前是“国家科技支撑计划”项目“社交网络监督与互动服务关键技术研发及应用示范”的项目主持人。技术研发方面,目前总共获得4项国外专利,1项中国专利。目前还有多项处于在审状态。其中“中文分词和命名实体识别系统”被谷歌、微软、IBM等多家国际知名公司引用。

        白老师首先结合具体应用实例,深入解读了微博文本挖掘的层次结构,使同学们对于微博信息抽取的流程有了直观认识。在此基础之上,白老师向大家介绍了诸如用户圈子挖掘、实体词消歧和话题跟踪等新浪微博目前正在做的工作,以及微博数据挖掘目前面临的挑战。随后,针对实体相关性和用户(动态)关系挖掘,以及(文本流)话题识别和跟踪,白老师分别进行了讲解;并分享了工业界在实际应用的时候的很多有趣的重要发现,例如,实际应用表明,数据量足够大的情况下,简单的算法会得出有效的结果。最后,关于深度微博文本挖掘,白老师从信息抽取盒实体消歧、意图识别,以及文本挖掘在推荐系统的中的应用三个方面进行了解读。其中,白老师认为,通过对用户兴趣建模和分类,而实现对用户短期意图的挖掘和利用,将会是微博信息处理的前沿课题,有很大的应用价值。
        在报告结束之后的交流环节,大家纷纷向白老师提出关于自己感兴趣的技术在工业界应用现状和前景的问题,白老师对大家的提问一一做出解答。最后,白老师与大家分享了自己多年来从事自然语言处理研究的体会,他认为,为自然语言各个领域设计制作出一个通用的技术或者工具是不现实的,而勉励大家找准某个方向或者某个应用,扎实做科研、精细写论文。通过此次讲座和交流,同学不仅深入了解到自然语言处理技术在当前工业界的先进应用,而且对于“理论创新”和“实际应用”的关系有了新的启发和思考。

подводная видеокамерапутевки в турциюdver-nikкран вода pngооо толковая реклама кадалово