另一方面中文百科类的

楼主^#

更多发布于：2024-02-14 14:06

属性值对的抽取对于知识图谱所含内容的扩展是非常有价值的。站点如百度百科等的结构化程度远不如维基百科能通过信息框获得的实体非常稀少大量属性值对隐含在一些列表或表格中。一个切实可行的做法是构建面向站点的包装器。其背后的基本思想是一个站点中的各种页面由统一的程序动态生成具有类似的布局和结构。利用这一点我们仅需从当前待抽取站点采样并标注几个典型详细页面利用这。

页面通过模式学习算法自动构建出一个或多个以类表示的模式然后将其应用在该站点的其他详细页面中从而实现自动化的抽取。对于百科类站点我们可以将具有亚美尼亚 Whatsapp 数据相同类别的页面作为某个虚拟站点并使用类似的方法进行实体的抽取。自动学习获得的模式并非完美可能会遗漏部分重要的属性也可能产生错误的抽取结果。为了应对这个问题搜索引擎公司往往通过构建工具来可视化这些模式并人工调整或新增合适的模式用于抽取。

此外通过人工评估抽取的结果将那些抽取结果不令人满意的典型页面进行再标注来更新训练样本从而达到主动学习的目的。通过搜索日志进行实体和实体属性等挖掘搜索日志是搜索引擎公司积累的宝贵财富。一条搜索日志形如查询点击的页面链接时间戳。通过挖掘搜索日志我们往往可以发现最新出现的各种实体及其属性从而保证知识图谱的实时性。这里侧重于从查询的关键词短语和点击的页面所对应的标题中抽取实体及其属性。

喜欢0

发帖回复

« 返回列表

您需要登录后才可以回帖，登录或者注册

返回顶部

另一方面中文百科类的

最新喜欢：