GeneralNewsExtractor(新闻网页正文通用抽取器)下载-Lwgzc手游网

首页 > 软件 > 内容

GeneralNewsExtractor(新闻网页正文通用抽取器)

更新：2023-04-11 00:30:54

语言：简体

类别：网页辅助

授权：免费软件

立即下载（15KB）

精品推荐

旺聊多开 v3.26.3.0官方版下载简体中文

谷歌浏览器绿色版免安装版 V100.0.4896.88 绿色单文件版简体中文

ACDSee QuickView(图像浏览器) V1.2.42 最新免费版简体中文

360安全浏览器绿色无广告纯净版 V13.1.5206.0 绿色优化版简体中文

GeneralNewsExtractor(新闻网页正文通用抽取器)是一个基于《基于文本及符号密度的网页正文提取方法》论文用Python实现的正文抽取器，可以用来提取 HTML 中正文的内容、作者、标题。

开发介绍

　　项目起源

　　开发这个项目，源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》）

　　这篇论文中描述的算法看起来简洁清晰，并且符合逻辑。但由于论文中只讲了算法原理，并没有具体的语言实现，所以我使用 Python 根据论文实现了这个抽取器。并分别使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试，发现提取效果非常出色，几乎能够达到100%的准确率。

　　项目现状

　　在论文中描述的正文提取基础上，我增加了标题、发布时间和文章作者的自动化探测与提取功能。

　　目前这个项目是一个非常非常早期的 Demo，发布出来是希望能够尽快得到大家的使用反馈，从而能够更好地有针对性地进行开发。

　　本项目取名为抽取器，而不是爬虫，是为了规避不必要的风险，因此，本项目的输入是 HTML，输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

　　本项目现在不会，将来也不会提供主动请求网站 HTML 的功能。

猜你喜欢

相关下载

大逆转裁判编年史中文补丁 V1.0 绿色免费版

大逆转裁判编年史中文补丁 V1.0 绿色免费版

游戏补丁 | 23.86M |

ACDSee QuickView(图像浏览器) V1.2.42 最新免费版

ACDSee QuickView(图像浏览器) V1.2.42 最新免费版

图像浏览 | 3.08M |

悟空浏览器PC版 V1.2.8 官方最新版

悟空浏览器PC版 V1.2.8 官方最新版

主页浏览 | 46.2M |

你画我猜辅助2021 V4.0 绿色免费版

你画我猜辅助2021 V4.0 绿色免费版

游戏工具 | 1.34M |

卡巴斯基免费版 V19.0.0 永久激活版

卡巴斯基免费版 V19.0.0 永久激活版

病毒防治 | 149.56M |

极品私人密盘免注册版 V4.10 最新免费版

极品私人密盘免注册版 V4.10 最新免费版

加密工具 | 1.53M |

360安全浏览器绿色无广告纯净版 V13.1.5206.0 绿色优化版

360安全浏览器绿色无广告纯净版 V13.1.5206.0 绿色优化版

主页浏览 | 118.87M |

360极速浏览器X绿色精简版 V21.0.1060.0 绿色便携版

360极速浏览器X绿色精简版 V21.0.1060.0 绿色便携版

主页浏览 | 104.85M |

亿简文件加密软件 V2.0 绿色版

亿简文件加密软件 V2.0 绿色版

加密工具 | 317K |

Netsparker(web应用扫描工具)) V4.6.0 中文免费版

Netsparker(web应用扫描工具)) V4.6.0 中文免费版

网络安全 | 76.04M |

火绒安全软件 V4.0.97.12 官方版

火绒安全软件 V4.0.97.12 官方版

系统安全 | 11.62M |

VProtect(软件加密保护系统) V2.1.0 最新免费版

VProtect(软件加密保护系统) V2.1.0 最新免费版

加密工具 | 14.6M |

玩家评论