[python]解析如何在Scrapy框架中存入资料到MySQL教学 - 教学与管理杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 教学与管理

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

[python]解析如何在Scrapy框架中存入资料到MySQL教学

作者:

关键词:

摘要：

在利用Scrapy框架开发网页爬虫的过程中，成功取得想要搜集的资料后，下一个步骤就是资料的储存，像是存入资料库或是档案中等，这时候，就会需要使用到Scrapy框架的项目资料模型及管道资料模型管道组件(模块)，来帮助开发人员建立好维护的资料处理方式。

因此本文将继续[python]掌握Scrapy框架重要的XPath定位元素方法-第五篇文章所建立的Scrapy网页爬虫专案，来和大家分享如何将爬取到的网页资料，存入MySQL资料库，其中的重点包含:

Scrapy spider网页爬虫粗糙的项目资料模型崎cra的管道资料模型管道

一，Scrapy spider网页爬虫

假设此处想要进入搜集INSIDE硬塞的网路趋势观察网站-AI新闻网页的「文章标题」，「发布日期」及「作者」，这时候可以在这三个地方点击鼠标快捷键，选择「检查」，来检视HTML原始码，如下图:

开启Scrapy网页爬虫专案，在spiders / 的parse()方法(Method)中，利用[Scrapy教学5]掌握Scrapy框架重要的XPath定位元素方法文章中分享的xpath()方法(Method)，来爬取网页中所有的「文章标题」，「发布日期」及「作者」，如下范例:

有收看上一篇文章文章知道，getall()方法(方法)回传的是一个串列(List)，所以要获得其中的资料，就需要透过回回圈来进行读取，如下范例:

以上范例第26行，使用了zip()函数将爬取的“文章标题”，“发布日期”及“作者”串列(List)资料，打包为一个人的元组(Tuple)，如下范例:

而在回圈读取的过程中，就需要定义一个物件，来分别储存每一个元组(Tuple)的“文章标题”，“发布日期”及“作者”资料，能够在“资料模型管道档案(pipeline.py )”中，进行后续资料处理使用。

这时候就需要像第27行一样，利用「资料模型档案(items.py )」中的NewsScraperItem类别(Class)来装载资料，并使用「post_title」，「post_date」及「post_author」三个栏位，来分别装载元组(Tuple)中的爬取资料，然后，透过yield关键字回传到「资料模型管道档案(pipeline.py )」中进行运用。

而NewsScraperItem类别(Class)的“ post_title”，“ post_date”和“ post_author”三个属性栏位，当前尚未定义，这也就是接下来所要进行的步骤。

二，草皮物品资料模型

Scrapy框架的item资料模型，也就是在刚刚范例中所使用的NewsScraperItem类别(Class)，主要就是被定义在“资料模型管道档案(pipeline.py)”中，资料处理时所会使用到的栏位。

而本文中的「资料模型管道档案(pipeline.py)」中所要进行的资料处理，就是存入MySQL资料库，其中就会使用到「post_title」，「post_date」及「post_author」三个栏位，这当时就需要在「资料模型档案( items.py )」中定义，如下范例:

完成NewsScraperItem资料模型的定义后，接下来就可以在“资料模型管道档案(pipeline.py)”中，来访问其中所装载的资料。

三，崎cra的管道资料模型管道

在开始将Scrapy网页爬虫取得的资料写入MySQL资料库前，大家可以先参考[Python实战应用]掌握Python连结MySQL资料库的重要操作文章的第二节安装MySQL，接着，就可以建立本文需的「insideb」资料库，如下图:

设定完成后，点击右下角的应用按钮即可。这时候顶端栏会看到多了一个“ insideb”资料库，在下方的Tables(资料表)，单击鼠标右键，选择“ Create Table(添加资料表) )」，如下图:

接着，输入资料表名称(posts)，并在下方定义其中的栏位(Columns)，包含“ post_title”，“ post_date”及“ post_author” ，如下图:

同样点击Apply按钮就完成了，如下图:

MySQL资料库建置完成，接下来，在Scrapy专案的settings.py档案中，就需要设定相关的资料库连线资讯来进行连接，如下范例:

文章来源：《教学与管理》网址: http://www.jxyglzzs.cn/zonghexinwen/2021/0307/1120.html