zhaodi-Wen / illness_crawel Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

爬取网站 https://www.msdmanuals.com 的中文版，英文版和法语版内容

0 stars 0 forks Branches Tags Activity

Star

Notifications

Code
Issues
Pull requests
Actions
Projects
Security
Insights

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.idea		.idea
Chinese		Chinese
English		English
French		French
illness		illness
orpha_rare_illness		orpha_rare_illness
README.md		README.md
getIllnessContent3.py		getIllnessContent3.py
scrapy.cfg		scrapy.cfg

Repository files navigation

illness_crawel

2019.08.19

爬取网站 https://www.msdmanuals.com 的中文版，英文版和法语版内容
使用了scrapy框架和selenium框架

2020.02.2

添加网页r' https://medlineplus.gov/ency/ 的爬取

2020.04.23

添加了一个网页的 https://reference.medscape.com/drug/ 的爬取
本来打算使用dict将所有的网页的路径(保存在本地)和他的url形成一个字典,然后最后遍历这整个大dict下载文本
后面发现整个大的dict全部添加完要比较长的时间，需要进行4个大的for循环，
最后决定不保留dict,使用tuple记录每个路径和url,然后下载文本。

2024.02.18

添加了一个网页的 https://www.orpha.net/consor/cgi-bin/Disease_Search_List.php?lng=EN 的爬取
将所有的子url爬取后，使用dict保存 name 和 url,方便下载的时候以 name 为文件名保存爬取内容。使用线程池,边爬取边下载。

小tips

爬取网页按照顺序爬取的一个特别好的写法是

patt1 = re.compile(r'<p>(.*?)</p>|<li>(.*?)</li>|<h3>(.*?)</h3>|<h4>(.*?)</h4>', re.S)
subcontent = patt1.findall(str(subDiv))

原理是先用正则表达式将所要爬取的内容的tags全部先complile设置好,
然后使用findall查找已经解析出来的网页部分,这样获得的就是按照顺序的文本。

About

爬取网站 https://www.msdmanuals.com 的中文版，英文版和法语版内容

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%

Repository files navigation

illness_crawel

2019.08.19

2020.02.2

2020.04.23

2024.02.18

小tips

About

Releases

Packages

Languages

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

zhaodi-Wen/illness_crawel

Folders and files

Latest commit

History

Repository files navigation

illness_crawel

2019.08.19

2020.02.2

2020.04.23

2024.02.18

小tips

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages