RSSからニュースを引っ張ってきて、必要な情報を抜き出す


まず、RSSでニュースの一覧を取得します。feedparserというものがあり、
atomやrssの情報をparseしてくれます。 feedparser
使い方は簡単で

feedparser.parse(link)
で、対象のurlをparseします。

次に情報取得した情報から本リンクなど必要な情報をもってきて、
本記事を取得します。
取得したらhtmlをいい感じに扱う必要が出てくるので、ここで必要になるのが、
BeautifulSoupです。BeautifulSoup
取得したhtmlを見ながら、必要な情報を取得していくと良い感じになります。
return BeautifulSoup(req.text, "html.parser")
getしたhtmlをparseします。
  text = soup.find("p", class_="hbody").string
必要な情報を指定してあげれば大丈夫です。
find_addやgetなどでとれます。
.stringは前後のタグをとり、
get_text()で前後のタグとそのタグに挟まれた<br>などのタグも取り除くことができます。