Muß man Podcasts von Anfang bis Ende anhören oder kann man sich diese durch KI zusammenfassen lassen?


Mittlerweile haben Podcasts auch im politischen Betrieb ihren Ritterschlag erhalten und werden von den unterschiedlichsten Akteuren zur Selbstdarstellung genutzt.
Aber muss man wirklich seinen Zeit damit verschwenden das wirre Gefasel mancher Politiker durchweg anzuhören, um sich eine eigene Meinung über die Aussagen derselbigen bilden zu können? Wir stehen schliesslich vor der Bundestagswahl und als Bürger sollte man sich ja doch authentisch informieren, ohne die manipulierten Zusammenfassungen der gesteuerten öffentlichen Informationsanbieter bemühen zu müssen.
Wie wäre es also, wenn man KI dazu verwenden würde um sich beliebige Podcasts zusammenfassen zu lassen. Das spart bestimmt Zeit, könnte etwas mehr Objektivität in die eigene Beurteilung des politischen Betriebes bringen und hat eventuell den Vorteil, dass man später ganz genau die diversen Aussagen der Politiker vergleichen und nachverfolgen kann und zwar direkt anhand von authentischem Videomaterial.
Der Plan
Download des Podcasts von öffentlich zugänglichen Quellen
Extraktion der Audiospur
Transkription per KI (in meinem Fall durch Vertex AI)
Zusammenfassung erzeugen
Die Ausführung
Versuch 1 - (Naivität und Bequemlichkeit führen nicht zum Ziel)
In meiner Naivität (und Faulheit) dachte ich, dass mir Youtube und Co die Schritte 1, 2, 3 sofort abnehmen. Ich wählte mir zuerst die folgenden Podcasts aus, um sie mir von Youtube transkribieren zu lassen:
Youtube
Tim Gabel und Christian Lindner sprechen über die Schuldenbremse
Tim Gabel und Sahra Wagenknecht
Probleme
Der Download der Videodatei kann nur im Premiumabo durchgeführt werden.
Die automatische Transkription hat leider nicht bis zum Ende funktioniert.
X
Probleme
Ich hätte gerne eine Transkription oder eine Zusammenfassung in Deutsch.
Beides bietet X nicht an.
Versuch 2 - (Gemini 1.5 pro to the rescue oder reichen 1M Inputtoken aus)
Ich möchte hier nicht auf die Möglichkeiten eingehen, wie man Youtube Videos ohne Premiumabo herunterladen kann. (Spoiler - es geht schon irgendwie).
In einem ersten Ansatz habe ich die Videos einfach in Google’s AI Studio eingefügt und darauf gehofft, dass ein Kontextwindow von 1M Tokens ausreichend wäre um die Videos verarbeiten zu können.
In meinem Fall war es leider nicht ausreichend. Die Videos wurden nicht vollständig verarbeitet und beim anschliessenden Prompting traten interessante Schleifen in den Antworten auf.
Versuch 3 - (Audiodaten von den Videos extrahieren um den Input zu verkleinern)
Wie extrahiert man Audiodaten von Videodateien?
Man benutzt ffmpeg
ffmpeg -i <video_file>.mp4 <audio_file>.mp3
Das funktionierte ganz gut, aber jetzt gab es bei Google AI ein Problem mit den Inputquotas. Es wurden nur maximal eine halbe Stunde von dem Audiostream transkribiert.
Also entschied ich mich, den ganzen Weg zu gehen. Da ich mich auch mit Google’s AI Plattform, Vertex AI beschäftigen will, entschied ich mich das Projekt mit Vertex AI weiter fort zu führen.
Versuch 4 - (Google’s Vertex AI Platform)
Zuerst wollte ich von der Länge der Audiodatei unabhängig werden und schrieb ein kleines Utility, das mir eine Audiodatei in beliebig kleine Teile aufteilen kann. Man übergibt dem utility mp3split.py einfach die Audiodatei und gibt die gewünschte Länge der Audiosegmente in Minuten an. mp3split.py erzeugt dann die entsprechenden Audiosegmente.
python mp3split.py --fname <audio_file> --sl <segment_length (minutes)>
Anschliessend müssen die Audiodateien noch zu Vertex AI hochgeladen werden damit diese dort weiterverarbeitet werden können. Auch dafür habe ich ein Utility geschrieben.
python upload.py --bucket <bucket> --fname <audio_file>
Zum Schluß können die Audiosegmente zu Textdateien transkribiert werden.
Das utility transcript.py übernimmt dies Funktion und erzeugt lokal die transkribierten Textdateien.
python transcript.py --blob <audio_file> --tf <text_file>
Mit Hilfe dieser utilities konnte ich am Ende Texttranskriptionen der Videodateien erzeugen.
Im nächsten Teil werde ich die Ergebnisse präsentieren.
Wie immer können die Utilities von meinem Github repository gekloned werden.
git clone https://github.com/siegfriedschaefer/gcloud.git
Falls ihr weitere Fragen oder Anregungen habt, so beantworte ich diese gerne per e-mail oder folgt mir einfach weiter.
Subscribe to my newsletter
Read articles from SiggiS directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by
