Sprechender PC und Sprachsteuerung (Open Source Projekt)

Verfasst am: 22. 11. 2009 [11:45]
seitenreport
1931 Beiträge
Seitenreport Inhaber
TYPO3 Senior Developer
Dabei seit: 28.03.2009

✶✶ Sehr aktiver Seitenreport Vorantreiber
Themenersteller

Beitrag hilfreich?

Ich bin gerade dabei, meinem Linux das Sprechen, "Verstehen" und Reagieren auf Sprachanweisungen beizubringen (ähnlich wie der Computer im Film "Star Trek").

Als Plattform verwende ich Linux (Ubuntu). Der Vorteil von Linux ist, dass alle Programme auf einfachen Konsolebefehlen basieren, durch die ich sie beliebig steuern kann. Zudem habe ich ich die volle Kontrolle über das Betriebssystem und kann es dadurch anweisen, genau das zu tun, was ich möchte.

Die Sprachausgabe von beliebigen Texten und Systemwerten (Uhrzeit etc.) funktioniert bereits, z.B. echo "Hallo $USER" | speakit usw.
Die Qualität ist gut und es sind beliebige Sprecherstimmen und Modulationen möglich (selbst singen).

Nach Fertigstellung soll das Programm folgendes können:
- Ich: "Computer? Wie spät ist es?" Er: "Es ist 11 Uhr 35"
- Ich: "Computer? Bitte lies mir die aktuellen Nachrichten vor" Er: (geht auf Google News und liest mir die Headlines vor)

Durch die Ansteuerung der COM/USB Ports können später natürlich auch beliebige Elektroniken im Haus bzw. in der Wohnung per Sprache geschaltet werden. z.B. "Computer? Licht!" usw. (Vernetzung)

Folgende Programme kommen zur Anwendung:
- txt2pho (Umwandlung von Text in Lautsprache)
- mbrola (freier Sprach-Synthesizer)
- simon (freie Spracherkennung)

Das Ganze soll natürlich ein Open Source Projekt werden, damit es jeder nutzen kann.

Ich finde das sehr spannend. Einige von euch sicher auch. Wer hat Lust mitzumachen?

Benötigte Kenntnisse:
- Linux / Ubuntu / Architektur
- Programmierung (C und Bash)
- KI (Grundlagen)


Matthias Gläßner. TYPO3 Senior Developer, war u.a. Chefentwickler
beim FOCUS-Campus Nachfolger WHIZKID, Senior Entwickler bei Maybelline New York, Statoil und bei s.Oliver /
Inhaber von Seitenreport, der SEO und Website Analyse


Verfasst am: 22. 11. 2009 [12:01]
der_booker
3017 Beiträge
Moderator
selbständig
Dabei seit: 11.06.2009

✶✶✶ Unentbehrliches Mitglied

Beitrag hilfreich?

Klingt sehr spannend, bin dabei.
Vor Jahren habe ich mich bereits damit beschäftigt. Creative Labs hatte eine Spracherkennung beim Soundblaster dabei. Mit Logox konnte ich mit Textfiles in umgewandelte Sprache ausgeben.


Heiko Jendreck
personal helpdesk & webdesign
http://www.phw-jendreck.de
http://www.seo-labor.com


Verfasst am: 22. 11. 2009 [14:38]
adi
476 Beiträge
Dabei seit: 01.05.2009

✭ Aktiver Content Bringer

Beitrag hilfreich?

seitenreport schrieb:

Ich bin gerade dabei, meinem Linux das Sprechen, "Verstehen" und Reagieren auf Sprachanweisungen beizubringen (ähnlich wie der Computer im Film "Star Trek").

Als Plattform verwende ich Linux (Ubuntu). Der Vorteil von Linux ist, dass alle Programme auf einfachen Konsolebefehlen basieren, durch die ich sie beliebig steuern kann. Zudem habe ich ich die volle Kontrolle über das Betriebssystem und kann es dadurch anweisen, genau das zu tun, was ich möchte.

Die Sprachausgabe von beliebigen Texten und Systemwerten (Uhrzeit etc.) funktioniert bereits, z.B. echo "Hallo $USER" | speakit usw.
Die Qualität ist gut und es sind beliebige Sprecherstimmen und Modulationen möglich (selbst singen).

Nach Fertigstellung soll das Programm folgendes können:
- Ich: "Computer? Wie spät ist es?" Er: "Es ist 11 Uhr 35"
- Ich: "Computer? Bitte lies mir die aktuellen Nachrichten vor" Er: (geht auf Google News und liest mir die Headlines vor)

Durch die Ansteuerung der COM/USB Ports können später natürlich auch beliebige Elektroniken im Haus bzw. in der Wohnung per Sprache geschaltet werden. z.B. "Computer? Licht!" usw. (Vernetzung)

Folgende Programme kommen zur Anwendung:
- txt2pho (Umwandlung von Text in Lautsprache)
- mbrola (freier Sprach-Synthesizer)
- simon (freie Spracherkennung)

Das Ganze soll natürlich ein Open Source Projekt werden, damit es jeder nutzen kann.

Ich finde das sehr spannend. Einige von euch sicher auch. Wer hat Lust mitzumachen?

Benötigte Kenntnisse:
- Linux / Ubuntu / Architektur
- Programmierung (C und Bash)
- KI (Grundlagen)



hmmm warum als name computer gib ihm nen frauennamen ....da ist bekannt das sie nie tun was man will *lach
aber mal im ernst ich versteh garnicht warum dieses segment von den entwicklern so dermassen vernachlässigt wird
hab mal ein programm vor jahren ausprobiert aber das funktionierte vorn und hinten nicht

TAS Schwinghammer
http://www.leaksealing.de




Verfasst am: 22. 11. 2009 [16:40]
der_booker
3017 Beiträge
Moderator
selbständig
Dabei seit: 11.06.2009

✶✶✶ Unentbehrliches Mitglied

Beitrag hilfreich?

adi schrieb:

hmmm warum als name computer gib ihm nen frauennamen ....da ist bekannt das sie nie tun was man will *lach
aber mal im ernst ich versteh garnicht warum dieses segment von den entwicklern so dermassen vernachlässigt wird
hab mal ein programm vor jahren ausprobiert aber das funktionierte vorn und hinten nicht


In jedem guten Film spricht der "gute" Rechner als Frau zu Dir. Wenn es ein "böser" Computer (Rasenmähermann) ist, dann spricht ein Mann.
Seit Jahrhunderten verkörpert die Frau das Gute und der Mann das Böse.
icon_razz.gif

Heiko Jendreck
personal helpdesk & webdesign
http://www.phw-jendreck.de
http://www.seo-labor.com


Verfasst am: 23. 11. 2009 [22:32]
seitenreport
1931 Beiträge
Seitenreport Inhaber
TYPO3 Senior Developer
Dabei seit: 28.03.2009

✶✶ Sehr aktiver Seitenreport Vorantreiber
Themenersteller

Beitrag hilfreich?

Ja nur tut die Frauenstimme aus dem Sprachpaket mit der Zeit in den Ohren weh. icon_razz.gif (etwas schlecht moduliert bzw. sehr quietschig - die Männerstimme dagegen ist gut).

@Heiko: Ich schicke Dir im Laufe der nächsten Tage die derzeitigen Installations- und Programmskripte per E-Mail zu. Eine Uhrzeitansage zur vollen Stunde usw. ist bereits integriert. Als nächstes wäre die Verbindung des Programms mit der Spracherkennung dran (was etwas komplexer wird).


Matthias Gläßner. TYPO3 Senior Developer, war u.a. Chefentwickler
beim FOCUS-Campus Nachfolger WHIZKID, Senior Entwickler bei Maybelline New York, Statoil und bei s.Oliver /
Inhaber von Seitenreport, der SEO und Website Analyse


Verfasst am: 23. 11. 2009 [23:01]
der_booker
3017 Beiträge
Moderator
selbständig
Dabei seit: 11.06.2009

✶✶✶ Unentbehrliches Mitglied

Beitrag hilfreich?

seitenreport schrieb:

Ja nur tut die Frauenstimme aus dem Sprachpaket mit der Zeit in den Ohren weh. icon_razz.gif (etwas schlecht moduliert bzw. sehr quietschig - die Männerstimme dagegen ist gut).

@Heiko: Ich schicke Dir im Laufe der nächsten Tage die derzeitigen Installations- und Programmskripte per E-Mail zu. Eine Uhrzeitansage zur vollen Stunde usw. ist bereits integriert. Als nächstes wäre die Verbindung des Programms mit der Spracherkennung dran (was etwas komplexer wird).



Spracherkennung ist auf der einen Seite nicht arg so schwer, doch die verschiedenen Tonlagen sind ein wenig aufmüpfig. Bei meinen Test's hatte ich manchmal das Problem, dass sie Fragen und Aussagesätze nicht auseinander halten konnte.

Die Soundsequenzen der Frauenstimme lassen wir uns von einer professionellen Sprecherin integrieren. Nee im Ernst, welche Stimmen hast Du denn? Sind das die der MS-Agent's?

Heiko Jendreck
personal helpdesk & webdesign
http://www.phw-jendreck.de
http://www.seo-labor.com


Verfasst am: 24. 11. 2009 [00:24]
seitenreport
1931 Beiträge
Seitenreport Inhaber
TYPO3 Senior Developer
Dabei seit: 28.03.2009

✶✶ Sehr aktiver Seitenreport Vorantreiber
Themenersteller

Beitrag hilfreich?

der_booker schrieb:

Die Soundsequenzen der Frauenstimme lassen wir uns von einer professionellen Sprecherin integrieren. Nee im Ernst, welche Stimmen hast Du denn? Sind das die der MS-Agent's?

Hehe hör' mir auf mit MS. Mit denen wäre ein solches Programm gar nicht machbar icon_cool.gif.

Nein nein, das sind freie Sprachpakete (die man natürlich beliebig modulieren kann etc. - ist halt nur Arbeit).

Das mit der professionellen Sprecherin wird so leider nicht funktionieren, da das Ganze ja synthesiert wird - da könntest Du höchstens in penibler Kleinarbeit die Charakteristika der Stimme etc. herausarbeiten und aus diesen ein neues Sprachpaket basteln. icon_wink.gif

Auf einem Windows System hatte ich die neueste Spracherkennungssoftware von Nuance. Die war recht gut und sehr genau. Aber sie lässt sich eben nicht frei anpassen geschweige denn umprogrammieren oder mit einem Sprach-Synthesizer koppeln.

Bei den obigen Linux Programmen ist das alles machbar (wenn es auch sehr komplex ist) - daher (und aus anderen Gründen) ist Linux hier eine sehr gute Wahl.


Matthias Gläßner. TYPO3 Senior Developer, war u.a. Chefentwickler
beim FOCUS-Campus Nachfolger WHIZKID, Senior Entwickler bei Maybelline New York, Statoil und bei s.Oliver /
Inhaber von Seitenreport, der SEO und Website Analyse


Verfasst am: 24. 11. 2009 [09:08]
der_booker
3017 Beiträge
Moderator
selbständig
Dabei seit: 11.06.2009

✶✶✶ Unentbehrliches Mitglied

Beitrag hilfreich?

Kein Thema, wie schnell magst Du das denn umgesetzt haben? Kundenprojekt haben bei mir immer Prio 1 und dies hier wäre ein Funny-Projekt.

Heiko Jendreck
personal helpdesk & webdesign
http://www.phw-jendreck.de
http://www.seo-labor.com


Verfasst am: 13. 11. 2010 [23:44]
gmmts
188 Beiträge
Projektleiter
Dabei seit: 18.06.2009

Aktiverer Schreiber

Beitrag hilfreich?

Ist das hier noch aktuell? Denn die Idee ist super und es wäre genial, wenn da weiter gemacht werden würde. Wenn ihr da weiter macht, wären ein paar aktuelle Infos ganz nett. Ist ja schon fast ein Jahr her.

LG André Schneider

Projektleiter GMMTS Community
Eine Community mit vielen Funktionen, Datenschutz, Privatsphäre, Verschlüsselungen und vielem mehr.


Verfasst am: 24. 11. 2015 [16:01]
blackzero23
1 Beiträge
Dabei seit: 24.11.2015

Neuankömmling

Beitrag hilfreich?

Mich würde auch mal interessieren ob hier noch weiter gemacht wird.
Ich suche selber gerade nach so einem System.
Das Projekt welches ich realiesieren möchte, geht übere mehrere Etapen.
Als fertiges Projekt, sollte das System Personen unterscheiden,
mehrere Soundquellen ansteuern können, dazu gleich mehr, und auch auf
Elektrik zugreifen können wie Licht, Licht 20% etc.
Mit Soundquellen meine ich mehrere Soundkarten, wobei jede Soundkarte
für einem Raum der Wohnung ist so das das System dann auch unterscheiden
kann, in welchem Raum ich mich befinde.
Und das System sollte dann auch auf Sprache reagieren können und antworten
können.
Das ganze System sollte dann auf Linux laufen.

Etape eins wäre jetzt erstmal ein System, was ohne Grafische Oberfläche läuft
und erstmal einfache Dinge tuen kann wie Siri oder besser AIVC.
AIVC kann Dinge suchen und vorlesen, das Wetter anzeigen/ansagen,
und man kann selber Befehle und Antworten eingeben.
Das wäre so der erste Schritt des ganzen.
Weiß jemand ob es da schon was gibt oder zumindest im Ansatz???

MFG

Black Zero





to Top to Top

Du bist nicht eingeloggt. Bitte beachte, dass Du eingeloggt sein musst, um Themen zu erstellen oder auf Beiträge zu antworten.

RSS Feed abonnieren

Werde in Echtzeit über neue Foren-Beiträge informiert:

RSS Feed abonnieren


0 Mitglieder waren innerhalb der letzten 15 Minuten online (18 heute gesamt):
[keine]

Administratoren und Moderatoren:
[keine]

Seitenreport hat 45103 registrierte Mitglieder, 4250 Themen und 37093 Beiträge.
Der aktuelle Mitgliederzuwachs liegt bei durchschnittlich 7 bestätigten Neuregistrierungen pro Tag.
Pro Tag werden im Seitenreport Forum durchschnittlich 0 neue Themen und 1 Beiträge erstellt.
Die Durchschnittszahlen berechnen sich aus den letzten 7 Tagen.

Mehrfach empfohlen

Seitenreport ist einer der bekanntesten SEO und Website Analyse Dienste im deutschsprachigen Raum und wurde u.a. schon empfohlen:
von Mr. Wong im Wong Letter
vom Leserservice der Deutschen Post
vom Technik Blog SiN
und vielen anderen

Seitenreport API

Verfolge die SERP Positionen Deiner Keywords und erhalte Informationen über verwendete Mikroformate, frage die Ergebnisse unserer Analysen live ab oder greife auf unsere History-Datenbank zu. Dies alles bietet Dir die neue Seitenreport API. Kontaktiere uns, um weitere Infos zu erhalten.